sábado, 31 de mayo de 2008

Develando el Misterio de la Pobreza (I)


Pedro Francke ha escrito un articulo muy interesante (titulado "El Misterio de la Pobreza") en el blog de Actualidad Económica discutiendo algunas de las dimensiones técnicas respecto a la medición de la pobreza, señalando tanto algunos de los problemas comunes que se enfrentan quienes trabajan en su medición, como varios de los supuestos que estos se ven en la necesidad de asumir en esa dirección.

Las preguntas que plantea Pedro son relevantes, pero creo importante hacer notar que sus críticas deben ser tomadas, mas como cuestionamientos validos a las técnicas existentes para medir la pobreza que criticas a los estimados del 2007 del INEI en si mismos. Me explico: las críticas levantadas por Pedro se aplican a la mayoría de los estimados de pobreza de los países del mundo y no exclusivamente a los estimados de Perú, ni mucho menos exclusivamente a los estimados del 2007. La razón de ello es que, como todo campo de conocimiento humano, los teóricos de la medición de pobreza aun no han logrado consenso respecto a cuestiones importantes como, por ejemplo, la forma adecuada de incorporar dimensiones de bienestar relevantes como la salud y la educación es el computo de los indicadores de bienestar, o como incorporar el consumo de bienes durables en nuestros agregados de consumo.

Por estas razones, es siempre inevitable que algunas decisiones metodológicas tomadas a la hora de medir la pobreza sean, necesariamente, arbitrarias. Sin embargo, mas que cuestionar nuestros estimados de pobreza por esa razón, lo que corresponde hacer es evaluar el grado de sensibilidad que tienen los mismos ante cambios en sus supuestos fundamentales. De acuerdo con el informe del INEI, dicha evaluación ha sido realizada, pero no todos los resultados de esta aparecen en el informe. Seria importante que el INEI presente un informe detallado de dicho análisis, así como el conjunto total de rutinas estadísticas utilizadas en dicho proceso. El INEI ha dado un gran paso en aras de la transparencia al proveer parte de las rutinas de programación utilizadas (lo cual, hay que decirlo, es un gran merito que lo coloca a la vanguardia en América Latina, pues la mayoría de los institutos de estadística de los países de la región apenas si ponen a disposición del publico las bases de datos y no conozco el caso de algún otro país que haya hecho lo mismo con las rutinas de programación), y seria genial en esa dirección si se incluye la información señalada para que así cualquiera sea capaz de replicar los resultados. A pesar de lo anterior, hay algunas de las críticas de Pedro que pueden ser levantadas con la información que tenemos en este momento.

La idea básica que voy a defender en este post es que, siendo ciertas las observaciones de Pedro, no basta con plantearlas si no mas bien demostrar su relevancia empírica. Me explico con un ejemplo: si bien es cierto que el INEI imputa valores para una parte de aquellos que no respondieron la totalidad de la encuesta (siendo ello además un procedimiento estándar entre los institutos de estadísticas de la región), el asunto no reside únicamente en señalar esta limitación de la encuesta, si no más bien indicar cual es la magnitud de dicha imputación y estudiar empíricamente su impacto sobre nuestros estimados de pobreza. Si se encontrase que esa imputación tuvo una magnitud importante, y que ello afecta la calidad de nuestros estimados, entonces tendremos un serio reparo sobre la confiabilidad de nuestra medida de pobreza. Como indicaré más adelante, no parece que estemos en esa situación, por lo que la critica indicada siendo cierta desde el punto de vista conceptual carece de relevancia desde el punto de vista empírico. Y tengo la impresión de que varias de las criticas formuladas por los especialistas que han intervenido en el reciente debate a propósito de los estimados del 2007 están en la misma situación. Veamos los comentarios de Pedro para ilustrar mi argumento.

La primera observación de Pedro tiene que ver con el cambio en el marco muestral. Como es bien conocido, cuando se implementa un marco muestral nuevo es muy probable que la pobreza aumente, debido a que los nuevos hogares suelen estar ubicados en zonas urbano-marginales. Eso es lo que efectivamente ocurrió en el 2001, cuando la encuesta de aquel año empezó a usar un marco muestral basado en el pre-censo de 1999 en vez del marco anterior basado en el censo de 1993. En esa ocasión, la pobreza aumento en 5 puntos, de 49.8 a 54.8 (ver este informe para más detalles). Dado que las líneas de pobreza se construyen por dominio geográfico, lo importante no es tanto el cambio muestral en si mismo, sino mas bien si este cambio hace que la diferencia entre nuestros estimados de bienestar para un mismo periodo sea estadísticamente significativa. En el Cuadro 9 de la página 26 del informe del INEI se muestra que no hay cambios significativos cuando se estima el gasto promedio por cada uno de los dominios, ya sea con el marco muestral nuevo como con el anterior. El INEI debería haber incluido en su informe un cuadro parecido pero con los estimados de pobreza con y sin el cambio del marco muestral, aunque me parece que ello no debería cambiar mucho la historia. Dado lo anterior, parece que el cambio muestral no estaría ejerciendo un rol importante en esta ocasión, aunque para tener una opinión concluyente al respecto necesitaríamos que el INEI nos presente la información del caso y las rutinas utilizadas.

Un segundo punto de Pedro que me interesa comentar en su alusión al proceso de imputación de la información de aquellos que no responden la totalidad de la encuesta, aquello que se conoce como “no respuesta parcial”. Comparto su preocupación al respecto, sin embargo creo que el asunto aparece un poco sobre dimensionado en su comentario. ¿Por que? Bueno, sucede en realidad que dicha imputación se realizó sobre muy pocas observaciones. De acuerdo con el cuadro 7 de la página 24 del informe del INEI, solamente el 1% de las observaciones (814 personas) omitió responder los módulos de salud, educación y empleo de la encuesta. El proceso de imputación solo se realizó sobre 733 observaciones, mucho menos del 1% del tamaño total de la muestra, por lo que a priori me parece que, si excluyéramos a estas observaciones del cómputo de la pobreza, la historia no debería cambiar significativamente.

(Continua en este post)

8 comentarios:

Farid Matuk dijo...

Hola Stanislao:

El primer problema con las imputaciones es que no esta documentado el proceso de imputación. Cuando me toco hacerlo para el Censo 2005, se entregaron 2 CDs. Uno a los 100 días sin imputaciones y otro a los 6 meses con imputaciones, de tal modo que cualquiera puede verificar la magnitud y naturaleza de las imputaciones.

Respecto a la ENAHO, como en toda encuesta, no veo la necesidad de imputar, para eso está el reajuste ex-post de los factores de expansión.

Si fuera cierto que la imputación es insesgada e insignificante, es inútil porque a nivel de agregados los promedios no cambiarían, y los intervalos de confianza tampoco.

Pero a nivel de sub-dominios como el área rural de las regiones, artificialmente incrementa los grados de libertad, y hace ineficiente la inferencia en dichos subdominios.

Por ello creo que la mejor solución a la no respuesta en una encuesta es ajustar los factores de expansión, porque hace transparente que dominios tuvieron problemas de los que no, mientras que la imputación oculta las diferencias.

Mi opinión es que la imputación ha sido a gran escala y sesgada. Si miras el documento técnico (página 22) el primer gráfico muestra como la no respuesta de Enero-Junio 2006 ha sido "martillada" hacia abajo. Sólo basta que pongas las cuatro líneas de colores como serie de tiempo.

No tengo duda que una revisión de los cuestionarios físicos del primer semestre 2006 con la base de datos disponible muestra una artificial reducción de la no respuesta gracias a una masiva y sesgada imputación.

Saludos, Farid

Farid Matuk dijo...

Hola Stanislao:

Para conservar los comentarios en orden y tener un fructifero intercambio, entrecomillare parte de tu texto, y pondré debajo mis comentarios. Espero que esta opción te se aceptable.

Saludos, Farid

Farid Matuk dijo...

"Seria importante que el INEI presente un informe detallado de dicho análisis, así como el conjunto total de rutinas estadísticas utilizadas en dicho proceso."

Creo que no sólo es importante, sino un estándar de transparencia que instituciones como el Banco Mundial debieran colocar como condicionalidad en sus prestamos.

Hasta la medianoche de ayer, el INEI aún no completa las rutinas en STATA, pero ayer tambien en Canal N en el programa De Althaus se afirmó que "todo esta disponible" lo cual es falso.

Farid Matuk dijo...

"La primera observación de Pedro tiene que ver con el cambio en el marco muestral."

Creo que un elemento inusual en la historia de las ENAHO ha sido la mezcla de dos marcos muestrales por primera vez.

Todas las ENAHO anteriores que eran presentadas pertenecian al mismo marco. Por ejemplo Murillo, presentó todos los resultados con el marco del Censo 1993.

Con Moncada, se revisó la metodología de Murillo, y se publicó una serie con el Marco del Censo de 1993. Posteriormente se publicó una segunda serie con el marco del Pre Censo de 1999. El año 2000 se publicó con ambos marcos y era fácil deducir el efecto marco.

En esta ocasión, yo hubiera esperado una serie 2004-2007 únicamente con marco Censo 2005; que hubiera sido comparable con la serie 2004-2006 con marco Pre-Censo 1999, ya que ambas series tienen idéntica metodología y el efecto marco sería visible para el usuario.

Lo que tenemos ahora es una mezcla poco ortodoxa, y una visión dogmática de los resultados, porque no es posible replicar de manera independiente el insignificante impacto de la actualización del marco en la ENAHO 2007

Farid Matuk dijo...

"Un segundo punto de Pedro que me interesa comentar en su alusión al proceso de imputación de la información de aquellos que no responden la totalidad de la encuesta, aquello que se conoce como 'no respuesta parcial'"

El primer problema es que no estan disponibles las rútinas de imputación. Y de esta manera evaluar si la imputación fue insesgada.

Pero aunque fuese insesgada crea un problema de eficiencia para evaluar hipótesis nulas.

Supongamos que la encuesta no se inputa y lo único que se hace es un ajuste post-muestral de los factores de expansión. Y las pruebas de hipótesis incorporan los factores ex-post con intervalos de confianza mas grandes que los originales con los factores ex-ante.

Para simplificar, asumamos que se imputa todas las no respuestas de tal modo que los factores de expansion ex ante no se modifican. Las pruebas de hipótesis no discriman entre datos de campo y datos imputados, y con ello los intervalos de confianza son menores artificialmente gracias a la imputación.

Por ello, la imputación sólo tiene como resultado la reducción de la eficiencia, y no creo que esto sea una ventaja metodológica.

Stanislao Maldonado dijo...

Farid:

En el caso del Marco Muestral, no te parece suficiente que se indique en el reporte del INEI que no hay un cambio estadisticamente significativo en los agregados de gasto con y sin cambio en el marco muestral? Concuerdo contigo en que lo ideal seria tener dos series para comparar el impacto del cambio en el marco muestral, pero dado que solamente un 6% de hogares que tenian probabilidad cero de estar en el marco anterior estan ahora en el marco nuevo, uno podria esperar que los cambios no sean dramaticos, que es lo que en anexo del reporte del INEI se sugiere.

Stanislao Maldonado dijo...

Sobre el tema de la imputacion, mencionas que el problema es la reduccion de la eficiencia. No te parece que eso tambien es un tema empirico? Dado que la imputacion se realizo sobre menos del 1% del total de la muestra, me parece que la perdida de eficiencia no deberia ser importante. Ciertamente, ante la imposibilidad de identificar esas observaciones en la muestra, es dificil evaluar empiricamente esta cuestion. Pero me imagino que dicha imputacion debe haber sido una practica del INEI, asi que deberiamos tener una idea previa de que tan relevante ha sido este problema en encuestas de otros periodos. Como se manejaba esto durante tu gestion en el INEI? Se estudio como se comportaban los intervalos de confianza de las medidas de pobreza cuando se consideraban los valores imputados?

Luis Guillén dijo...

Permitanme involucrarme en la discución, no para hablar temas de pobreza, que es el tema principal, sino para comentar un poco sobre lo que se está mencionando de los errores de muestreo de las estimaciones con datos imputados.

Primero, la afirmación que se hace de que, al considerar los datos imputados los errores muestrales decrecen. Eso no es cierto, es todo lo contrario. Lo que pasa, es que el INEI no calcula correctamente los errores de muestreo. Y me explico. Una data imputada no tiene el mismo tratamiento que una no imputada, al momento de calcular los errores de muestreo, que son los indicadores de la precisión de las estimaciones.

No se trata de calular errores con la data sin imputar y la data imputada y ver el efecto. Si se usa la misma rutina de calculo en ambos casos (por ejemplo un comando svymean en el STATA) esa diferencia obserada no es debido al efecto imputación, pues esta rutina básica no considera en ningún momento el procedimiento utilizado en la imputación de datos faltantes. Solo hace un calculo de errores con una muestra una mas grande que la otra, y por lo tanto la mas grande (la imputada) presentará menor error (lo cual estadísticamente no es correcto).

Lo correcto es trabajar con una rutina de cálculo que considere en sus cálculos intermedios el procedimiento utilizado para la imputación. De tal manera que, cada calculo hecho por el procedimiento involucre el efecto imputación, y finalmente se tenga una correcta estimación de los errores muestrales con datos inputados.

Me permito sugerir una de estas rutinas de cálculo, y es la que está basada en procedimientos de remuestreo, me refiero a la técnica de BOOTSTRAP, la cual, considera a la muestra una representación de la población objetivo, y a partir de ella ir consruyendo estimaciones basadas en muchas remuestras que al final, la variabilidad entre estas, es tomada como una aproximación al error de muestreo de la estimación. Pero con la gran ventaja, de que en cada una de estas remuestras se replica el proceso de imputación utilizado, y con esto obtener un cálculo correcto de los intervalos de confianza y por lo tanto mejores decisiones.

Espero haber sido algo claro, aunque se que el cálculo de los errores de muestreo, aún es un tema poco comprendido en las instituciones que manejan encuestas. El INEI debería ser el ejemplo del buen cálculo, pero lamentablemnte no lo es.

Para, un poco, hacer más creible lo aca mencionado por mi persona, les sugiero leer los más de 30 artículos que, sobre este tema y uso del BOOTSTRAP en datas imputadas, se encuentran en la página web del STACAN, la oficina de estadística de Canada.