domingo, 14 de septiembre de 2008

Torturar los datos para decir medias verdades: midiendo la desigualdad con la encuesta de Apoyo

Los últimos datos recogidos por Apoyo para Lima y Callao en su estudio “Niveles Socioeconómicos para la Gran Lima” han dado pie a que algunos analistas cometan errores de interpretación de la evidencia mostrada por dicho estudio (me parece que guiados por cierta ceguera ideológica), llegando algunos al extremo de caer en errores imperdonables como los que he comentado en mi post sobre los narradores de cuentos. Estoy empezando a creer que no es casualidad que sea nuevamente Humberto Campodónico el protagonista de esta historia. Me ocuparé de él en otro post. Empezaré por discutir un post escrito por Raúl Mauro al respecto y de paso aprovechar para sentar las bases conceptuales en las que me apoyaré a la hora de comentar el pésimo artículo que Campodónico ha escrito en la República comentando los resultados del estudio en cuestión.

Empecemos con Mauro. De un tiempo a esta parte, Mauro viene escribiendo una serie de posts en su blog cuestionando la independencia del INEI y sugiriendo abiertamente (sin mostrar argumento serio al respecto) que este estaría manipulando las cifras de pobreza y desigualdad, poniendo en tela de juicio la calidad profesional de la gente que trabaja o que colabora con el instituto. Creo que dicha actitud le resta seriedad como analista. Por ejemplo, en un post reciente en donde critica a Alan García, menciona lo siguiente:
“Bueno, al parecer el Presidente debe estar tomando algo más que litio para tranquilizar los nervios, para que sus reacciones no avienten su popularidad al vacío. Por ello, ha aprovechado en anunciar, que a pesar que estamos en un año de crisis, la pobreza caerá a un menor ritmo que el año pasado, pero que finalmente caerá. Claro, le queda por delante no sólo los cuatro meses reglamentarios para la medición de los niveles de vida por un INEI politizado, sino también los cinco o seis meses adicionales para cocinar "matemática y estadísticamente" la reducción de la pobreza.” El Sonsonete que enroncha a García

En el post titulado “El INEI subestima la desigualdad”, Mauro calcula el índice de Gini y otras medidas de desigualdad a partir de unos cálculos que Campodónico construye a partir del artículo periodístico aparecido en el Comercio comentando los resultados del estudio de Apoyo. El cuadro de abajo resume los resultados de Mauro.


Luego, Mauro nos sugiere lo siguiente:
“Con esta evidencia entre manos, aventuro una hipótesis que quiero probar. La encuestadora IpsosApoyo ha tenido un mayor éxito en medir la desigualdad debido a que tiene una mejor aceptación entre "los ricos" para hacer este tipo de mediciones. No obstante, también puede pensarse que el INEI subestima, interesadamente, el nivel de desigualdad en nuestro país lo que, puede ser perjudicial para la legitimidad que este instituto tiene para presentar las estadísticas nacionales.” El INEI subestima la desigualdad (los subrayados son míos).

Me sorprende la sugerencia de Mauro. La encuesta de Apoyo es difícilmente un buen sustituto de la Encuesta Nacional de Hogares como para sugerir algo así, más aun si tenemos en cuenta el tamaño de muestra. Un argumento típico para cuestionar la capacidad de las encuestas de hogares para capturar la adecuadamente la distribución del ingreso consiste en evaluar la tasa de no respuesta en los deciles de ingreso más altos. Se argumenta que la encuesta no permite aproximarnos adecuadamente a la medición de los niveles de vida de los ricos debido a que estos constituyen una proporción muy pequeña de la población, la cual no es capturada por medio de una encuesta de hogares estándar. Si se le achaca a la ENAHO esa dificultad teniendo un tamaño de muestra para Lima Metropolitana del alrededor de 12,000 observaciones, me parece muy difícil que una encuesta de tan solo 1,221 observaciones (de las cuales solamente alrededor del 6% -poco mas de 70 observaciones- deben provenir del nivel socioeconómico más alto) pueda capturar de manera más precisa los niveles de vida de los ricos. Aunque necesitaría tener más información respecto al diseño de la encuesta, tengo la impresión que, bajo estas condiciones, lo más probable es que los errores estándar de los indicadores de desigualdad sean demasiado grandes como para confiar en ellos.

Para ilustrar mi punto, hice algunas simulaciones (a partir de un programa en Excel desarrollado por el estadístico chileno Juan Muñoz y distribuido en el modulo de muestreo del curso sobre pobreza y distribución del ingreso que organiza anualmente el Banco Mundial para su staff en Washington) para evaluar cual es la precisión que tiene una encuesta con muestreo aleatorio simple para capturar el tamaño de los ricos en una sociedad abstracta. Supongamos que efectivamente el tamaño de la población rica en esta sociedad es de 5%. La población es de 8000 habitantes (para aproximarnos gruesamente a los 8 millones que constituyen la población de Lima) y el tamaño de nuestra muestra es de 121 personas. Como todo estadístico sabe, el tamaño de la población no importa mucho, por lo que para nuestro ejercicio no hace mucha diferencia que el tamaño de esta sea proporcional al tamaño de la muestra. Luego de 3000 simulaciones, el tamaño estimado de los ricos por una encuesta con este tamaño de muestra oscila en un rango que va desde 0 hasta 11%. Como se observa, la magnitud del error es significativa. El programa en excel puede ser descargado desde aquí y algunos de los materiales del curso al que asistí pueden obtenerse en el siguiente link.

Tener un tamaño de muestra más grande permite reducir el tamaño del error (en este caso estamos hablando de una muestra doce veces más grande), aunque no de manera proporcional al incremento del tamaño de la muestra. Esto es, duplicar la muestra no significa que los errores caerán a la mitad. De hecho, los estadísticos saben que los errores son inversamente proporcionales a la raíz cuadrada del tamaño de la muestra. No obstante lo anterior, es claro que la ENAHO debe proporcionar estimados mucho más precisos que los que eventualmente nos daría la encuesta de Apoyo. Como dije anteriormente, sería preciso tener mayor información respecto al diseño metodológico de la encuesta, pero no tuve fortuna al buscar dicha información en su página web. Aparentemente, no sería de dominio público.

Argumentar –aun a nivel de hipótesis- que el INEI estaría subestimando la desigualdad basándose en evidencia tan poco solida me parece poco serio. Argumentar que el INEI estaría subestimando la desigualdad interesadamente amparándose en lo anterior me parece aun peor.

2 comentarios:

Raul Mauro dijo...

Hola Stanislao, te escribí mi respuesta en el siguiente post:

http://politekon-peru.blogspot.com/2008/09/versos-apasionados-al-margen-sin.html

Saludos,

Anónimo dijo...

Hola Stanislao:

Escribí unos comentarios a la nota de Raúl en su blog, y los copie en MacroPerú.

Respecto a los tamaños de muestra, la ENAHO es alrededor de 20,000 al año desde el 2001, y Lima tiene 1,600 y los departamentos 600.

Como he afirmado numerosas veces, comparar Ginis en términos absolutos sin intervalos de confianza, es comparar ruido con ruido.

Por ello el Montecarlo que haces con 3,000 simulaciones me suena perfectamente razonable.

El otro tema es que el estrato A de Apoyo es 5%, que si la memoria no me falla es el porcentaje de los hogares que tenían automóbil en el censo de 1961, y que Webb lo tomó como umbral, creo recordar que justamente su definición de clase media era ese 5%.

Una base de datos mas interesante, que tiene un sesgo a priori, es el millón de hogares que el MEF encargo a CUANTO entrevistar para el SISFOH. Algunos análisis están incluidos en el último MMM:

Saludos, Farid

Postdata. Respecto a la manipulación de datos de la pobreza por parte del INEI creo que es fehaciente, por ejemplo:
1) En el 2006 la poblacion de referencia fue ubicada entre el 20% y 50% de la muestra y en 2007 entre el 18% y 48% de la muestra.
2) La imputación de no respuesta se efectuó únicamente para los cuatro primeros meses de 2006
3) Los resultados publicados para 2004-2005-2006-2007 no son replicables, y por ello carecen de transparencia.