Inferencia ecológica (o una introducción a algunos posts que se vendrán)

La idea de este post es presentar algunas cuestiones que deberían servir para "interpretar" y hacer comprensibles algunos posts que se vienen. Una clave de lectura, digamos. Habíamos planteado antes que íbamos a tratar de estimar de alguna manera, la evolución del "voto kirchnerista" sobre la base de los datos de las elecciones de 2007, 2011 (presidenciales) y 2009 y 2013 (legislativas) desagregados a nivel departamental, la proporción del cambio de voto al kirchnerismo en esos momentos. Podríamos, también, tratar de estimar la pérdida del kirchnerismo entre 2011 y 2013. Sigamos el orden cronológico. Comencemos, entonces, por las elecciones presidenciales de 2007 y 2011. El mismo razonamiento que sigue podría utilizarse para los siguientes momentos.
Lo que necesitamos conocer, para cada votante, el voto que emitió en 2007 y el que emitió en 2011. Podríamos representar el problema en una tabla de contingencia 2 x 2 (el planteo podría extenderse a una tabla r x c, pero no nos vamos a meter con eso ahora). Sobre la base de los datos electorales, nosotros conocemos solamente los marginales de esa tabla (las celdas que están en cursiva y subrayadas). El problema es que nosotros quisiéramos conocer son las celdas interiores de la tabla. La cuestión, entonces, es estimar dichas celdas.


Voto FPV 2011 Voto no FPV 2011 Total 2011
Voto FPV 2007 b1 (1 - b1) FPV07
Voto no FPV 2007 b2 (1 - b2) (1 - FPV07)
Total 2007 FPV11 (1 - FPV11) N

- FPV11: proprción de total votantes al FPV en 2011
- 1 - FPV11: proprción de total votantes NO al FPV en 2011
- FPV07: proprción de total votantes al FPV en 2007
- 1 - FPV07: proprción de total votantes NO al FPV en 2007

Si llamamos b1 a la proporción de votantes que votaron al FPV en 2007 y al FPV en 2011, podemos definir su complemento como 1 - b1 (la proporción de votantes que apoyaron al FPV en 2007 y a otro partido en 2011). Finalmente, también podríamos construir una medida llamada b2 (proporción de votantes que no votaron al FPV en 2007 y sí lo votaron en 2011) y su complemento 1 - b2 (proporción de votantes que NO votaron al FPV en 2007 y NO lo hicieron en 2011).
Para cada departamento podríamos construir una tabla similar. El objetivo, entonces, es poder estimar b1 y b2 a nivel agregado y, también, hacer una estimación para cada departamento. Y, si fuera posible, mapear b1 y b2 para cada departamento.
Esto es un típico problema de "inferencia ecológica", es decir la estimación de comportamientos (o datos) de un nivel bajo de agregación (por ejemplo, de individuos) sobre la base de información procesada a un nivel de agregación mayor (por ejemplo, departamentos). Ernesto Calvo y Marcelo Escobar trataron de hacer algo parecido a esto que estamos haciendo nosotros, pero bastante más complejo y en un período de tiempo bastante más largo.
Muchas veces se ha planteado este mismo problema para tratar de estimar algunas características de los votantes: en el caso argentino se ha usado clásicamente para estimar el peso de los obreros en el voto peronista: Cantón y Jorrat, Balsa, etc. (*).  En estos casos, la variable independiente sería la pertenencia obrera o no de los votantes y la variable dependiente, el voto al peronismo o no. En realidad, esta técnica debería ser aplicable no solamente para estudios electorales, sino para cualquier objeto d eestudio en el que se intenten estimar a partir de información agregada, datos, conductas o atributos de unidades situadas a un menor nivel de agregación.
Ahora bien, de la tabla anterior surge la siguiente identidad básica para cada departamento:
FPV11 = FPV07 * b1 + (1-FPV07) * b2
Hay varias técnicas de estimación de estas celdas interiores. Puede verse que la forma de esta identidad es equivalente a la ecuación de una recta. Con esta idea en mente, Goodman (en un artículo de 1956) demostró que si se asume que la relación entre las dos variables es constante en todas las unidades (supuesto necesario para poder estimar los dos parámetros b1 y b2 desconocidos), se cumplen los supuestos del teorema de Gaus-Markov, por lo cual las celdas interiores pueden estimarse mediante una regresión de mínimos cuadrados ordinarios.

Sin embargo, este método particular fue bastante criticado, especialmente por el supuesto de "invariancia" de la relación a lo largo de los diferentes departamentos. Existen otro método para esta regresión que se llama "de los límites".
Sin embargo, Gary King elaboró un método alternativo (una especie de síntesis de los dos) que consiste en intentar extraer la información presente en cada distrito para tratar de "optimizar" la estimación final de los parámetros. La cuestión es un poco compleja para tratar de "embutirla" en un post. Pero al final hay algunos links interesantes (*). Este último es el método que vamos a tratar de replicar. Hay que aclarar que este método también ha sdo criticado (*). Pero hoy es lo que hay. Para ello vamos a utilizar el software dieñado específicamente para dicha estimación: EzI.
Para ir terminando y pasando en limpio, lo que vamos a tratar de estimar son los siguientes indicadores: 
  • b1: la proporción de votantes que votaron al FPV en 2007 y volvieron a votarlo en 2011. Este coeficiente expresaría el voto "fiel" al FPV, es decir, el procentaje de votantes que ha mantenido el kirchnerismo. 
  • 1 - b1: la proporción de votantes que votaron al FPV en 2007 y NO volvieron a votarlo en 2011. Este valor expresaría la pérdida de votos por parte del kirchnerismo 
  • b2: la proporción de votantes que NO votaron al FPV en 2007 y lo votaron en 2011 y podría ser considerado como una aproximación a la "ganancia" de votos por parte del kirchnerismo. 
  • 1 - b2: la proporción votantes que NO votaron al kirchnerismo en 2007 y tampoco en 2011. Éste parámetro constituiría una aproximación al voto opositor "duro".
Bueno, veremos que nos dan los numeritos.
---------------------------
  (*) Si a alguno le interesa, dejo algunos links con ínformación y bibliografía sobre el tema de la inferencia ecológica. En la red hay mucho más, obviamente.

Comentarios

juamshii ha dicho que…
Hola! No anda el link de "Diapositivas bastante didácticas sobre diversos métodos de inferencia ecológica". ¿Lo tenés y me lo podés mandar? ¡Muchas gracias!

Juan, en tw @tuvedengueyque

Entradas populares de este blog

Sobre la multicausalidad

Número efectivo de partidos en elecciones presidenciales 1983-2011

Trabajando con datos georreferenciados en R