AMLO

Metodología da triunfo a López Obrador

Publicado el

31 marzo, 2018

El País publicó que Andrés Manuel López Obrador tiene un 79% de probabilidades de ganar las elecciones, seguido de Ricardo Anaya (16%) y José Antonio Meade(5%).

La publicación refiere que usó un modelo para obtener dichos resultados, a base de encuestas y con un margen de error de 3.5 puntos.

A continuación se explica el modelo que utilizó para sacar las probabilidades de triunfo para el candidato presidencial de Morena.

Metodología del modelo. Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. El modelo es similar al que usamos en Francia, Reino Unido o Cataluña.

Funciona en tres pasos: agregar y promediar las encuestas en México; incorporar la incertidumbre esperada; y simular 20,000 elecciones presidenciales para calcular probabilidades.

Paso 1. Promediar las encuestas. El promedio de “El País” tienen en cuenta docenas de sondeos para mejorar su precisión. Los datos fueronrecopilados en su mayoría por la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra, la casa encuestadora y la fecha.

Peso por muestra. Las encuestas con más entrevistas reciben más peso, según una ley decreciente (pasado cierto umbral, hacer más entrevistas aporta poco).

Efecto de la casa encuestadora. La mayoría de encuestadoras tienden a dar mejores resultados a un candidato de forma sistemática. Es algo razonable: si usan métodos e hipótesis diferentes, es normal que sus desviaciones sean constantes. El problema es que estos efectos mueven el promedio artificialmente a corto plazo. Una opción para evitarlo es calcular los “efectos casa”, la desviación sistemática de cada encuestadora con cada candidato. Después, al promediar las encuestas, sustraer (parte de) esa desviación del dato de la encuestadora.

Advertisement. Scroll to continue reading.

[adsforwp id="243463"]

Encuestas repetidas. Se pondera a la baja las encuestas repetidas de un mismo encuestador. La idea es sencilla: no se busca que una empresa que haga muchas encuestas domine el promedio. Al calcular el promedio en una fecha, la encuesta más cercana de cada encuestador tiene peso 1, y el resto un peso reducido.

Peso por fecha. El último factor es el más importante: dar más peso a las encuestas recientes al calcular el promedio. Para conseguir eso se asignan pesos a los sondeos según una ley decreciente exponencial (por ejemplo, en este promedio una encuesta de hace 15 días recibe la mitad de peso que una encuesta de hoy). También se define una franja de exclusión y eliminamos completamente las encuestas con más de 60 días de antigüedad.

Paso 2. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Es necesario estimar la precisión esperada de los sondeos en México. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas se estudió cientos de encuestas en México y miles internacionales.

Calibrar los errores esperados. Primero se estima el error de las encuestas en México. Para este método se construyó una base de datos con encuestas de cinco elecciones desde 2000 —incluyendo las tres presidenciales. El error absoluto medio (MAE) de los promedios de encuestas en México ronda los 3 puntos por partido o candidato. Pero esos errores dependen al menos de dos cosas: del tamaño del candidato/partido y de la cercanía de las elecciones. Para tener en cuenta esos dos factores hemos recurrido a la base de datos de Jennings y Wlezien, recientemente publicada en Nature. Se analizó los errores de más de 4,100 encuestas en 241 elecciones de 19 países occidentales. Así se construyó un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: i) su tamaño (es más fácil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y ii) los días que faltan hasta las elecciones (porque las encuestas mejoran al final).

Distribución. Para incorporar la incertidumbre al voto de cada partido en cada simulación se utilizó uno distribución multivariable. Uso distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver. El nivel de curtosis se estimó con la base de datos. Luego se definió la matriz de covarianzas de estas distribuciones para que i) la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty), y ii) consideren correlaciones entre candidatos cercanos (tomando datos de duelos cara a cara y de segundas opciones). Por último, se escaló la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la amplitud esperados según la calibración.

Paso 3. Simular. El último paso consiste en ejecutar el modelo 20,000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidad que tiene cada candidato de ganar.

Por qué encuestas. El modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero a nivel nacional fallaron por pocos puntos incluso con Trump y con el Brexit. En otras elecciones recientes dieron menos que hablar porque estuvieron acertados (Francia, Países Bajos, País Vasco, Galicia, Cataluña). Pese a la creencia popular, lo cierto es que las encuestas no lo han hecho mal últimamente. Las encuestas raramente son perfectas, pero no existe una alternativa que demostre mejor capacidad de predicción.

Fuente / El Diario de Yucatán

Advertisement. Scroll to continue reading.

[adsforwp id="243463"]