VALIDEZ DE LAS ENCUESTAS ELECTORALES
Octubre 29 de 2015
Antes de las elecciones, en todos los países del mundo donde existen, hay firmas encuestadoras que se dedican a tratar de establecer con antelación el resultado que arrojarán las elecciones en cuestión.
En principio esto parece bueno: la gente podría tener una idea de cómo van evolucionando las diferentes campañas y candidatos, sin embargo, el tema se ha vuelto complejo por al menos tres cosas que lo contaminan:
1. Muchas encuestas son financiadas por las propias campañas electorales, lo que introduce per se un sesgo importante para el investigador (para quien hace la encuesta), incluso si asumimos la buena fe y la carencia total de dolo o deseo consciente de alterar los resultados.
2. Los resultados de las encuestas podrían influenciar a los votantes indecisos, que, de manera inconsciente, pueden verse inclinados a votar por quien va ganando. Dicho de otro modo: el resultado de las encuestas puede “manipular” la decisión que finalmente tomen los electores.
3. Los resultados de las encuestas pueden influir (de hecho lo hacen) en los grupos políticos y económicos, que van definiendo sus coaliciones y apoyo monetario dependiendo de quién va ganando. Dicho de otro modo: si alguien va ganando en las encuestas es posible que reciba más apoyo político y más dinero que quien va tercero. El apoyo político y el dinero hacen más fuertes a las campañas y pueden entonces “mover” al elector sin que él mismo lo perciba.
Las encuestas no son entonces un simple espectador pasivo de los procesos electorales. Por el contrario, se han vuelto actores muy protagónicos en el sentido que tienen la capacidad potencial de cambiar el resultado de unas elecciones en la medida en que “manipulan” el inconsciente colectivo. Por este motivo siempre he creído dos cosas con respecto a las encuestas:
1. Deberían ser reguladas por el estado de manera muy estricta. El estado tendría que sancionar a los encuestadores que violen unas normas metodológicas y técnicas previamente establecidas y debería prohibir la difusión de encuestas en donde el dolo y/o las falencias metodológicas se puedan establecer. Para lograr esto cada encuesta debería presentar su protocolo con antelación (descripción completa de la metodología que van a emplear cuando se autorice la realización de la encuesta) a un comité de expertos en metodología de la investigación y estadística. La encuesta debería ser también vigilada durante la recolección de datos, el análisis y la presentación final.
2. El público elector debería recibir educación con respecto a lo que son las encuestas y a la forma correcta de entenderlas e interpretarlas, para evitar ser víctima inconsciente de los encuestadores.
Como no soy (ni quiero ser) gobernante, lo que sí puedo hacer es colaborar un poco con el segundo punto. Por esto me permito escribir estas líneas que pretenden explicar cómo debería hacerse una encuesta para que quede bien hecha y por lo tanto provea un informe relativamente cierto de lo que está sucediendo en el debate electoral. Debo aclarar que no soy epidemiólogo, ni estadístico, ni encuestador. Son solo 30 años vinculado a la investigación clínica, a la epidemiología y al método científico, los que me permiten atreverme a escribir sobre esto. Tampoco estoy dispuesto a polemizar sobre el tema. Quien lo conozca mejor debe hacer caso omiso de estas líneas y quien quiera profundizar más puede buscar información adicional, que abunda en la red.
Empecemos entonces por decir que una encuesta es en realidad una investigación, es decir, un método estructurado y reproducible que pretende responder una pregunta. En este caso la pregunta de investigación sería algo como: ¿cómo van a quedar las elecciones del próximo 25 de octubre?
Pues bien, si nosotros pudiéramos hacer una encuesta que cumpliera con las siguientes condiciones técnicas, la confiabilidad de nuestros resultados sería muy cercana al 100% si:
Ninguna encuesta (que no sea la elección misma) puede cumplir con todos estos requisitos, lo que significa que todas las encuestas van a ser una aproximación a la verdad, y en ningún caso la verdad misma (entendiendo por “verdad” el resultado final de las elecciones). Los puntos 2 al 5 de la tabla 1 nos sirven, por ahora, para entender que hay muchos aspectos de una encuesta que no podemos controlar. Dichos aspectos hacen que la encuesta tienda a alejarse de la verdad poblacional y empiezan a introducir el concepto de “margen de error”. Más adelante volveremos sobre este tema. Por ahora vamos a dedicarnos al punto 1, al tamaño de la muestra, pues ya el lector supondrá que ninguna encuesta va a poder interrogar a toda la población habilitada para votar.
EL PODER DE UNA ENCUESTA
Como ya lo había dicho, una encuesta es en realidad una investigación que pretende resolver una pregunta. Es entonces un método de investigación de poblaciones. Si uno va a hacer una encuesta debería saber si el diseño (se supone que uno la diseña antes de salir a hacerla) va a ser capaz de responder la pregunta que nos hicimos… porque puede que no.
Mejor dicho:
Poder: es la capacidad que tiene una encuesta de responder la pregunta de investigación.
Queda fácil entonces entender que hay encuestas más poderosas que otras. Por ejemplo, si sabemos que el número de personas habilitadas para votar en Cali (a lo que llamaremos potencial electoral) es de 1´611.391, podríamos leer en la prensa dos encuestas diferentes:
Encuesta 1: El candidato A sacará 30% de los votos, el B sacará 20%. Personas encuestadas: 100.
Encuesta 2: El candidato A sacará 25% de los votos, el B sacará 55%. Personas encuestadas: 1´300.000.
No se necesita ser estadístico para saber que la encuesta 1 tiene una muestra muy pequeña mientras que la encuesta 2 tiene una muestra enorme. Es muy claro que la encuesta 2 tiene más poder que la 1. Dicho de otro modo, desde antes de realizar las encuestas sabríamos que la encuesta 1 no va a tener la capacidad (poder) de definir nada, mientras que la 2 va a tener un poder tan grande que sería casi como adelantar las elecciones.
Queda claro entonces que el poder de una encuesta tiene una relación directa con el tamaño de la muestra. Los dos ejemplos de arriba son muy extremos, pero sirven para ilustrar la idea. Aunque el poder de un estudio no depende sólo del tamaño de la muestra, en aras de la sencillez vamos a aceptar que el tamaño de la muestra es la variable que más influye sobre dicho poder.
Siendo así, queda claro que mientras mayor el tamaño de la muestra mayor el poder de nuestra encuesta. Surgen entonces dos preguntas importantes, mirémoslas de una en una:
1. ¿Hay una forma de cuantificar el poder de una investigación? Y de ser así, ¿qué cifra de poder consideraríamos “suficiente” como para aceptar que nuestra encuesta tendrá una buena capacidad de responder la pregunta de investigación?
La respuesta a esto es que sí hay forma de calcular el poder de una investigación (desde antes y aún después de hacerla) y que un poder inferior al 80% nos haría dudar mucho de la encuesta. Este poder debería establecerse con antelación (en el protocolo de la encuesta) y, sin duda, reportarse junto con los resultados. Si fuésemos más estrictos (como debería ser), si el poder de una encuesta es inferior al 80%, sus resultados no deberían ni siquiera ser publicados.
2. Al leer los resultados de una encuesta, ¿cómo puedo saber si el tamaño de la muestra (el número de encuestados) fue adecuado para garantizar un poder mínimo del 80%?
La respuesta a esta pregunta es un tris más compleja. Digamos para empezar que no hay una cifra de tamaño de muestra que se pueda llamar correcta para todas las encuestas. Esta cifra dependerá del tamaño del potencial electoral y también de las diferencias que existan entre un candidato y otro. Voy a poner un ejemplo que nos permita entender esto: supongamos un potencial electoral de 1´000.000 de personas en Bogotá y el mismo potencial electoral en Barranquilla. Supongamos que son sólo dos candidatos en cada ciudad. En Bogotá la carrera está muy pareja pues Peñalosa y Pardo van cabeza a cabeza. Ahora bien, en Barranquilla la carrera está muy dispareja pues Char es el favorito de todos y a Sánchez no lo conocen ni en la casa. Supongamos ahora que vamos a hacer la misma encuesta en ambas ciudades y que los encuestados van a ser 1.000 personas. Pues resulta que 1.000 puede ser un tamaño de muestra perfectamente capaz (poder) de establecer el resultado electoral en Barranquilla, pero tendría un poder muy bajito para responder la misma pregunta en Bogotá. Como en Bogotá la carrera va más pareja, si quiero averiguar quién va a ganar me tocaría un tamaño de muestra mucho más grande. La cosa es tan seria que si la diferencia real (la que aparecerá en las elecciones) es muy bajita, una encuesta con el poder suficiente tendría que encuestar a casi todo el potencial electoral, lo que es imposible.
¿Lo anterior significa que si los candidatos son muy parejos una encuesta no puede saber quién va a ganar y por lo tanto no debería ni hacerse? La respuesta corta es sí. El tamaño de muestra necesario sería tan grande que no es factible realizarla.
Ahora bien, si renunciamos a hacer nuestra encuesta en Bogotá (ya sabemos que no serviría) y nos vamos a Barranquilla, ¿1.000 personas serían suficientes? Como ya lo dije, el investigador (la empresa encuestadora) debería decir esto con claridad, sin embargo uno como ciudadano puede hacerse a una idea tratando de calcular un tamaño de muestra adecuado para una encuesta hipotética que uno haría. Esto nos permitiría saber si 1.000 son suficientes o no.
CALCULAR EL TAMAÑO DE MUESTRA
No pretendo subestimar el tema. El muestreo es toda una rama de la estadística. Y es compleja. La cosa es que la complejidad no tiene por qué ser óbice para que uno pueda hacer una aproximación al tema y hacerse a una idea sobre el poder de una encuesta, pues sabemos que casi nunca lo publican.
Hay una fórmula que se usa mucho para el cálculo del tamaño de la muestra para datos globales:
n = Tamaño de la muestra (número de encuestas que vamos a hacer).
k = Es una constante que depende del nivel de confianza que tenemos en la calidad de nuestros datos. En general un nivel de confianza inferior al 95% sería casi ridículo. Un nivel del 97.5 sería aceptable. Del 99% sería ideal. El valor a usar de k se obtiene entonces de la siguiente tabla y es un reflejo de la probabilidad que queremos de que un resultado obtenido no se deba al azar:
p = Es la proporción de individuos que poseen en la población las características del estudio. Este dato es generalmente desconocido y se suele suponer que p = q = 0.5. Esta es la opción considerada más segura.
q = Es la proporción de individuos que no poseen en la población las características del estudio. Es igual a 1 – p.
N = Es el tamaño de la población, o universo, o potencial electoral.
e = Es el error muestral deseado. Acá lo que toca colocar es la diferencia entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si le preguntáramos al total de ella. Mejor dicho, como no vamos a encuestar a toda la población universo (todo el potencial electoral) entonces establecemos el margen de error que queremos que la muestra tenga. Este puntico tiene mucha importancia porque si nuestra encuesta tiene un margen de error del 5% (mucho) y arroja que el candidato A obtuvo el 25% de los votos, en realidad estamos diciendo que en las elecciones obtendrá una cifra que va entre el 20 y el 30%. Si le aplicamos la misma encuesta al candidato B y arroja que este alcanzó el 28% de los votos, en realidad estamos diciendo que en las elecciones obtendrá una cifra que va entre el 23 y el 33%.
Miremos bien: 28% (candidato B) suena más que 25% (candidato A), pero debido al margen de error tan alto que pusimos en el término e de la ecuación, lo que estamos diciendo en realidad es lo siguiente:
En las elecciones los candidatos podrán sacar el siguiente porcentaje de la votación:
Vemos cómo ambos candidatos, a la hora de las elecciones podrían obtener cualquiera de los valores representados. Hay incluso 8 posibilidades de que queden empatados, pero la encuesta bien podría estar indicando:
1. Que el candidato A puede obtener 20% y el B 33% (ganando el B sobrado).
2. Que el candidato A puede obtener 30% y el B 23% (ganando el A sobrado).
Como diría el mago: “valiente encuesta”. Con este número de encuestados y este margen de error del 5% el reporte decente que la encuesta debería dar es algo como:
“NUESTRA ENCUESTA DE DATEXIPSONAPOLEONCM&ELTIEMPO NO TUVO EL PODER SUFICIENTE PARA ESTABLECER CUÁL DE LOS DOS CANDIDATOS SERÁ EL GANADOR”. Y punto. Ni siquiera debería publicar los valores obtenidos (28% Vs. 25% porque esto induce al error inconsciente del lector).
Los encuestadores, cuando esto se les presenta, suelen decir EMPATE TÉCNICO, lo que es una mentira del tamaño de una catedral. Los candidatos no van para nada empatados. Lo que deberían decir es “NUESTRA ENCUESTA NO PUDO ESTABLECER UNA DIFERENCIA ENTRE LOS CANDIDATOS. SE SUGIERE HACER OTRA ENCUESTA CON UN NÚMERO MAYOR DE ENCUESTADOS”. Eso sería serio. Ninguna de las encuestadoras conocidas, en mi opinión, lo es.
Veamos a ver si somos capaces de insertar esta fórmula que hice en Excel® (click aca para bajar la hoja de Excel):
Vuelvo a repetir que hay más métodos de establecer el tamaño de la muestra (este no es dogma de fe ni palabra de matrimonio), sin embargo, esta formulita sencilla nos es útil para aproximarnos al tema. Como veremos más adelante, nuestras encuestas suelen tener otros problemas metodológicos que hacen que el tamaño de muestra sea solo uno de los temas a considerar (no necesariamente el más importante, auque algunos podrían argumentar lo contrario). En cualquier caso, con esta fórmula podemos jugar con los valores y aprender a leer las encuestas. Veamos: Si decimos que el nivel de confianza lo queremos en 97.5% tendríamos un valor de k de 2.24 (menos es inaceptable). Como desconocemos p y q ponemos 0.5 en cada campo. El error lo queremos del 2% a cada lado (4% en total, para poder separar un candidato del otro) por lo que ponemos 2% en e. N es el potencial electoral que para Cali es del orden de 1´611.391 personas. Este cálculo nos arroja un n (número de encuestas a realizar) de 3136 personas. Cualquier encuesta con un número menor de 3136 encuestados tendrá un poder muy inferior al requerido para encontrar la verdadera intención de voto por un candidato y por lo tanto NO SIRVE.
Revisen las encuestas en la ficha técnica. No vi ninguna con este número de encuestados. Las firmas encuestadoras la hacen fácil: primero tratan de encuestar los más que pueden. Al finalizar la encuesta, cuadran el margen de error hasta que les dé un n parecido al que encuestaron y listo. A reportar.
¿La quiere más clara? La última de CM& con el Centro Nacional de Consultoría arrojó los siguientes resultados:
En la ficha técnica dice que fueron 882 encuestas. Si modificamos la formulita de arriba vemos cómo le pusieron un valor k de 1.96 (confianza en los datos del 95%), e fue del 3.3% (6.6% de error, es decir, de posible sobreposición de valores). Si le damos enter el valor obtenido es 882. Lo que es inaceptable es el error que admitieron tanto en k (la confianza en sus datos) como en e (el margen de error). Si a mí me preguntan no diría que CM& y el Centro Nacional de Consultoría acertaron. Diría que simplemente adivinaron con muchas dificultades, porque su encuesta no tenía el poder de decir lo que dijo. De hecho lo que dijo fue muy errado porque los resultados de las elecciones fueron: Armitage 264.118 votos (38.15%), Ortiz 175.394 votos (25.33%) y Garzón 149.889 votos (21.65%).
Pero miremos la última encuesta de Gallup de una fecha muy similar:
A esto lo llamaron “empate técnico”. Si miramos la ficha técnica nos hablan de 665 encuestas. ¿Poder? Ya sabemos que con ese número no puede tener ninguno. Tocaría aceptar un k para confianza del 95% (malonga) y un e de 3.8% (7.6% de dispersión total, horrible).
Fue la calidad de las encuestas la que no permitió establecer con antelación quién sería el alcalde y con qué votación ganaría. Esto está inventado y habría sido posible hacerlo, si las encuestadoras fueran serias.
OTROS ASUNTOS (MUY IMPORTANTES) QUE SE DEBEN TENER EN CUENTA
Otro tema que hay que debatir un poquito (para acabar de completar): una vez obtenido el número de encuestas que se deben realizar (3136 para nosotros… que somos serios) toca entonces entender que hay que seleccionar 3136 del total de 1´611.391 potenciales votantes. Esta selección tiene que ser completamente al azar para lograr que la probabilidad de cada votante de ser incluido en la encuesta sea exactamente la misma. Esto se dice fácil pero en realidad es una tarea titánica y mucho, mucho más difícil de lo que uno se imagina. Cuando uno mira la ficha técnica de las encuestas ve cómo los sistemas de selección de los encuestados parecen al azar, pero en realidad se encuentran llenos de sesgos que limitan muchísimo el poder de dichas encuestas. Veamos esto con un poquito más de cuidado: si a alguien le dicen que debe escoger 3.000 personas de Cali al azar, es posible que sugiera varias formas de hacerlo, por ejemplo:
1. Se toma el directorio telefónico, se abren páginas a la loca, se escoge a alguien sin mirar y luego se llama.
2. Dividimos la ciudad en 6 sectores para que queden representados todos los estratos socioeconómicos. Luego mandamos encuestadores a cada uno de esos sectores y entrevistan a todo el que pase por la esquina donde está el encuestador.
3. Obtenemos (no sé cómo) todos los números de cédulas de Cali, las numeramos de forma consecutiva y luego empezamos a decir números a la loca, como se nos vaya ocurriendo, hasta que completemos 3.000.
¿Estas técnicas le parecen al azar? Pues en realidad no lo son tanto. Están plagadas de sesgos que arruinarían la investigación (se llaman sesgos de selección). Por ejemplo, en la primera opción, si yo no tengo teléfono no hay modo de que esté en el directorio y por lo tanto no puedo ser encuestado. Además, en una casa con un solo teléfono pueden vivir varios adultos que tampoco tienen posibilidad de quedar en el estudio. Conclusión: el método 1 es horrible. Pero el método 2 y el 3 no son para nada mejores. No me voy a extender porque creo que ya quedó explicado el concepto. Lo que se tiene que lograr (y la forma como se logró debe quedar muy bien explicada en la ficha técnica) es que la probabilidad (de todos y cada uno de los potenciales electores) de ser incluido en la encuesta sea exactamente la misma. Si uno fuera purista (y toca serlo) debería obtener el listado de todas las cédulas habilitadas para votar, luego habría que numerarlas del 1 al 1´611.391 y posteriormente generar por computador una tabla de 3.000 números aleatorios de una base de 1´611.391. A esos 3.000 toca localizarlos uno por uno y aplicarles la encuesta. Ninguna firma encuestadora hace eso porque no tiene ni tiempo ni presupuesto ni ganas. Las firmas encuestadoras tienen que diseñar, hacer y reportar la encuesta en pocos días (o se llegan las elecciones y acaban con la fiesta) y no hay forma de hacerlo bien. Es tan simple como eso. ¿Por qué cree que las investigaciones médicas serias tardan tantos años y cuestan lo que cuestan? Ya tiene una idea de la respuesta. Miremos de puro curiosos una tabla de números aleatorios como la que dijimos arriba (no puse los 3.000 por asunto de espacio). Están inventados, se obtienen hasta con Excel y son tan viejos como la estadística misma, o sea como el gusto por llevar cuentas:
Para culminar, si volvemos a la tabla 1 vemos que el tamaño de muestra debería ser aumentado aún más, para compensar los errores que se derivarán de las respuestas falsas de los encuestados, los cambios de opinión, los que deciden no contestar y demás coyunturas que sólo se corrigen aumentando el número de muestra para diluir el riesgo de error. Además, todos estos eventos deberían ser reportados. Un número muy alto de negativas a responder la encuesta la pone en serias dificultades porque las personas que respondieron no fueron las escogidas aleatoriamente: otro sesgo.
Antes de concluir, quisiera contarles un poco sobre un fenómeno muy simpático, que se ve en muchas ocasiones luego de las elecciones:
Usemos el ejemplo de las recientes elecciones a la alcaldía de Cali. Recordemos que los resultados fueron: Armitage 264.118 votos (38.15%), Ortiz 175.394 votos (25.33%) y Garzón 149.889 votos (21.65%):
Pues bien, con el fin de analizar las encuestas, hagamos una tabla de hipotéticas encuestas de diferentes firmas encuestadoras, publicadas una semana antes del día electoral:
Como es de suponer todo el mundo va a estar muy ofuscado con las encuestas. La prensa publicará artículos diciendo “esta vez no le pegaron a nada”, la gente dirá: “qué encuestas tan malas”. Pero alguien ordenado como yo decide poner las cinco encuestas de la semana anterior en una tablita para poder compararlas. De inmediato es evidente que la encuesta D (por Datexco, si quieren. Finalmente es tan mala como todas) se aproximó mucho al resultado de las elecciones. Conclusión: “Datexco si sabe hacer encuestas, le pegó a la alcaldía de Cali. Son unos duros”. Pues no señor, la firma D no le pegó a nada. Sus resultados fueron chiripa, producto del azar… simplemente adivinó. El tamaño de muestra es tan bajito y su método de aleatorización tan descuidado que no pudo acertar con base en la data. Simplemente adivinó. Es lo mismo que preguntarle a un gamín en la calle: ¿Y cómo crees que va a quedar esto? Y el gamín responde: 38 – 25 – 21. No es que el gamín sea un genio de la política. Es un gamín que adivinó el resultado, lo que no quiere decir que va a adivinar el que sigue ni ninguno otro. Sería más fácil y barato comprar al pulpo Andrés del mundial de fútbol y ponerlo a que adivine el próximo alcalde. Mejor dicho, uno no evalúa la calidad de una encuesta sólo por el resultado (porque, entre otras cosas, al salir la encuesta no tenemos todavía el resultado de las elecciones). Lo hace por la calidad del protocolo de investigación que tengan, por el poder con que dicha investigación haya sido diseñada. Y punto. Es el diseño lo que genera la confiabilidad, para que cuando salga la encuesta uno le pueda creer.
Lo que quiero que entiendan en este momento es que las cinco encuestas (inventadas por mí, repito) fueron igual de malas. Todas tenían un tamaño de muestra muy bajito y unos márgenes de error demasiado altos. Ninguna de esas 5 encuestas tenía el poder suficiente para responder la pregunta de investigación. Ninguna entonces es buena. Todas son igual de malas: incapaces de responder la pregunta sobre cómo quedarán las elecciones. De inmediato viene la interpelación: “No señor, mire la D. Le pegó casi perfecto”. La respuesta técnica correcta es: no señor, la D es también una encuesta mal hecha que por puro azar terminó adivinando el resultado. ¿Pero que se le pueda creer a la firma encuestadora? Ni riesgos.
En conclusión: las encuestas las debería financiar, dirigir, supervisar y vigilar el estado, apoyado en un panel de expertos (yo no soy, por si creen que estoy buscando trabajo), para permitir que se publiquen solo aquellas encuestas hechas por empresas que se entregan a la labor de tratar de responder una pregunta de investigación con seriedad. Hasta ahora no conozco ni he oído de ninguna.