viernes, 11 de diciembre de 2015

Estilometría políticas: elecciones generales 2004-2015

Como os podíais imaginar no iba a dejar pasar estas elecciones sin hacer algunas pruebas estilométricas sobre los programas electorales. ¡Vamos allá!

¿Qué es esto de la estilometría?

Como he comentado en otros posts en elecciones anteriores, la estilometría es el estudio de la frecuencia de palabras en textos con el objetivo de encontrar similitudes entre ellos. Principalmente se ha utilizado para investigar autoría literaria, aunque también se ha aplicado para estudiar las diferencias de estilos entre hombres y mujeres, la época que fue escrito o el género literario. La idea general es que los textos que pertenecen a un clase común (textos de tal autor, textos de tal género) comparten ciertas características léxicas que pueden observarse estadísticamente. Estas similitudes son encontradas y visualizadas mediante diferentes métodos de unsupervised machine learning.

¿Por qué estilometría en programas políticos?

Los programas políticos son textos fácilmente comparables ya que comparten características concretas con valores muy claros: un programa político es de un partido, de un año y para un  ámbito (generales, europeas...). Después de unas pocas pruebas se observa que los textos aparecen organizados por partidos políticos, pero que también se observa información sobre tendencia política, temporal e incluso de líder político.

Método


En este caso he utilizado trigramas, es decir unidades del tipo "las comunidades autónomas", "común para españa", "acceso a la", "a través de"... Es decir, fragmentos de tres (tri+) palabras (+gramas). La idea detrás de utilizar trigramas en vez de palabras únicas (o unigramas), es que con los trigramas se recogen además de aspectos léxicos, ciertos aspectos sintácticos.

Lo he implementado con stylo (of course) y he utilizado una medida de distancia muy utilizada en las Humanidades Digitales llamada Delta, propuesta por Burrow pero en la versión de Maciej Eder ya que hay estudios que señalan  que esta funciona mejor para lenguas flexionantes como el español. Los datos los visualizo a través de un dendograma, es decir, una estructura que imita un estructura de árbol. La distancia en el eje horizontal señala la similitud del estilo entre los textos. Veamos los resultados utilizando los 1000 trigramas más frecuentes

Resultados: dendogramas


Antes de pasar hablar de los resultados, asegurémonos de todos estamos interpretando la imagen de la misma manera; vamos a observar solo los resultados del PP y del PSOE. Como vemos, los textos del PSOE aparecen organizado; el PSOE_2011 y el PSOE_2008 serían textos muy similares entre sí; el siguiente más similar a estos dos es el PSOE_2015; y el siguiente más similar a estos tres es el PSOE_2004. Hasta aquí de acuerdo, ¿verdad? Si seguimos la dirección de la rama hacia la izquierda veremos que los textos más similares a los del PSOE son los del PP_2015 y PP_2008. El siguiente más similar a estos 6 es el PP_2004; el siguiente más similar a estos 7 es el PP_2011.


Si echamos un vistazo al árbol en su conjunto, veremos que hay dos grandes ramas: una con el PP y el PSOE; la otra con el resto de partidos (UPyD y Ciudadanos más juntitos; IU y Podemos arrimados). Por ahora no hay resultados demasiado extraños como que Ciudadanos, IU y PP forman una rama, ¿verdad?

Pero ¿qué pasa esi en vez de utilizar los 1000 trigramas más frecuentes utilizados los 5000? Pues:

Como vemos la imagen ha cambiado bastante; UPyD_2015 y 2011 ahora forman su propia rama exiliada; los textos del PP ahora forman un grupo más homogéneo y ¡Ciudadanos_2015 se mete entre el PSOE (y el PP)!

¿Qué resultados elegimos: el de los 1000 trigramas o el de los 5000?

Más resultados: árbol de consenso


Una manera de resolver este problema es combinar los resultados en un árbol de consenso que refleje diferentes dendogramas. La siguiente imagen es un árbol de consenso que recoge 5 dendogramas diferentes, desde los 1000 hasta los 5000 trigramas más frecuentes:


Aquí el punto de mayor división no está a la izquierda como hasta ahora habíamos visto. En el árbol de consenso se encuentra en el centro. Y del centro de este arbolito salen tres ramas:
  1. UPyD_2011 y 2015
  2. PP, PSOE y CS_2015
  3. IU-UP, Podemos, Cs_2008 y UPyD_2008
Dentro de esas grandes ramas, observamos que el método tiende a agrupar de manera bastante correcta los textos de los partidos. Y dentro de las ramas por partidos (en las divisiones más sutiles) observamos que el método tiende a agrupar los textos por cercanía cronológica. En fin, que el método, sin saber nada de política, ni de español, ni de historia, ha sabido distinguir bastante bien tendencias políticas, partidos y años. ¿Qué más pedirle?

Interpretación


Vale José, el método es la pera, pero ¿qué aporta esto de manera práctica? Pues creo que otra mirada sobre los programas y los partidos. Está habiendo mucha discusión sobre el grado de renovación del PSOE, si Ciudadanos es de centro derecha o de centro izquierda, si Podemos se está moderando... Creo que estos resultados pueden aportar algo más de luz desde un sitio que ni los partidos ni los medios controlan. Personalmente estos resultados me hacen pensar varias cosas:
  • Hay una rama izquierda-centro izquierda donde está IU, Podemos y donde estaban Cuidadanos y UPyD
  • Hay una rama tradicional donde se encuentran el PSOE, el PP y Ciudadanos
Por partidos, observo:
  • PP: el partido con menos variación. Conservadores en el estilo y en la política
  • PSOE: a diferencia de los análisis realizados en las europeas, es un partido más cercano al PP que la izquierda; la marcha de Zapatero y la llegada de Sánchez no ha traído ningún cambio notable
  • IU-UP: Garzón parece haber modificado el discurso de su partido y de hecho ahora aparece más relacionado con nuestro siguiente partido
  • Podemos: es difícil saber si se ha moderado, pero desde luego el texto más similar al de Podemos es el de IU
  • Ciudadanos: un caso interesante ya que en 2011 no se presentó. Ciudadanos ha pasado del centro izquierda en el que estaba en 2008 al centro derecha en 2015. Nada sorprendente, según la percepción de los electores y su reciente afiliación europea al Partido Liberal
  • UPyD: en 2008 UPyD tenía un discurso de centro izquierda muy similar a Ciudadanos. Posteriormente encontró una manera radicalmente diferente de expresarse que ha mantenido en estas elecciones. Un caso muy interesante para mayor estudio, lástima que le queden dos telediarios
Hasta aquí mis análisis y mis interpretaciones. Si la idea os atrae pero mi manera no os convence, descarga stylo, los programas electorales y déjame un comentario para que comparemos resultados ;)

Actualización

Los mismos datos hasta ahora comentados los he convertido en una tabla de relaciones de tipo grafo y lo he visualizao a través de Gephi. Es decir, la siguiente imagen se basa en los mismos datos que el anterior árbol de consenso; la diferencia es que en el árbol de consenso aparecían solamente señalada la relación de un texto con otro(s) texto(s) más cercano. En el árbol de consenso no veíamos por ejempo si algún programa electoral de IU tenía alguna relación (por ínfima que fuese) con el PSOE. La siguiete imagen sí reproduce esas relaciones de caracter terciario:


 Anexo: enlaces a los programas electorales:

  • https://www.ciudadanos-cs.org/nuestras-ideas
  • http://unpaiscontigo.es/wp-content/uploads/2015/12/Programa-Elecciones-Generales-Podemos-2015.pdf
  • www.psoe.es/media-content/2015/11/PSOE_Programa_Electoral_2015.pdf
  • http://www.pp.es/sites/default/files/documentos/programa_electoral_20d.pdf
  • http://www.unidadpopularvalladolid.org/component/jdownloads/send/6-programa/66-porgrama-unidad-popular
  • http://www.eaj-pnv.eus/adjuntos/pnvDocumentos/17970_archivo.pdf
  • upyd2015.es/wp-content/uploads/2015/12/Programa_UPYD_Elecciones_Generales_2015.pdf

LinkWithin

Related Posts with Thumbnails