domingo, 13 de diciembre de 2015

Comparación léxica de los programas electorales del 20D 2015

Todas las pruebas que he hecho hasta ahora con estilometría sobre los programas electorales daban información general sobre los programas electorales, pero no aportaban información sobre el contenido o los conceptos clave de los textos. Por eso en este caso voy a utilizar la función oppose de stylo. El objetivo de esta función es contraponer dos grupos de textos y rescatar aquellos términos léxicos que en un grupo están sobrerrepresentados y en el otro infrarrepresentados. Esta función está basada en el concepto de Burrow's Zeta. Siguiendo los resultados de nuestro anterior experimento sobre derecha (PP, PSOE y Ciudadanos_2015) e izquierda (IU, Podemos, UPyD y Cs_2008), en la siguiente imagen aparecen a la derecha las palabras preferidas por los partidos de la derecha  y los de la izquierda:


Encontramos que términos directamente relacionados con los partidos aparecen entre las palabras más frecuentes (socialistas, izquierda, iu...). Es lógico que estas palabras aparezcan frecuentemente en los programas del partido y no en los del contrincante. También es interesante ver que los partido de izquierda  proponen, mientras que los de derecha impulsan y promueven. Pero lo cierto es que los resultados son bastante complicados de interpertar: parece que la derecha utiliza más verbos en primera persona mientras que los de la izquierda utilizan más sustantivos. No sé interpretar eso ni en clave política ni en clave estilística. Así que decidí quedarme solamente con aquellas palabras cuyo contenido semántico es más fácil de descifrar: los sustantivos. Y para intentar eleminar el ruido que aporta el plural y el singular, he reunido ambos tipos de formas en el lema. Para realizar este paso he utilizado la herramienta Freeling y posteriormente limpié ciertos errores que la heramienta había cometido al analizar lingüísticamente los encabezamientos. Para el futuro sería positivo tener los programas en XML-TEI. ¿Alguien se anima a pedir un proyecto para hacer esto y publicarlo en abierto y Creative Commons :) ?

Es decir, que de los textos originales hemos borrado todas las categorías gramaticales que no fuesen nombres (propios o comunes) y además hemos eliminado la diferencia entre singular y plural. Sobre esta lista de sustantivos realicé un árbol de consenso desde las 1000 hasta las 5000 palabras más frecuentes. El resultado:

Como vemos el resultado es bastante similar al que vimos con los trigramas, aunque no idéntico:
  • PP y PSOE siguen en una rama
  • UPyD_2011 y 2015 tiene su propia rama independiente
  • El resto de partidos están en otra rama, aunque en esta hay diferencias: IU está organizado en una rama propia; Podemos, Ciudadanos y UPyD_2008 comparten rama
Estos cambios respecto a los anteriores resultados parecen señalar que IU y Podemos comparten una manera de expresarse similar y a su vez PP, PSOE y Cs_2015; pero si vamos a los conceptos (representados con los sustantivos), Podemos se desliga de IU y se acerca más a UPyD y Ciudadanos; y a su vez Ciudadanos deja de estar relacionado con PP y PSOE, también en su versión 2015. Parece que los sustantivos han conseguido separar relativamente bien a los partidos nuevos.

Pero volvamos a la comparación de sustantivos y veamos los resultados:


En este caso las diferencias son mucho más fácilmente apreciables. Recordemos que los sustantivos de la columna de la derecha son los que PP, PSOE y Cs_2015 prefieren utilizar; mientras que los sustantivos en la columna izquierda son los preferidos por IU, Podemos, UPyD y Cs_2008. Vamos a ir comentando algunos grupos de palabras (¡y prometo que he intentado ser equilibrado en este comentario!):
  • La izquierda utiliza derogación, supresión, limitación, revisión, prohibición. Es decir, sustantivos que señalan un cambio en cuanto a lo que se ha hecho hasta ahora
  • La derecha usa reto, respuesta, desafío,  modernización, caminio, senda, horizonte; palabras que señalan un problema actual y su resolución en el futuro
  • Además, frente a la ruptura de la izquierad, la derecha utiliza más conceptos que representan llegar juntos a acuerdos: diálogo, consenso, flexibilidad, cohesión, interlocutor, interconexión
  • La izquierda utiliza sustantivos que señalan aspectos negativos de la economía como precariedad, privatización, recorte, explotación
  • La derecha usa conceptos positivos, muchas veces relacionados con la economía: éxito, talento, potencial, confianza, fruto, eficacia, productividad, ventaja, vanguardia, crecimiento, motor, bienestar
  • La izquierda utiliza conceptos positivos relacionados con la democracia (o la denuncia de su falta): referéndum, censo, privilegio,  fraude, circunscripción, debate, democratización, regeneración, constitucional, ciudadanía
  • La derecha utiliza conceptos geográficos amplios, desde las Comunidades Autónomas hasta el ámbito internacional: comunidad, autónoma, internacionalización, globalización
  • La izquierda utiliza más conceptos desde el ámbito municipal hasta las comunidades autónomas: circunscripción, ayuntamiento, pueblo, Navarra
  • La izquierda habla de la iglesia católica y de la religión: iglesia, confesión, religión, laicismo, católica
  • La izquierda menciona a sus grupos clásicos de votantes, como son sindicatos, estudiantes y trabajadores agrarios; también menciona aspectos relacionados con las viviendas: casa, alquiler, sindicato, beca, agricultura
  • La derecha menciona a los autónomos: emprendimieneto 
Vamos que resumiendo:
  • La izquierda (IU, Podemos, UPyD) se destaca por hablar de cambio, de situación económica injusta, de renovación democrática, de ámbitos regionales pequeños, de religión y de algunos aspectos concretos de sus votantes
  • La derecha (PP, PSOE y Cs) se destaca por hablar de los retos del futuro, de los aspectos positivos de la economía, de abordar problemas de manera dialogada, de aspectos regionales amplios y de autonómos
Ustedes me dirán que para saber esto se podían haber ido a la página de Wikipedia sobre derechas e izquierdas y yo no tendría ni que haber hecho este experimento ni haber escrito este post, porque lo que señalo es una obviedad detrás de la otra. Cierto... en parte. El hecho de que nos encontremos cosas obvias hace que atestigue que el eje derecha e izquierda sigue siendo válido: si no lo fuese, estaríamos ante un conjunto rándom de sustantivos. En segundo lugar, esto da legitimidad a utilizar Burrow's Zeta a programas electorales (cosa que hasta donde yo sé, no se hace por ahora).

Pero no todo es del todo obvio: esperaba que los partidos de derecha hablasen más sobre inversión, beneficios, impuestos, pensiones... Y no parece. Tampoco me parece del todo obvio que la derecha se muestre tan dialogante y flexible si tenemos en mente como se han comportado con Cataluña, por mencionar un caso. Ni es obligatoriamente un clásico de la izquierda exigir más democracia, pero en la comparación queda bastante claro que la izquierda española lo reclama. El resultado tampoco muestra que ambas ramas se distingan principalmente por otros aspectos como feminismo, corrupción, ecología, cultura, educación, monarquía...

Desde luego este experimento no es definitivo: hay mucho que mejorar en el formato de entrada de los textos, la lematización y la interacción del formato de salida de Freeling y cómo lo interpreta el tokenizador de stylo. Como en los casos anteriores, espero que el experimento pueda aportar algo interesante, pueda aportar una nueva manera de mirar los programas electorales y quizás anime a hacer más experimentos sobre los textos.

sábado, 12 de diciembre de 2015

Machine learning con programas electorales: ¿qué partidos son de izquierda y derecha?

En el anterior post he probado unsupervised machine learning para organizar (cluster) los programas políticos. Para ello al programa solo le dábamos los textos, no le aportábamos más información sobre si algunos partidos eran de derechas o de izquierdas. Esa falta de información es lo que hace que el método sea unsupervised. En este post voy a hacer lo contrario.

Supervised machine learning

Supervised machine learning  se utiliza cuando tenemos un conjunto de elementos que estamos seguros que pertenecen a una clase concreta. El programa aprende (por eso se llama machine learning) qué características son propias a esas clases; posteriormente se le pide al programa que aplique ese conocimiento a otros nuevos elementos.

¿Muy abstracto? Vamos a por un ejemplo sobre autoría literaria: escogemos un grupo de textos de dos autores cuya autoría está clara. Hacemos que el programa aprenda qué rasgos distinguen los textos de un autor y los textos del otro. Una vez realizado, le entregamos al programa otro texto cuyo autor creemos que es uno de los dos analizados y vemos qué nos responde. 

Supervised Machine learning con programas políticos


Vamos a aplicar el mismo método a programas políticos; y en vez de buscar a un autor, vamos a preguntarnos por la orientación ideológica de cada programa. El eje tradicional de la política izquierda-derecha ha sido puesto en duda tanto por los votantes (PSOE, PP, la misma mierda es) como por los nuevos partidos como Ciudadanos, UPyD o Podemos. ¿Pero realmente ya no podemos ordenar a los partidos en ese eje?

Creo que tanto los partidos como los votantes están de acuerdo en que el PP es de derechas y que IU es de izquierdas, ¿cierto? A nadie se le caen los anillos por decir eso. Es decir, tenemos elementos cuya clase no está discutida. Pues esos partidos van a representar el conjunto de datos de los que nuestro programa va a aprender qué rasgos son típicos de izquierdas y de derechas.

Los rasgos sobre los que lo va a aprender son desde las 1000 hasta las 5000 palabras más frecuentes, de nuevo voy a implementarlo con stylo, mediante la función classify y he utilizado Support Vector Machines .

Comprobando el método


Antes de aplicar ese conocimiento a los otros partidos, vamos a hacer una prueba para ver si el programa hace el trabajo de manera aceptable. Vamos a darle los programas de UP y del PP 2015 (programas que no formaban el conjunto de datos de los que ha aprendido) para ver si los clasifica correctamente. El resultado es el siguiente:

1000 MFW , culled @ 0%,  2 of 2    (100%)
2000 MFW , culled @ 0%,  2 of 2    (100%)
3000 MFW , culled @ 0%,  2 of 2    (100%)
4000 MFW , culled @ 0%,  2 of 2    (100%)
5000 MFW , culled @ 0%,  2 of 2    (100%)

¿Qué significa esto? Pues que tanto en las 5 pruebas desde las 1000 hasta las 5000 palabras, tanto el programa de UP como el de PP han sido reconocidos correctamente como izquierda y derecha. Es decir, hay un acierto de 2 de 2, 100%.

(Sé que probarlo con dos programas de los mismos partidos no sería suficiente para demostrar que el experimento funciona de manera totalmente científica, pero creo que es una aproximación válida si queremos poder publicar algo antes de las elecciones.)

Resultados con 1000 palabras más frecuentes

Ahora que  ya tenemos algún dato de que el programa ha hecho  bien 2 tareas, vamos a ponerlo a prueba con los programas de los otros partidos. ¿A qué partido pondrá en la izquierda? ¿A cuál en la derecha? Los resultados son los siguientes, según las 1000 palabras más frecuentes:

CS_2008_Generales     -->     izquierda
CS_2015_Generales     -->     izquierda
Podemos_2015_Generales     -->     izquierda
PSOE_2004_Generales     -->     izquierda
PSOE_2008_Generales     -->     derecha
PSOE_2011_Generales     -->     derecha
PSOE_2015_Generales     -->     izquierda
UPyD_2008_Generales     -->     izquierda
UPyD_2011_Generales     -->     izquierda
UPyD_2015_Generales     -->     izquierda

1000 MFW , culled @ 0%,  2 of 2    (100%)

Por ahora el programa solo localiza los programas del PSOE_2008 y 2011 en la derecha. Hay que tener en cuenta que de los cuatro programas electorales del PSOE presentes en este análisis, los de 2008 y los 2011 son los que el PSOE escribió desde el gobierno, los de 2004 y los de 2015 desde la oposición. O sea, que con las 1000 palabras más frecuentes, el programa localiza al PSOE como derecha cuando gobierna. Al resto de partidos en la izquierda.

Resultados hasta 5000 palabras más frecuentes

Vamos a ver ahora qué pasa si hacemos los mismos análisis hasta las 5000 palabras más frecuentes:

CS_2008_Generales     -->     izquierda
CS_2015_Generales     -->     izquierda
Podemos_2015_Generales     -->     izquierda
PSOE_2004_Generales     -->     izquierda
PSOE_2008_Generales     -->     derecha
PSOE_2011_Generales     -->     derecha
PSOE_2015_Generales     -->     izquierda
UPyD_2008_Generales     -->     izquierda
UPyD_2011_Generales     -->     izquierda
UPyD_2015_Generales     -->     izquierda

2000 MFW , culled @ 0%,  2 of 2    (100%)



CS_2008_Generales     -->     izquierda
CS_2015_Generales     -->     izquierda
Podemos_2015_Generales     -->     izquierda
PSOE_2004_Generales     -->     izquierda
PSOE_2008_Generales     -->     derecha
PSOE_2011_Generales     -->     derecha
PSOE_2015_Generales     -->     izquierda
UPyD_2008_Generales     -->     izquierda
UPyD_2011_Generales     -->     izquierda
UPyD_2015_Generales     -->     izquierda

3000 MFW , culled @ 0%,  2 of 2    (100%)



CS_2008_Generales     -->     izquierda
CS_2015_Generales     -->     izquierda
Podemos_2015_Generales     -->     izquierda
PSOE_2004_Generales     -->     derecha
PSOE_2008_Generales     -->     derecha
PSOE_2011_Generales     -->     derecha
PSOE_2015_Generales     -->     izquierda
UPyD_2008_Generales     -->     izquierda
UPyD_2011_Generales     -->     izquierda
UPyD_2015_Generales     -->     izquierda

4000 MFW , culled @ 0%,  2 of 2    (100%)



CS_2008_Generales     -->     izquierda
CS_2015_Generales     -->     derecha
Podemos_2015_Generales     -->     izquierda
PSOE_2004_Generales     -->     derecha
PSOE_2008_Generales     -->     derecha
PSOE_2011_Generales     -->     derecha
PSOE_2015_Generales     -->     derecha
UPyD_2008_Generales     -->     izquierda
UPyD_2011_Generales     -->     izquierda
UPyD_2015_Generales     -->     izquierda

5000 MFW , culled @ 0%,  2 of 2    (100%)

General attributive success:  10 of 10 (100%)

Como vemos, algunos programas han ido pasando de la izquierda a la derecha según ampliábamos la cantidad de palabras por analizar. Vemos algo que ya habíamos visto en el post anterior: en primer lugar, el PSOE pasa a ser considerado siempre de derechas, da igual si en la oposición o en el gobierno. En segundo lugar, Ciudadanos_2015 pasa también a ser parte de la derecha.

Interpretación

En primer lugar hay que señalar que el método ha sabido no solo detectar correctamente la tendencia política de los programas actuales del PP y de UP, sino que también ha sabido ordenar correctamente a Podemos, cuya orientación política es clara. En segundo lugar, el método llega a conclusiones similares a opiniones muy extendidas y que encajan con opiniones extendidas:
  • UPyD es de izquierda
  • Ciudadanos era de izquierda, hoy en día es de derechas
  • El PSOE ha abandonado la izquierda; es obvio cuando está en el gobierno, hay que ir más al fondo del programa cuando están en la oposición
En tercer lugar, el método consigue llegar a diferenciaciones más sutiles según recoge más palabras. Parece que según más cantidad de programa electoral tiene en cuenta, mejor sabe calar a los partidos.

viernes, 11 de diciembre de 2015

Estilometría políticas: elecciones generales 2004-2015

Como os podíais imaginar no iba a dejar pasar estas elecciones sin hacer algunas pruebas estilométricas sobre los programas electorales. ¡Vamos allá!

¿Qué es esto de la estilometría?

Como he comentado en otros posts en elecciones anteriores, la estilometría es el estudio de la frecuencia de palabras en textos con el objetivo de encontrar similitudes entre ellos. Principalmente se ha utilizado para investigar autoría literaria, aunque también se ha aplicado para estudiar las diferencias de estilos entre hombres y mujeres, la época que fue escrito o el género literario. La idea general es que los textos que pertenecen a un clase común (textos de tal autor, textos de tal género) comparten ciertas características léxicas que pueden observarse estadísticamente. Estas similitudes son encontradas y visualizadas mediante diferentes métodos de unsupervised machine learning.

¿Por qué estilometría en programas políticos?

Los programas políticos son textos fácilmente comparables ya que comparten características concretas con valores muy claros: un programa político es de un partido, de un año y para un  ámbito (generales, europeas...). Después de unas pocas pruebas se observa que los textos aparecen organizados por partidos políticos, pero que también se observa información sobre tendencia política, temporal e incluso de líder político.

Método


En este caso he utilizado trigramas, es decir unidades del tipo "las comunidades autónomas", "común para españa", "acceso a la", "a través de"... Es decir, fragmentos de tres (tri+) palabras (+gramas). La idea detrás de utilizar trigramas en vez de palabras únicas (o unigramas), es que con los trigramas se recogen además de aspectos léxicos, ciertos aspectos sintácticos.

Lo he implementado con stylo (of course) y he utilizado una medida de distancia muy utilizada en las Humanidades Digitales llamada Delta, propuesta por Burrow pero en la versión de Maciej Eder ya que hay estudios que señalan  que esta funciona mejor para lenguas flexionantes como el español. Los datos los visualizo a través de un dendograma, es decir, una estructura que imita un estructura de árbol. La distancia en el eje horizontal señala la similitud del estilo entre los textos. Veamos los resultados utilizando los 1000 trigramas más frecuentes

Resultados: dendogramas


Antes de pasar hablar de los resultados, asegurémonos de todos estamos interpretando la imagen de la misma manera; vamos a observar solo los resultados del PP y del PSOE. Como vemos, los textos del PSOE aparecen organizado; el PSOE_2011 y el PSOE_2008 serían textos muy similares entre sí; el siguiente más similar a estos dos es el PSOE_2015; y el siguiente más similar a estos tres es el PSOE_2004. Hasta aquí de acuerdo, ¿verdad? Si seguimos la dirección de la rama hacia la izquierda veremos que los textos más similares a los del PSOE son los del PP_2015 y PP_2008. El siguiente más similar a estos 6 es el PP_2004; el siguiente más similar a estos 7 es el PP_2011.


Si echamos un vistazo al árbol en su conjunto, veremos que hay dos grandes ramas: una con el PP y el PSOE; la otra con el resto de partidos (UPyD y Ciudadanos más juntitos; IU y Podemos arrimados). Por ahora no hay resultados demasiado extraños como que Ciudadanos, IU y PP forman una rama, ¿verdad?

Pero ¿qué pasa esi en vez de utilizar los 1000 trigramas más frecuentes utilizados los 5000? Pues:

Como vemos la imagen ha cambiado bastante; UPyD_2015 y 2011 ahora forman su propia rama exiliada; los textos del PP ahora forman un grupo más homogéneo y ¡Ciudadanos_2015 se mete entre el PSOE (y el PP)!

¿Qué resultados elegimos: el de los 1000 trigramas o el de los 5000?

Más resultados: árbol de consenso


Una manera de resolver este problema es combinar los resultados en un árbol de consenso que refleje diferentes dendogramas. La siguiente imagen es un árbol de consenso que recoge 5 dendogramas diferentes, desde los 1000 hasta los 5000 trigramas más frecuentes:


Aquí el punto de mayor división no está a la izquierda como hasta ahora habíamos visto. En el árbol de consenso se encuentra en el centro. Y del centro de este arbolito salen tres ramas:
  1. UPyD_2011 y 2015
  2. PP, PSOE y CS_2015
  3. IU-UP, Podemos, Cs_2008 y UPyD_2008
Dentro de esas grandes ramas, observamos que el método tiende a agrupar de manera bastante correcta los textos de los partidos. Y dentro de las ramas por partidos (en las divisiones más sutiles) observamos que el método tiende a agrupar los textos por cercanía cronológica. En fin, que el método, sin saber nada de política, ni de español, ni de historia, ha sabido distinguir bastante bien tendencias políticas, partidos y años. ¿Qué más pedirle?

Interpretación


Vale José, el método es la pera, pero ¿qué aporta esto de manera práctica? Pues creo que otra mirada sobre los programas y los partidos. Está habiendo mucha discusión sobre el grado de renovación del PSOE, si Ciudadanos es de centro derecha o de centro izquierda, si Podemos se está moderando... Creo que estos resultados pueden aportar algo más de luz desde un sitio que ni los partidos ni los medios controlan. Personalmente estos resultados me hacen pensar varias cosas:
  • Hay una rama izquierda-centro izquierda donde está IU, Podemos y donde estaban Cuidadanos y UPyD
  • Hay una rama tradicional donde se encuentran el PSOE, el PP y Ciudadanos
Por partidos, observo:
  • PP: el partido con menos variación. Conservadores en el estilo y en la política
  • PSOE: a diferencia de los análisis realizados en las europeas, es un partido más cercano al PP que la izquierda; la marcha de Zapatero y la llegada de Sánchez no ha traído ningún cambio notable
  • IU-UP: Garzón parece haber modificado el discurso de su partido y de hecho ahora aparece más relacionado con nuestro siguiente partido
  • Podemos: es difícil saber si se ha moderado, pero desde luego el texto más similar al de Podemos es el de IU
  • Ciudadanos: un caso interesante ya que en 2011 no se presentó. Ciudadanos ha pasado del centro izquierda en el que estaba en 2008 al centro derecha en 2015. Nada sorprendente, según la percepción de los electores y su reciente afiliación europea al Partido Liberal
  • UPyD: en 2008 UPyD tenía un discurso de centro izquierda muy similar a Ciudadanos. Posteriormente encontró una manera radicalmente diferente de expresarse que ha mantenido en estas elecciones. Un caso muy interesante para mayor estudio, lástima que le queden dos telediarios
Hasta aquí mis análisis y mis interpretaciones. Si la idea os atrae pero mi manera no os convence, descarga stylo, los programas electorales y déjame un comentario para que comparemos resultados ;)

Actualización

Los mismos datos hasta ahora comentados los he convertido en una tabla de relaciones de tipo grafo y lo he visualizao a través de Gephi. Es decir, la siguiente imagen se basa en los mismos datos que el anterior árbol de consenso; la diferencia es que en el árbol de consenso aparecían solamente señalada la relación de un texto con otro(s) texto(s) más cercano. En el árbol de consenso no veíamos por ejempo si algún programa electoral de IU tenía alguna relación (por ínfima que fuese) con el PSOE. La siguiete imagen sí reproduce esas relaciones de caracter terciario:


 Anexo: enlaces a los programas electorales:

  • https://www.ciudadanos-cs.org/nuestras-ideas
  • http://unpaiscontigo.es/wp-content/uploads/2015/12/Programa-Elecciones-Generales-Podemos-2015.pdf
  • www.psoe.es/media-content/2015/11/PSOE_Programa_Electoral_2015.pdf
  • http://www.pp.es/sites/default/files/documentos/programa_electoral_20d.pdf
  • http://www.unidadpopularvalladolid.org/component/jdownloads/send/6-programa/66-porgrama-unidad-popular
  • http://www.eaj-pnv.eus/adjuntos/pnvDocumentos/17970_archivo.pdf
  • upyd2015.es/wp-content/uploads/2015/12/Programa_UPYD_Elecciones_Generales_2015.pdf