sábado, 23 de mayo de 2015

Más estilometría sobre programas autonómicos españoles 2015

Después de que la semana pasada publicase algunos resultados sobre comparaciones textuales estilométricas sobre los programas electorales de la Comunidad de Madrid, decidí seguir por el mismo camino. En vez de 10 programas de una sola comunidad, decidí ampliar a 50 de 7 comunidades autónomas más los programas marcos. No he podido conseguir todos los programas: algunos son imposibles de encontrar, algunos no he podido descargarlos (por ejemplo Ciudadanos en Asturias). Las comunidades autónomas son:
  • Andalucía
  • Aragón
  • Asturias
  • Castilla la Mancha
  • Navarra
  • Madrid
  • Valencia
En este caso he realizado de nuevo un consensus tree y con esos mismos datos una visualización de tipo network analysis.

El resultado del consensus tree es:
Observamos:
  • Con excepción de un par de textos (PP y PSOE), los partidos quedan separados en dos grandes ramas
  • Dentro de esas ramas, los partidos tienden a agruparse de manera bastante clara en subramas, aunque no hay correspondencia perfecta
Si interpretamos algunos aspectos (habría muchísimo más que decir) estos datos, podremos decir que:
  • Hay dos ramas principales de la política: una que agrupa la mayor parte de programas electorales de centro-derecha y derecha (principalmente PP, UPyD y Cs); la otra agrupa a los partido de centro-izquierda e izquierda (principalmente IU, PSOE y Podemos)
  • Los partidos que solo están representados por un programa programa (Foro, Compromís, UPN, Bildu, Partido Andalucista) quedan bien representandos ideológicamente.
  • Los programas marcos muestran resultados extraños. Quizás esto se deba a que no son las formaciones autonómicas quienes los realizan, sino sus direcciones nacionales
  • Con más datos, UPyD deja de tener resultados tan anómalos: aparecen emparentados con Cs y de manera más lejana con el resto de partidos de la derecha
Si observamos el network analysis vemos resultados algo similares

Si interpretamos los resultados generales, observamos:
  • De nuevo vemos que se refleja la clásica división derecha-izquierda (más esperable que la obtenida en la CA de Madrid)
  • Aunque ambas representaciones están basadas en los mismos datos, aquí se visualiza mejor la cercanía y relación entre PSOE y PP. De hecho en esta visualización Cs y PSOE aparecen casi en el mismo eje horizontal
  • UPyD vuelve a mostrar resultados algo sorprendentes: en esta imagen aparece más cercano a partidos de izquierda, principalmente IU
  • Foro y UPN aparecen perfectamente integrados entre los textos del PP
  • Bildu y Compromis aparecen integrados entre los programas de IU
  • Podemos forma un grupo bastante homogeneo de textos (ya se observaba en el consensus tree)
Algunos datos generales que me han llamado la atención:
  • PSOE - Castilla la Mancha aparece como programa netamente de derechas
  • El marco del PP aparece entre los programas del PSOE
  • Cs Madrid es el programa más a la derecha de ese partido, integrado entre los programas del PP
  • PSOE Valencia y IU Aragón son los dos textos que más relaciones comparten con otros (qué significa esto es algo a lo que no puedo responder)
  • Los programas de Podemos Valencia y PSOE Valencia están fuertemente relacionados
  • El programa de Cs Castilla la Mancha tiene mayor relación con los textos de UPyD que con los de Cs
  • UPyD Asturias aparece sorprendentemente cerca a Foro

Seguir leyendo este post...

domingo, 17 de mayo de 2015

Estilometría: comparación de los programas electorales de CA Madrid 2015

En una semana habrá elecciones municipales y autonómicas, entre ellas en la Comunidad de Madrid. De la misma manera que realicé varios análisis estilométricos con los programas políticos de Andalucía, he recogido algunos programas políticos autonómicos de los partidos que se presentan en estas elecciones autonómicas madrileñas y he realizado algunas pruebas de comparación cuantitativa de textos entre ellos. En concreto de los partidos madrileños (con los candidatos a las elecciones de la semana que viene entre paréntesis):
  • Ciudadanos (Cs) (Ignacio Aguado)
  • IU (Luis García Montero)
  • Podemos (José Manuel López)
  • PP (Cristina Cifuentes)
  • PSOE (Ángel Gabilondo)
  • UPyD (Ramón Marcos)
Además, para el análisis resulte más consistente, he recogido los programas electorales de aquellos partidos que se presentaron en 2011. Me hubiese gustado utilizar también el de 2007, pero me ha resultado imposible encontrar los programas políticos (y eso que en ese año solo había tres partidos con representación en la Comunidad de Madrid...). Hay que recordar que durante el post hablaré de partidos, aunque en realidad hay que entender que me refiero a los textos de los programas electorales de esas formaciones en dos citas electorales. Agradezco a Miguel Ortega la ayuda para conseguir algunos programas políticos. Y reconozco la inspiración de los artículos de Regional Manifestos Project en eldiario.es.

Para quien necesite una introducción a esto de la estilometría y los tratamientos cuantitativos de textos, sugiero la guía a Humanidades Digitales, la específica sobre literatura, Macroanalysis de Jockers (2013) o Graphs, maps, trees de Moretti (2005). La política no es mi campo de conocimiento, sino la filología. Estaría encantado de colaborar con politólogos o periodistas para profundizar de manera conjunta en este ámbito.

Para este análisis he vuelto a trabajar con la estupenda herramienta stylo para realizar el análisis. En este caso he preferido utilizar todas las unidades que stylo permite analizar (las 5000 más frecuentes), para no tener que tomar ninguna decisión.

Cluster analysis

En primer lugar he realizado un cluster analysis, es decir, le pedimos al programa que vaya agrupando todos los textos según las 5000 palabras (tokens en realidad, aunque para que sea más comprensible utilizaré en el post palabras) más frecuentes:

(Nota sobre los colores: no los elijo yo, es aleatorio; sé que ver el PSOE como amarillo o Podemos de azul no es lo más intuitivo, qué se le va a hacer...)

Resultados:
  • Los programas electorales aparecen dividas en dos grandes ramas: en una PP y Cs; en la otra el resto de partidos.
  • Podríamos interpretar, claro, ambas ramas como derecha e izquierda
  • Los partidos quedan identificados casi perfectamente; solo un único caso cambia: el IU de 2011 es más similar a Podemos que a IU de 2015. En mi opinión, revelador.
  • Los partidos parecen graduados ideológicamente; los más a la izquierda son IU y Podemos, después vendría PSOE, posteriormente UPyD. Cs representa una derecha menos radical que el PP.

Consensus tree

Además del cluster analysis, he realizado también un consensus tree de los cluster analysis desde las 100 palabras más frecuentes hasta las 5000, incrementando cada vez 100 palabras. Es decir, un montón de cluster analysis hechos a la vez (por eso se llama consensus), mostrados en representación arbórea (por eso se llama tree). Este análisis es más robusto que el anterior:

El resultado son tres ramas principales, ocupadas por:
  1. PP y Cs
  2. UPyD
  3. PSOE, IU y Podemos
Es decir, que el consensus tree aparta a UPyD del resto de partidos de la izquierda. Las otras relaciones se mantiene: gradación ideológica, acierto de partidos, excepción de IU2011 y Podemos.

Si interpretamos estos resultados de manera ideológica, señalaríamos que:
  • PP y Cs son de derecha
  • IU, Podemos y PSOE de izquierda
  • UPyD se desmarca de ambos, probablemente localizándose en el centro

Principal Component Analysis

Pero esto no es lo único que podemos hacer con la estilometría y stylo, uno de los tipos de análisis más utilizados es el llamado Principal Component Analysis o PCA. Para quien quiera saber más, recomiendo el libro de Jackson, A user's guide to principal components (2003). De manera muy reducida y simplista, este análisis entiende cada palabra como una dimensión diferente; cada texto recibe un valor para cada dimensión, por lo que cada texto termina definido por valores de 5000 dimensiones (que son las palabras con las que nosotros hemos decidido trabajar, eligiendo las más frecuentes). Para posibilitar una visualización, el análisis rota esas dimensiones en dos principal components que terminan representados en clásicas coordenadas cartesianas. Lo interesante de este resultado es que se consigue visualizar una cantidad enorme de información; la desventaja es que esa rotación pierde información. Vamos a ver un ejemplo:

 
Como vemos, los programas electorales son puntos en coordenadas cartesianas. Es importante tener en cuenta que el eje de x (el horizontal) tiene un valor de 28,2%, frente a la y (o vertical) que tiene un 18,6%. ¿Qué quiere decir eso en cristiano? Que las diferencias que vemos en la horizontal son más importantes que las que vemos en la vertical.

¿Y qué vemos en este PCA?
  • PP y Cs se localizan muy cercanos, de nuevo
  • PSOE, IU y Podemos son muy cercanos
  • UPyD está aislado
Es decir, observamos resultados muy similares a los que el consensus tree nos señalaba. Aunque UPyD y PP-Cs aparecen alineados en la vertical (los tres partidos están entre valores de -1 y -0,5 de la x), en la horizontal sus valores son radicalmente diferentes: PP-Cs están entre -1 y -2, UPyD está entre 1 y 2.

Otro aspecto que hay que tener en cuenta es que aunque PP y PSOE parecen muy separados, en el valor x tienen valores casi idénticos, principalmente en el año 2011: ambos están en -1. En los programas electorales de este año la diferencia ha aumentado: el PP se ha ido al extremo, mientras que el PSOE se ha acercado a IU y Podemos.

En general este análisis resulta muy interesante ya que parece mostrar que el principal component 1 diferencia a los partidos en cuatro grupos:
  1. PP 2015
  2. PP 2011, Cs y PSOE
  3. IU y Podemos
  4. UPyD
Mientras que el  principal component 2 separa los partidos en dos grupos:
  1. UPyD, Cs y PP
  2. PSOE, IU y Podemos
Si interpretamos el PC1, diría que nos muestra la diferencia izquierda-derecha, aunque UPyD en ese caso aparece como extrema izquierda, algo que es difícil de tragar. Pero el PC2 parece indicar claramente centralismo vs. no-centralismo. Esperaría esos resultados en los programas autonómicos de Cataluña o País Vasco (entre otras comunidades), no en el de la Comunidad de Madrid.

Network analysis

Por último, realicé un Network analysis utilizando los datos del consensus tree. De esta manera conseguimos la robustez del consensus tree, pero nos permite visualizar las relaciones entre cualquiera de los textos entre ellos. Cada texto es un nodo y los nodos tienen relaciones entre ellos; cuanto más ancha sea la línea que los une, más intensa es la relación.
En este caso, claro, los colores no son aleatorios, Gephi me ha permitido elegirlos. Probablemente esta visualización es una de las más completas e intuitivas de todas las vistas hasta ahora.

Algunos datos generales de la visualización:
  • Las relaciones internas entre los programas de un partido son las más fuertes (con una excepción)
  • Los partidos parecen diferenciarse en un eje ideológico derecha-izquierda
  • Si eso fuese así, UPyD quedaría como un partido de extrema izquierda
Analizando las relaciones por partidos, observamos:
  • PP: No cambia apenas entre 2011 y 2015; sus mayores relaciones son con el PSOE2011 y con Cs
  • PSOE: En el 2011 aparecía localizado como partido de la derecha, mientras que el texto de 2015 mantiene relaciones intensas con Podemos y también (aunque menos) con IU
  • Cs: Sus principales relaciones son en primer lugar con el PSOE y en segundo lugar con el PP
  • IU: Es el único partido cuyas relaciones internas no son las más intensas: IU2011 tiene mayor relación con Podemos que con IU2015. Mantiene importantes relaciones con PSOE y UPyD
  • Podemos: parece el heredero de IU2011; tiene importantes relaciones con el PSOE, ligeras con UPyD y Cs y nulas con PP
  • UPyD: Está en las antípodas del PP. Tiene cierta relación con Podemos pero principalmente con IU2011

Conclusiones

Después de tantos dibujitos con colores y de tantos números, vamos a intentar sacar algunas cosas en claro. De nuevo, en las conclusiones hablo de partidos, y en realidad debería hablar de textos. Permitidme la metonimia:
  1. La estilometría tiene mucho que decir y que analizar sobre los programas políticos
  2. Los diferentes análisis realizados (cluster analysis, consensus tree, PCA y Network analysis) muestran resultados bastante similares, aunque con algunos matices
  3. Aunque es fácilmente observable cierta relación entre espacio ideológico (derecha vs. izquierda) en las representaciones, no parece que sea solo eso lo que vemos, a menos que se acepte que UPyD Madrid es de extrema izquierda (cosa que ni UPyD aceptaría, ni tampoco la extrema izquierda)
  4. La principal diferencia entre partidos sigue siendo derecha-izquierda (frente a otros posibles ejes como nuevo-viejo o gobierno-oposición)
  5. El eje centralista-no centralista también divide los partidos en la política madrileña
  6. Cs de Madrid y PP constituyen la derecha política, siendo Cs más moderado que el PP. El PP se ha ido más a la derecha que en las anteriores elecciones
  7. Podemos, IU y PSOE hoy en día se agrupan en la izquierda
  8. El PSOE de Madrid era muy cercano al PP en 2011, pero en estas elecciones se ha acercado a Podemos e IU
  9. La principal relación de IU Madrid 2011 no es con IU Madrid 2015, sino con Podemos. ¿Podemos entender Podemos como un heredero textual de IU?
  10. UPyD Madrid es un partido raro. No parece tan relacionado con Cs como podría pensarse. En cierta manera está relacionado con la izquierda, en cierta manera con la derecha, en cierta manera está aislado. Es una lástima que sea dudoso que se mantengan mucho tiempo. Es posible que estos resultados extraños se deban a un error sistemático en los textos
  11. Los resultados difieren algo de los que publiqué sobre las elecciones andaluces (de nuevo, UPyD) y difieren también de las pruebas que he hecho y que aún no he publicado con los programas a las elecciones europeas y nacionales de las últimas décadas
  12. Es decir, hay que seguir trabajando e investigando para tener resultados más sólidos. Con este post me gustaría invitar a politólogos y periodistas a colaborar

Seguir leyendo este post...

LinkWithin

Related Posts with Thumbnails