sábado, 18 de junio de 2016

¿Escribimos un nuevo programa o copiamos el anterior? Estilometría sobre elecciones generales 2016

Nuevas elecciones > incremento en el corpus de programas electorales > nuevo post sobre estilometría política. Las elecciones generales en España del 26 de junio de 2016 se caracterizan por ser en realidad la repetición de las anteriores. Ni la época, ni los candidatos, ni los partidos ni (en principio) las ideas han cambiado. Así que ¿habrán cambiado los textos? ¿Su estilo? Quitando claro la excepción de Unidos Podemos y sus versiones en Cataluña, Valencia y Galicia (cuyos textos no están representados aquí por diferentes razones).

En primer lugar he realizado un análisis de la distancia textual mediante Delta. Dependiendo de la cantidad de palabras a utilizar los resultados varían notablemente. Aquí un ejemplo de los resultados de los 4000 y 6000 MFW:

Como vemos en el primero, el PP forma su propia rama mientras que en el segundo caso aparece bastante mezclado con los programas del PSOE. Por eso he considerado en  realizar un Consensus tree que agrupe los diferentes resultados entre 1000 y 10 000 MFW en un solo análisis:
Como vemos, PNV y UPyD tienen sus propias ramas perfectamente diferenciadas. IU y Podemos muestran relaciones similares en sus programas de 2011 y 2015. Curiosamente su programa electoral unido de 2016 no aparece entre los textos. En el caso del PP y PSOE, sus programas de 2015 y 2016 aparecen emparejados, mientras que los otros textos aparecen en diferentes lugares. Finalmente hay un grupo de tres textos que en realidad se pueden considerar tres textos aislados: Unidos Podemos 2016, Ciudadanos 2016 y PP 2011.

Resulta sorprendente que el programa de Unidos Podemos no aparezca en la misma rama en la que encontramos los textos de IU y Podemos anteriormente. Por lo visto negociar un programa electoral no produce un término medio entre los programas anteriores de los partidos. Al menos en su estilo, que es de lo que la estilometría parte.

Aún más sorprendente resulta que el programa de Ciudadanos 2016 no esté estrechamente emparentado con su programa de 2015. ¿Qué puede explicar esta diferencia? Lo desconozco.

Porque en realidad uno esperaría que los partidos le hubiesen echado un poquito de cara y que en realidad hubiesen presentado el mismo programa que hace 6 meses, maquillándolo un poco y cambiando las fechas y fotos. De hecho podemos intentar medir qué partidos se han plagiado a sí mismos. Para ello troceamos cada texto en cadenas de 7 palabras (7-gramas), unidades del tipo "centros tecnológicos inspirados en los advanced manufacturing" o "como una inversión no como un gasto". Esperamos que estas unidades sean suficientemente largas como para considerar que no se repetirán aleatoriamente y que su coaparición en varios textos debería representar un relación de copia y pega entre textos. Con esa base, realizaremos un PCA cuyo resultado es un representación bidimensional de los textos:
El partido que se ha plagiado más a sí mismo es el PSOE (1945 7-gramas comunes en los programas de 2015 y 2016), quien queda apartado del resto en el eje horizontal (PC1). Los siguientes partidos que más han copiado-pegado su propio programa son en este orden PP (1082 7-gramas comunes), UPyD (¡943 7-gramas en los tres programas!  ¡se llevan copiando desde 2011 hasta el día de hoy!) y PNV (710 7-gramas comunes).

El resto de partidos (Ciudadanos, IU, Podemos y Unidos Podemos) no presentan repeticiones notables de cadenas de 7 palabras y por eso están tan cerca del valor 0 en ambos ejes. Solo algunos 7-gramas aparecen en programas de partidos muy diferentes, como por ejemplo: "a lo largo de toda la vida", "la participación de los ciudadanos en la", "por debajo del umbral de la pobreza", etcétera.

Es curioso observar que la repetición señala principalmente relaciones entre textos muy similares y no sencilla similitud del estilo. No vemos que los textos del PSOE y PP del 2011 estén a medio camino entre el valor 0 y los textos de 2015-2016. La idea intuitiva de que cadenas relativamente largas podrían señalar copia entre textos parece validarse.

Por supuesto hay dos manera de interpretar la repetición de cadenas largas en diferentes textos: como señal de desidia o como señal de coherencia. Uno puede valorar que el país no ha cambiado desde diciembre de 2015 y que por lo tanto no hay que cambiar los textos. Puede ser cierto, aunque en realidad lo que aquí se analiza no es el fondo del texto (las ideas) sino la superficie del texto (su estilo). Se puede expresar la misma idea de varias maneras y la estilometría no reconocerá su similitud.

Entiendo bastante bien que un partido como UPyD, que está para que lo rematen, quiera ahorrarse cualquier trabajo y reutilice el texto. Lo sorprendente es que en realidad los dos partidos que más han copiado sean a su vez los más grandes y con mayores medios. Si no les faltan medios, será  que les falta interés.

No hay comentarios:

LinkWithin

Related Posts with Thumbnails