martes, 9 de septiembre de 2014

Estilometría: stylo y novelas en español

Como comenté en mi último post, tuve el privilegio de estar en la European Summer School in Digital Humanities 2014 donde pude aprender sobre estilometría. Los profesores Jan Rybicki y Maciej Eder fueron los encargados de enseñarnos sobre estilometría y la librería de R llamada stylo que ha diseñado el grupo Computational Stylistics Group:

stylo, sonriente nada más despertarse

La estilometría es una metodología estadística para analizar textos a través de sus palabras más frecuentes (Most Frequent Words o MFW). Fue Wincenty Lutosławski quien acuñó esta palabra; en los últimos años John Burrow ha sido uno de los principales investigadores, cuya influencia puede observarse en varios grupos de investigación en Centro Europa.

La estilometría se ha utilizado principalmente para estudiar atribuciones de autorías. Cada autor tiene tendencias al escribir: unos tienden a utilizar más estructuras determinante+adjetivo+sustantivo, algunos prefieren sumar oraciones con y u o, otros prefieren la confrontación mediante peros y aunques... Decenas de esos rasgos medidos estadísticamente medidos y enfrentados crearían la llamada huella dactilar textual de un autor: un patrón que podría reconocer la autoría de cualquier autor. Al menos esa es la idea.

La realidad, como casi siempre, es más compleja. Pero lo emocionante que os quiero enseñar que esta metodología funciona sorprendentemente bien. Para empezar a trabajar necesitaremos un grupo de textos que formen un corpus más o menos equilibrado. Para esta prueba he decidido trabajar con un grupo de textos entre la segunda mitad del siglo XIX y las primeras décadas del siglo XX. Por ejemplo La batalla de Arapiles, de Galdós, publicada por Clásicos Hispánicos. Algunos criterios que se deben tener al trabajar con estilometría es que el corpus:
  • debe tener varios textos del mismo autor
  • los textos pueden tener un formato plano, pero asegúrate que la codificación y el tipo de final de línea es homogéneo
  • los resultados son mejores si el género literario es homogéneo
Bajo estos criterios, vamos a trabajar con algunas novelas de autores como Baroja, Bazán, Blasco Ibáñez, Clarín, Galdós, Miró, Sénder, Unamuno, Valle... Cada una de las novelas la guardamos en un archivo de texto diferente. Queremos que el stylo ordene los textos según su semejanza. Intuitivamente tenderíamos a pensar que dos novelas de Galdós son más semejantes entre sí  que una novela de Galdós y una de Clarín; y que las novelas de Galdós y Clarín (ambos parte del realismo) son más semejantes entre sí que, digamos, una novela de Galdós y una de Valle, ¿cierto?

Para ello vamos a realizar un cluster analysis, (algoritmo de agrupamiento) que stylo consigue realizar de manera múltiple en iteraciones: primero trabaja con las 100 palabras más frecuentes y crea un cluster, después coge las siguientes 100 palabras y hace otro cluster; así hasta que llega a las 5000 palabras más frecuentes. Todos esos clusters son tenidos en cuenta para crear un resultados más robustos en forma de Consensus Tree. Para ello utilizamos la Distance Delta en la variedad de Eder. ¿El resultado? La siguiente imagen:

Quizás estés pensando ¿qué son estas raíces de colores y qué significa? Estamos ante una visualización bidimensional de los clusters (o grupos) de las novelas. La relación jerárquica de las ramas significa la distancia entre los textos. Vamos a ver un segmento de este consensus tree:
Rama con textos de Clarín, Valera y Blasco Ibáñez
En esta rama de Clarín, Valera y Blascos Ibález vemos que los dos textos de La Regenta penden de un mismo nodo, por lo que los dos textos son muy similares entre sí. De la misma manera penden los dos textos de Valera. Los textos de Blasco Ibáñez tienen una estructura más compleja: Arroz y tartana es similar a la segunda parte de La araña negra; esos dos son parecidos a La catedral (aunque no tan parecidos); estos tres textos a su vez serían similares a La barraca. El análisis de clusters señala que los textos de Clarín y Valera son más similares entre sí y que estos, a su vez, tienen cierto parecido (aunque menor) con los de Blasco Ibáñez. Ahora que ya sabemos entender las ramas, volvamos a la imagen completa:
El programa nos facilita la visualización por colores, con lo que nos es muy fácil reconocer los autores de los textos. Como vemos el análisis de clusters ha conseguido reconocer la huella del autor: los textos de Galdós no se mezclan con los de Bazán: ambos aparecen en una misma rama, pero el programa consigue distinguirlos por autores. De esta manera todos los textos han sido ordenados correctamente por autor. Es decir, la huella digital textual no es solo una bonita metáfora: se puede demostrar empíricamente. ¡Hurra!

Solo hay un problema:



¿Todos los textos han sido organizados por autor? ¡No todos! Sénder y su primera novela Imán está separado de sus otras dos novelas, que aparecen emparentadas con Baroja. Es decir, que de 32 novelas, 31 han sido organizadas por autor correctamente. Vale, el sistema no es perfecto, pero no me dirán que resulta fascinante que una máquina que no sabe absolutamente nada de literatura consiga organizar miles de palabras mágicamente por autor.

Pero lo cierto es que la máquina ha hecho más que eso. Si nos fijamos, observamos que también se ha organizado cronológicamente: casi todos los autores del siglo XIX están en la rama inferior; los que empiezana  publicar en el siglo XX en la rama superior. La máquina no solo ha conseguido distinguir la autoría: también la periodización literaria.

Ahora bien ¿qué significan las ramas intermedias? Uno esperaría haber encontrado a Valle, Unamuno y Baroja en una rama a la que llamaríamos «Rama del 98» y confirmaría la clásica agrupación de autores; pero no, el programa ha agrupado a Valle con Miró y a Baroja con Sénder. ¿Qué significan estos datos? ¿Es que Valle y Miró escribían novelas líricas mientras que Baroja y Sénder escribían novelas de aventuras? ¿Es otra cosa? ¿Esa diferencia es más importante? ¿Por qué Fernández Flórez aparece rodeado de autores muy anteriores a él? ¿Qué es lo que reúne a Clarín, Valera y Blasco Ibáñez, que los diferencia de Bazán y Galdós?

¿Son estos resultados ruido? ¿O están apuntando nuevas agrupaciones literarias?

2 comentarios:

Rocky Balblogger dijo...

Sí, es interesante, pero también es fácil de cuestionar. ¿Qué aprendemos de esos textos? ¿Qué validez tiene agrupar autores por su uso de unas cuantas palabras? De todos modos, me parece super interesante.

José Calvo Tello dijo...

Siempre que me dejas un comentario tengo que pensar quién es este Rocky :D

Es inesperado que las palabras más frecuentes funcionen tan bien para detectar autorías. Los métodos estilométricos carecen de un cuerpo teórico que explique qué ocurre y por qué ocurre tan bien. A veces he escuchado algunas relaciones con el concepto de idiolecto.

A mí personalmente me atrae por ser precisamente una metodología increíblemente empírica que puede aplicarse a la literatura.

Por cierto, tienes otro post sobre el tema ;)
http://eumanismo.blogspot.de/2014/09/categorias-gramaticales-y-estilometria.html

LinkWithin

Related Posts with Thumbnails