Categorías gramaticales y estilometría: conjunciones decimonónicas vs. puntuación modernista
En el anterior post hice una primera aproximación sobre algunos métodos estilométricos, como el clustering, aplicados a las novelas españolas de la Edad de Plata. Para ese análisis utilicé las formas simples de las palabras. Pero ¿y si en vez de analizar dijo, decía, dicho (etc.) solo analizamos el verbo decir? O sea ¿y analizamos un texto lematizado? O más abstracto aún: ¿y si solo usamos sobre categorías gramaticales? En este post os quiero comentar los resultados de un pequeño experimento estilométrico con categorías gramaticales en textos entre los siglos XIX y XX. Había varios aspectos de las pruebas que os voy a comentar en este post que aún tengo que comprobar.
Para saber con qué estamos trabajando, vamos a basarnos en un texto concreto: Niebla de Unamuno. Debemos partir de una versión en texto plano .txt:
Para procesar el texto he utilizado TreeTagger, de la Universidad de Múnich y lo he utilizado directamente desde el entorno de R mediante la librería koRpus. Confieso que poner a trabajar las diferentes herramientas no fue sencillo, ni para mí ni para los docentes del European Summer School in Digital Humanities. Si quisiésemos lematizar Niebla, el resultado debería ser un archivo txt similar a este:
Por lo general la estilometría prefiere no trabajar con lemas ya que se considera que muchos datos se pierden: se pierde la diferencia entre las novelas escritas en pasado o aquellas escritas en presente, por ejemplo. Algunos autores han señalado que podría ser más interesante dar un paso más allá de la lematización y conseguir las categorías gramaticales (Part of Speech, POS) de todas las palabras del texto. Es lo que vamos a hacer para nuestro experimento; esto sigue siendo Niebla habiendo hecho un análisis gramatical de cada palabra:
Como vemos en la documentación de las categorías gramaticales para el español del TreeTagger, no solo se nos aporta si es un verbo o un sustantivo, también se nos da si el verbo está en forma finita (VLfin) o si es un nombre propio o común. Por ejemplo don Miguel de Unamuno sería en la anterior imagen «NC NP PREP NC». En total TreeTagger devuelve más de 70 categorías gramaticales diferentes.
Como queremos trabajar algo más manejable, decido simplificar el análisis a solo 10 grandes categorías gramaticales. En este análisis don Miguel de Unamuno sería «N N R N». El resultado es el siguiente:
Lo que observamos en la anterior imagen es la estructura léxico-gramatical de Niebla. Este proceso lo realizamos con varias decenas de textos publicados entre finales del siglo XIX y principios del siglo XX. Las listas obtenidas de categorías gramaticales las analizamos mediante Principal Components Analysis, con lo que obtenemos una visualización en dos dimensiones teniendo en cuenta aquellos valores que más tienden a diferenciar textos. ¿El resultado?
En esta nueva imagen vemos que los textos de Valle, por ejemplo, quedan en la parte superior y que los textos de Valera aparecen en el extremo inferior. Es decir, hay un valor que diferencia por completo a estos dos autores. A su vez, Unamuno aparece en el extremo derecho y Blasco Ibáñez a la izquierda. Pero ¿qué significan estas agrupaciones? ¿Según qué criterios se están organizando? Para saberlo, utilizamos la opción loading en stylo.
Sé que no lo parece, pero esta imagen es muy interesante. Es la misma imagen anterior, ahora los textos están en gris, y con las categorías gramaticales como vectores. Observamos que nombres, artículos, preposiciones y adjetivos aparecen muy cercanos entre ellos en la izquierda: es decir, las categorías gramaticales que forman principalmente sintagmas nominales aparecen agrupados.
Ese «polo nominal» aparece enfrentado en la dimensión horizontal por otro polo formado por verbos y pronombres (y en parte también por signos de puntuación, adverbios y conjunciones): una especie de «polo verbal». El Principal Components Analysis que esa diferencia entre polo nominal y polo verbal resulta importantísima, ya que el valor de ese PC es un excepcionalmente alto 50,3%.
Es decir, la imagen nos está indicando que se puede hacer una diferencia sólida entre textos que prefieren sintagmas verbales, y aquellos que prefieren sintagmas nominales. Unamuno, por ejemplo, resultaría extraordinariamente verbal; Blasco Ibáñez, por contra, resultaría bastante nominal.
Estos resultados son interesantes, sí, pero no sorprendentes: es bastante esperable que haya autores que utilicen más verbos (y estos suelen llevar pronombres relacionados) y otros que utilicen más sustantivos (con sus adjetivos y determinantes). Lo inesperado es el eje vertical.
Porque el análisis muestra que la otra dimensión de mayor importancia es la diferencia entre conjunciones (y adverbios) frente a signos de puntuación. ¿Cómo? ¿Qué significa eso? Yo lo interpreto en el sentido que algunos autores preferirían relacionar las oraciones entre sí mediante símbolos de puntuación, como Valle o Baroja; frente a otros, que preferirían utilizar conjunciones: como Valera u Ortega.
Sinceramente, no esperaba esta diferenciación ya que tendería a pensar que los signos de puntuación y las conjunciones no se excluyen. Al tener estos resultados delante hay que recordar que los signos de puntuación no son una categoría gramatical de por sí como adjetivos, adverbios, sustantivos o verbos. La lingüística computacional tiende a darle rango de categoría gramatical y por eso lo incluyo en el análisis, pero es cuestionable desde el punto de vista teórico. Además los signos de puntuación es un aspecto sensible a la intervención del editor, por lo que lo óptimo sería utilizar textos que han sido editados de manera homogénea.
Señaladas estas precauciones, creo que es un aspecto interesante que hay que seguir estudiando, también en relación a otras variables. Porque resulta aún más llamativo cuando introducimos en el análisis la variable cronológica. En la siguiente imagen los textos decimonónicos aparecen en rojo, frente a los verdes del siglo XX.
De manera casi total (un texto de Bazán, Fernández Flórez y Ortega son las excepciones), los títulos en rojo aparecen en la mitad inferior de la imagen: es decir, el siglo XIX prefería las conjunciones; frente a esto los títulos verdes aparecen en la parte superior: es decir, el siglo XX prefiere los signos de puntuación.
En el paso del siglo XIX al XX la literatura no solo realizó cambios estéticos o temáticos, parece que también cambió conjunciones por signos de puntuación.
Para saber con qué estamos trabajando, vamos a basarnos en un texto concreto: Niebla de Unamuno. Debemos partir de una versión en texto plano .txt:
Niebla en formato plano |
Para procesar el texto he utilizado TreeTagger, de la Universidad de Múnich y lo he utilizado directamente desde el entorno de R mediante la librería koRpus. Confieso que poner a trabajar las diferentes herramientas no fue sencillo, ni para mí ni para los docentes del European Summer School in Digital Humanities. Si quisiésemos lematizar Niebla, el resultado debería ser un archivo txt similar a este:
Niebla lematizada |
Niebla según categorías gramaticales del TreeTagger |
Como queremos trabajar algo más manejable, decido simplificar el análisis a solo 10 grandes categorías gramaticales. En este análisis don Miguel de Unamuno sería «N N R N». El resultado es el siguiente:
No, no es Mátrix, es Niebla, en 10 cómodas categorías gramaticales. |
En esta nueva imagen vemos que los textos de Valle, por ejemplo, quedan en la parte superior y que los textos de Valera aparecen en el extremo inferior. Es decir, hay un valor que diferencia por completo a estos dos autores. A su vez, Unamuno aparece en el extremo derecho y Blasco Ibáñez a la izquierda. Pero ¿qué significan estas agrupaciones? ¿Según qué criterios se están organizando? Para saberlo, utilizamos la opción loading en stylo.
Sé que no lo parece, pero esta imagen es muy interesante. Es la misma imagen anterior, ahora los textos están en gris, y con las categorías gramaticales como vectores. Observamos que nombres, artículos, preposiciones y adjetivos aparecen muy cercanos entre ellos en la izquierda: es decir, las categorías gramaticales que forman principalmente sintagmas nominales aparecen agrupados.
Ese «polo nominal» aparece enfrentado en la dimensión horizontal por otro polo formado por verbos y pronombres (y en parte también por signos de puntuación, adverbios y conjunciones): una especie de «polo verbal». El Principal Components Analysis que esa diferencia entre polo nominal y polo verbal resulta importantísima, ya que el valor de ese PC es un excepcionalmente alto 50,3%.
Es decir, la imagen nos está indicando que se puede hacer una diferencia sólida entre textos que prefieren sintagmas verbales, y aquellos que prefieren sintagmas nominales. Unamuno, por ejemplo, resultaría extraordinariamente verbal; Blasco Ibáñez, por contra, resultaría bastante nominal.
Estos resultados son interesantes, sí, pero no sorprendentes: es bastante esperable que haya autores que utilicen más verbos (y estos suelen llevar pronombres relacionados) y otros que utilicen más sustantivos (con sus adjetivos y determinantes). Lo inesperado es el eje vertical.
Porque el análisis muestra que la otra dimensión de mayor importancia es la diferencia entre conjunciones (y adverbios) frente a signos de puntuación. ¿Cómo? ¿Qué significa eso? Yo lo interpreto en el sentido que algunos autores preferirían relacionar las oraciones entre sí mediante símbolos de puntuación, como Valle o Baroja; frente a otros, que preferirían utilizar conjunciones: como Valera u Ortega.
Sinceramente, no esperaba esta diferenciación ya que tendería a pensar que los signos de puntuación y las conjunciones no se excluyen. Al tener estos resultados delante hay que recordar que los signos de puntuación no son una categoría gramatical de por sí como adjetivos, adverbios, sustantivos o verbos. La lingüística computacional tiende a darle rango de categoría gramatical y por eso lo incluyo en el análisis, pero es cuestionable desde el punto de vista teórico. Además los signos de puntuación es un aspecto sensible a la intervención del editor, por lo que lo óptimo sería utilizar textos que han sido editados de manera homogénea.
Señaladas estas precauciones, creo que es un aspecto interesante que hay que seguir estudiando, también en relación a otras variables. Porque resulta aún más llamativo cuando introducimos en el análisis la variable cronológica. En la siguiente imagen los textos decimonónicos aparecen en rojo, frente a los verdes del siglo XX.
De manera casi total (un texto de Bazán, Fernández Flórez y Ortega son las excepciones), los títulos en rojo aparecen en la mitad inferior de la imagen: es decir, el siglo XIX prefería las conjunciones; frente a esto los títulos verdes aparecen en la parte superior: es decir, el siglo XX prefiere los signos de puntuación.
En el paso del siglo XIX al XX la literatura no solo realizó cambios estéticos o temáticos, parece que también cambió conjunciones por signos de puntuación.