Eumanismo: Corpus lingüístico en español, portugués e inglés

Hace un tiempo hice un post sobre un corpus del idioma alemán del siglo XX, el mejor corpus que yo conozco. Hoy vengo a presentar un corpus lingüístico español. Y no, no es el ni el CREA ni el CORDE, que son los corpus lingüísticos de la Real Academia de la Lengua, uno actual, el otro histórico. Antes que nada quiero recordar a aquellas sanas personas no filólogas que quieren leer este post que un corpus es un conjunto delimitado de textos escogidos con ciertos criterios de selección (oral o escrito, cronológico, geográfico, de una lengua o de varias, etcétera). Sirven para buscar palabras y ver ejemplos reales de uso a lo largo de los tiempos, su frecuencia, las palabras con las que suele aparecer, etcétera.

El corpus lingüístico que hoy quiero presentar nos lo mostró mi profesor de Léxico de la UAM y se llama Corpus del Español: www.corpusdelespanol.org. Está hecho por un enérgico lingüista llamado Mark Davies, que amén de éste tiene otro corpus de inglés, de portugués y varios trabajos sobre español, por ejemplo su A Frequency Dictionary of Spanish (al que todavía no he tenido acceso, ni la Biblioteca Nacional tiene una copia) sobre la frecuencia de las palabras, tema que ya tratamos aquí en este post.

¿Por qué estoy recomendando este corpus en español y no el CREA/CORDE? Porque es mucho más completo y útil, aunque tiene la incomodidad de que tienes que registrarte para usarlo.

Veamos un ejemplo de uso, en el que buscamos la palabra "producir":

Como vemos el corpus tiene un menú a la izquierda en el que podemos elegir los siglos, el tipo de texto, si buscamos una palabra o si queremos comparar dos, cómo queremos que se nos presenten la información, etcétera. Los resultados aparecen a la derecha. En éste caso vemos que aparece la evolución del uso de la palabra a lo largo de los siglos junto al tipo de textos en los que lo encontramos. Según esto aparece por primera vez en el siglo XIV, y 83 veces en el siguiente pero no es hasta el siglo XVIII que su uso no se expande.

Los que usen CREA y CORDE no verán demasiada mejoría. Por ahora. Os cuento uno de los dos secretos de este corpus: no sólo se pueden buscar formas morfológicas, sino también palabras con todo su paradigma flexivo: el corpus está lematizado. Me explico: si buscamos en un corpus como el CREA la palabra "víveres" aparecerán todos los resultados ya que esta palabra no tiene variantes: ni cambio de género, ni número ni es un verbo que se flexiona, ni "viver", ni "vivera", ni "vivercitos". ¿Pero qué pasa cuando ponemos "ir"? Que no aparecerán las formas "va", "vamos", "fue", "fui" y un largo y verbal etcétera. Para que éstas aparezcan unidas al verbo "ir" alguien (o alguienes) se debe haber molestado para indicar en una base de datos que esas formas están unidas al verbo, que son variantes flexivas de la misma palabra. Algo parecido pasa con palabras como "vino", que puede ser la bebida o el verbo. Alguien debe hacer esa distinción. En CREA nadie se ha molestado (o nadie ha sido pagado para que se moleste). En este corpus sí aparece.

Si buscamos la palabra entre corchetes aparecerán todas las variantes flexivas de la palabra. Veamos la diferencia entre buscar "ir" e "[ir]"

Otra de las características más interesantes de este corpus (y de su corpus hermanos en inglés y en portugués) y que hasta ahora ninguna herramienta gratuita ofrecía en español es que ofrece las palabras que se suelen encontrar frecuentemente cerca de la palabra buscada. Imaginemos que somos un estudiante extranjero que aprende español y no recordamos los verbos que se usan con los sustantivos "pregunta" y "respuesta" ¿Se utiliza con los dos "dar" o "hacer"? ¿Se "hace una respuesta" y se "da una pregunta" o al revés?
¿Cómo hacemos este tipo de búsqueda? En el menú de la izquierda clickamos primero en "COMPARAR PALABRA", nos aparecerán otras dos cajas de texto e inmediatamente clickamos en "LISTA" (parece que el programa tiene algún error y se tiene que hacer de esta manera hiperbólica) para que una de ellas desaparezca. Así tenemos dos cajas de texto, una encima de la otra, junto a dos cajitas con numeritos como se muestra en la imagen:

En la caja de texto "PALABRA(S) ponemos la palabra a buscar(entre corchetes o sin ellos, depende de lo que queramos) y en la caja de texto "CONTEXTO" ponemos un asterisco, como se ve en la siguiente imagen. Las cajitas con números representan la distancia a la que tiene que estar las palabras buscadas, ya sea delante o detrás de ella. Es decir, si ponemos 1 y 3 por ejemplo aparecerán todas las palabras que estén a una distancia de una palabra por delante, y de tres palabras por detrás. Sigamos con el ejemplo de antes de "[pregunta]" y "[respuesta]", y vamos a poner 2 y 2, con lo que nos aparecerán palabras que están a una distancia de dos palabras de los sustantivos buscados.

En la búsqueda de "[respuesta]" aparece "dar" y en la de "[pregunta]" aparece "hacer". Nuestro estudiante hipotético de español ya tiene la respuesta. Y aunque esto puede parecer simple, el otro día necesitaba saber cuál es el verbo que se usa en inglés en la frase "reforzar la presencia policial". Eso ya no es tan fácil y dudamos que algún diccionario nos pueda dar esa información. Al buscar "police presence" el corpus me respondió el verbo "increase" y además me sirvió de aperitivo los adjetivos y adverbios "heavy", "massive" o "visible".

En fin, esto es una herramienta increíblemente útil, gratuita, digital, en tres idiomas y de todas las palabras. Además tiene muchas más opciones de lo aquí explicado. Este corpus es una mejora de la suma del CREA el CORDE y REDES, el diccionario de Ignacio Bosque, una joya de diccionario, pero con sus limitaciones de papel.

Otros posts que te pueden interesar:
10 datos de la frecuencia de las palabras de nuestro idioma
Diccionario online alemán profesional y gratis
La Biblia: texto de polifonía extrema