Una pregunta antes de nada ¿niño y niña son palabras diferentes o variantes de la misma palabra? Vemos que ambas tienen características comunes, pero que no son lo mismo. Bien, a esas variantes, en este post las llamaremos "formas". Y "palabra" es la suma de esas variantes. Es decir, una misma palabra niño, tiene muchas formas: niño, niña, niñas, niñita, niñato. Otro ejemplo, el verbo ir es una palabra con decenas de formas: voy, fui, iré, ido, etcétera. Por lo tanto una lengua tendrá muchísimas más formas que palabras ¿verdad?Depende si contamos formas o palabras obtendremos diferentes datos. Una vez tenemos esto claro, diremos que:
1. Las palabras más frecuentes son el, de y que. Los tres verbos más frecuente son ser, haber y estar. Los tres sustantivos más frecuente son año, vez y día. Los tres adjetivos más frecuentes son bueno, grande y nuevo (después de todo y mucho, que suelen ser considerados determinantes).
2. El 92,7% de las formas del español aparece solamente tres veces por cada millón de formas. Es decir, formas como óperas, inventó, pólvora o caían sólo aparecen tres veces por cada millón de formas.
3. Más del 9% de las palabras de cualquier texto lo constituye el artículo definido (el, la, los, las). El 6% de las palabras de cualquier texto son la preposición de.
4. Además, las palabras el, de, que, y, en, a, un, ser, se, no, del, haber y por suman el 35% de las palabras de cualquier texto.
5. Casi el 54% del vocabulario del español son sustantivos. Conjunciones, preposiciones, artículos y pronombres juntos no suman más que un 3,08% del vocabulario.
6. Si vemos qué pronombre personal es más frecuente, diremos que yo es bastante más frecuente, después él/ella y después tú. Por cada cinco veces que aparece el pronombre yo aparecen cuatro él/ella y sólo un tú. Sin embargo los posesivos tienen otro orden: el posesivo su es mucho más frecuente, después mi y después tu. Por cada doce posesivos su aparecen tres mi y sólo un tu. Parece que es más habitual que hablemos de nosotros mismos que de otras personas, pero preferimos hablar de las cosas de los demás y no de las nuestras.
7. Por cada cien formas, 2,7 serán la forma masculina singular del artículo determinado: el y 1,6 la forma masculina plural los. Total de formas masculinas del artículo: 4,3 por cada cien formas. Sin embargo la forma femenina la aparece 3,7 por cada cien palabras, y su plural las 1 vez. Total de femeninas: 4,7%. 4,3 masculinas, 4,7 femeninas. Es decir, parece que las palabras femeninas son algo más frecuentes que las masculinas.
8. No es muchísimo más frecuente que sí. Por cada siete no hay un sí.
9. Las formas verbales más frecuentes son ha, está, ser, era, había, tiene, fue, puede, han, hacer, hace, estado y estaba. Esto parece señalar que el presente no es el tiempo más frecuente, sino que parece haber un empate entre éste, el pretérito perfecto y el imperfecto.
10. Una de las tres combinaciones de tres palabras más frecuente es yo creo que (junto a uno de los, y de lo que).
Toda esta información está sacada del libro Frecuencias del Español. Diccionario y estudios léxicos y morfológicos de Ramón Almela, Pascual Cantos, Aquilino Sánchez, Ramón Sarmiento y Moisés Almela. Ed: Universitas SA. 2005. Han trabajado con el corpus CUMBRE, de SGEL, que contiene más de veinte millones de palabras. En el libro aparecen los listados de formas y lemas ordenados por la frecuencia, pero en esta página web se pueden descargar los listado en orden alfabético (los archivos hay que abrirlos con adobe reader, puede dar algún problema pero al final los he podido ver bien).
Todas estas afirmaciones tendrían validez en el caso de que ese corpus fuese realmente representativo de la lengua española (como defienden sus autores).
Otros posts que te pueden interesar:
La Biblia: texto de polifonía extrema
La UAM usa mapas de Wikipedia en sus folletos
El Marco narratológico de Schmid aplicado a la Familia Pascual Duarte, de Cela
Seguir leyendo este post...
Volver a la versión resumida del post