Las palabras de la Reina Isabel |
Hemos
insinuado que la frecuencia de las letras de cualquier texto
en idioma español son siempre las mismas. Debemos reconocer
que es un hecho que debemos comprobar todavía. Ahora vamos a
contar, no las letras, sino que las palabras de un texto. Y
particularmente contaremos las frecuencias de cada palabra
escrita en al capítulo 17 de la mencionada La Reina Isabel
Cantaba Rancheras. Esta operación es bastante complicada,
pues en el anterior ejercicio, sabíamos lo que buscábamos.
Esto es, que debíamos buscar las frecuencias de las 27 letras
de nuestro idioma. Sin embargo ¿sabemos de antemano las
palabras que utilizará un escritor?
Pues bien, en este caso debemos identificar, en el texto mismo, las palabras que utiliza el escritor, y enseguida contar las frecuencias de cada palabra. Afortunadamente un grupo de personas con la misma afición nuestra creo un software ad-hoc para este trabajo. Y el software es gratuito y se llama TEXTSTAT (haciendo clik lo baja comprimido, lo descomprime, busca donde dice "setup", y queda cargado en su computador). Utilizando este software esta vez sobre el capítulo 20, entregamos solamente los resultados de las 21 palabras más frecuentes, vertidos en el gráfico 1 y tabla 1. Podemos observar, que en este capítulo la palabra más frecuente fue "de", seguida de "la". Podemos asegurar que en el capítulo 20, el escritor escribió 2453 palabras diferentes, resultado que nos arroja el TEXTSTAT. Gráfico 1 |
Tabla de
frecuencias de las primeras 21 palabras más usadas, del
capítulo 20.
Tabla 1
|
En nuestro antiguo capítulo 17, de la obra La Reina Isabel Cantaba Rancheras, las primeras cuatro palabras más frecuentes se entregan en el gráfico 2.
Gráfico 2
Pareciera que aquí no hay manera de encontrar alguna "regularidad". Sin embargo, existe una regularidad que relaciona el puesto donde se ubica la palabra más usada, que se llama rango, con la frecuencia de esa palabra. Lo veremos en una próxima sección (sea paciente).