Teorema de Bayes

Lingüística cuantitativa: introducción

Desde hace mucho tiempo que tengo interés por la lectura. Interés, por cierto, nada infrecuente para todo el mundo, o para gran parte del mundo, de manera que el interés por la lectura no es de importancia máxima. Sin embargo, ocurre que mi interés por la lectura de alguna manera lo integraba a mis estudios en mi formación como matemático. Es decir, de una manera u otra trataba de buscar patrones matemáticos en la lectura o mejor dicho en los textos que leía, y viceversa. Es decir, aplicaba algunos resultados matemáticos para el estudio de textos aleatorios. Recuerdo que a finales de la década del 80 del siglo pasado, creo que por el año 1988, logré anexar un tema matemático llamado Cadenas de Markov de tal manera que podía generar textos a partir de un "texto fuente". Le enseñaba al ordenador, a un mono virtual, a escribir textos de forma aleatoria pero respetando ciertas frecuencias del "texto fuente". Mientras la cadena de Markov tuviera más memoria (un proceso de Markov se caracteriza por tener poca memoria, es decir solo recuerda el pasado inmediatamente anterior) el texto generado, siguiendo ciertas leyes de la probabilidad, intentaba acercarse más y más al texto original. Llegué, como resultado empírico que una cadena de Markov de memoria 5 (es decir que sabía la frecuencia del sexto caracter conociendo los cinco caracteres anteriores) prácticamente replicaba el texto fuente original. Puesto que toda cadena de Markov finita está caracterizada por una matriz cuadrada finita, en teoría tenía un libro de cientos de hojas guardado íntegramente en una matriz, que es un arreglo bidimensional. Creo que más adelante retomaré esta idea. Y digo retomar, porque en esos tiempos los programas los hacía en un lenguaje llamado Basic, y guardaba la información en un disco delgado y grande, muy flexible. Y un día lo deje insertado en un antiguo computador, muy antiguo (ya les dije que eso ocurrió en 1988), y el disco lo perdí para siempre. Nunca más quise recrear lo realizado, además que no tomaba notas sistemáticamente, de modo que con el disco también se fueron las ideas.

No obstante, alcancé a realizar una charla al respecto en una universidad de la Región, y que no gustó mucho por diversas razones que no vienen al caso considerarlas todas. Pero creo que fue mío el error de que este generador de textos aleatorios no llamara la atención. Debo recordar que por ese entonces no tenía la más mínima idea de Biología Molecular. Si así hubiese sido, entonces hubiese puesto trabajar a mi mono virtual en la reproducción de largas cintas, bajo alguna sencilla ley de probabilidad, con cuatro caracteres que hoy se utilizan como la tabla de multiplicar. T, A, C y G.

Efectivamente, las bases que componen cualquier hebra de ADN. No vi, en ese entonces, el nexo natural que había entre los textos, que es una secuencia de determinados caracteres que pueden ser feos o hermosos, las probabilidades y la Biología Molecular.

En mis estudios de doctorado en España, por el año 84, había leído algo sobre un grupo francés (del cual ya daré más detalles a medida que se amplíen estos apuntes) el cual estudiaba la frecuencia de los caracteres del alfabeto de una determinada lengua, y como estas frecuencias eran "inmutables", entendiendo como inmutables que cada caracter tenía la misma frecuencia relativa (o casi la misma) sin importar el texto, ni el autor del texto, siempre y cuando este texto sea escrito de manera natural. Este es un resultado que veremos en una próxima sección. Decía que el texto debe escribirse de manera natural, entendiendo esto como no forzarse a no escribir una determinada letra, como así lo hizo el autor de Azul, Rubén Darío, en que creo recordar que escribió un largo texto en que utilizaba en toda palabra una única vocal (me parece que era la "e").

Este conocimiento anterior, me permitió enseñar estadística descriptiva, en que fundamentalmente se trabaja con frecuencias de eventos, para alumnos de las carreras de letras. Con desastrosos resultados, que tampoco viene al caso comentar... Pero los comentaré. Ocurría que para realizar el análisis descriptivo emanado del grupo francés, esto es de contar las frecuencias de letras de un determinado texto, era menester manejar un computador, tener conexión a Internet, y saber usar dos software ya de amplio dominio público como son el WORD y EXCEL. Puesto que Internet era y es la mejor manera de acudir gratis a las mejores novelas y poemas, que van desde el Quijote, pasando por Dylan Thomas, y llegando hasta Neruda. Una vez capturado el texto, se realizaba el conteo de las frecuencias de las letras mediante el WORD, para luego traspasar los resultados a una planilla en EXCEL, y allí realizar el análisis estadístico. De manera que en esa época, corría el año 1990, para poder realizar esa "estadística" los estudiantes tenían que manejar complicados procedimientos computacionales. Por supuesto que esa complicación, en este nuevo siglo, se ha transformado en una simpleza rutinaria y accesible para todos los estudiantes. Hoy, en este nuevo siglo, lo intentaré nuevamente. Esta vez mi esfuerzo estará dedicado al análisis de la obra, desde el punto estadístico, de mi amigo Hernán Rivera Letelier, el cual soy su inmodesto amigo (a todos los vientos declaro que me ha honrado con su amistad), y su modesto colaborador por haberle ayudado a encontrar una palabra soez, desde un avieso "diccionario del insulto" conseguido arduamente en una calle de Madrid, para que fuera pronunciada por uno de los personajes de su última obra. Santa María de las Flores Negras. La obra de Rivera Letelier que analizaremos es La Reina Isabel Cantaba Rancheras.

A manera de colofón. Uno de los principales trabajos en matemática, que permitió resolver un problema matemático abierto (sin resolución) en el siglo pasado, y propuesto por Hilbert, otro matemático, fue realizado por Alan Turing. Este matemático inglés, entre otras cosas, definió lo que en matemáticas se entiende por algoritmo. Un algoritmo, en resumen, es un procedimiento o secuencia de instruciones que una maquina muy especial sin inteligencia puede realizar. Y esta máquina se llama Máquina de Turing. Esta máquina es capaz de leer un texto, una secuencia de caracteres, y conforme al caracter que lee, más el estado interno que posee la máquina, los estados son finitos, la máquina procesa y escribe un determinado caracter. El resultado final, es la ejecución del algoritmo, cuestión que se puede decir que "todo algoritmo es computable si lo puede realizar una máquina de Tuting". Como ven ustedes, al final decantamos en la dualidad texto-matemática. Fue tan importante el trabajo de Turing, que el hecho de que usted esté leyendo estos apuntes en su computador, se basa en los fundamentos de la Máquina de Turing.

En definitiva, estos apuntes de lingüística cuantitativa, tocará aspectos de la Estadística Descriptiva para el análisis de textos, hablaremos de entropía, la ley de Zipft, fractales, cadenas de Markov, máquinas de Turing, Biología Molecular en su larga ristra de textos ATTTGGCGTACTGC, y... quien sabe hasta donde llegaremos... si es que llegamos a alguna parte.