Lingüística cuantitativa: introducción | 
    ||
| 
      Desde hace mucho tiempo que tengo interés por la
      lectura. Interés, por cierto, nada infrecuente para todo el mundo, o para
      gran parte del mundo, de manera que  el interés por la lectura no es
      de importancia máxima. Sin embargo, ocurre que mi interés por la lectura
      de alguna manera lo integraba a mis estudios en mi formación como
      matemático. Es decir, de una manera u otra trataba de buscar patrones
      matemáticos en la lectura o mejor dicho en los textos que leía, y
      viceversa. Es decir, aplicaba algunos resultados matemáticos para el
      estudio de textos aleatorios. Recuerdo que a finales de la década del 80
      del siglo pasado, creo que por el año 1988, logré anexar un tema
      matemático llamado Cadenas de Markov de tal manera que podía generar
      textos a partir de un "texto fuente". Le enseñaba al ordenador,
      a un mono virtual, a escribir textos de forma aleatoria pero respetando
      ciertas frecuencias del "texto fuente". Mientras la cadena de
      Markov tuviera más memoria (un proceso de Markov se caracteriza por tener
      poca memoria, es decir solo recuerda el pasado inmediatamente anterior) el
      texto generado, siguiendo ciertas leyes de la probabilidad, intentaba
      acercarse más y más al texto original. Llegué, como resultado empírico
      que una cadena de Markov de memoria 5 (es decir que sabía la frecuencia
      del sexto caracter conociendo los cinco caracteres anteriores)
      prácticamente replicaba el texto fuente original. Puesto que toda cadena
      de Markov finita está caracterizada por una matriz cuadrada finita, en
      teoría tenía un libro de cientos de hojas guardado íntegramente en una
      matriz, que es un arreglo bidimensional. Creo que más adelante retomaré
      esta idea. Y digo retomar, porque en esos tiempos los programas los hacía
      en un lenguaje llamado Basic, y guardaba la información en un disco
      delgado y grande, muy flexible. Y un día lo deje insertado en un antiguo
      computador, muy antiguo (ya les dije que eso ocurrió en 1988), y el disco
      lo perdí para siempre. Nunca más quise recrear lo realizado, además que
      no tomaba notas sistemáticamente, de modo que con el disco también se
      fueron las ideas.
       No obstante, alcancé a realizar una charla al respecto en una universidad de la Región, y que no gustó mucho por diversas razones que no vienen al caso considerarlas todas. Pero creo que fue mío el error de que este generador de textos aleatorios no llamara la atención. Debo recordar que por ese entonces no tenía la más mínima idea de Biología Molecular. Si así hubiese sido, entonces hubiese puesto trabajar a mi mono virtual en la reproducción de largas cintas, bajo alguna sencilla ley de probabilidad, con cuatro caracteres que hoy se utilizan como la tabla de multiplicar. T, A, C y G. Efectivamente, las bases que componen cualquier hebra de ADN. No vi, en ese entonces, el nexo natural que había entre los textos, que es una secuencia de determinados caracteres que pueden ser feos o hermosos, las probabilidades y la Biología Molecular. En mis estudios de doctorado en España, por el año 84, había leído algo sobre un grupo francés (del cual ya daré más detalles a medida que se amplíen estos apuntes) el cual estudiaba la frecuencia de los caracteres del alfabeto de una determinada lengua, y como estas frecuencias eran "inmutables", entendiendo como inmutables que cada caracter tenía la misma frecuencia relativa (o casi la misma) sin importar el texto, ni el autor del texto, siempre y cuando este texto sea escrito de manera natural. Este es un resultado que veremos en una próxima sección. Decía que el texto debe escribirse de manera natural, entendiendo esto como no forzarse a no escribir una determinada letra, como así lo hizo el autor de Azul, Rubén Darío, en que creo recordar que escribió un largo texto en que utilizaba en toda palabra una única vocal (me parece que era la "e").  | 
    
     Este conocimiento
    anterior, me permitió enseñar estadística descriptiva, en que
    fundamentalmente se trabaja con frecuencias de eventos, para alumnos de las
    carreras de letras. Con desastrosos resultados,
    que tampoco viene al caso comentar... Pero los comentaré. Ocurría que para
    realizar el análisis descriptivo emanado del grupo francés, esto es de
    contar las frecuencias de letras de un determinado texto, era menester
    manejar un computador, tener conexión a Internet, y saber usar dos software
    ya de amplio dominio público como son el WORD y EXCEL. Puesto que Internet
    era y es la mejor manera de acudir gratis a las mejores novelas y poemas,
    que van desde el Quijote, pasando por Dylan Thomas, y llegando hasta Neruda.
    Una vez capturado el texto, se realizaba el conteo de las frecuencias de las
    letras mediante el WORD, para luego traspasar los resultados a una planilla
    en EXCEL, y allí realizar el análisis estadístico.  De manera que en
    esa época, corría el año 1990, para poder realizar esa
    "estadística" los estudiantes tenían que manejar complicados
    procedimientos computacionales. Por supuesto que esa complicación, en este
    nuevo siglo, se ha transformado en una simpleza rutinaria y accesible para
    todos los estudiantes. Hoy, en este nuevo siglo, lo intentaré nuevamente.
    Esta vez mi esfuerzo estará dedicado al análisis de la obra, desde el
    punto estadístico, de mi amigo Hernán Rivera Letelier, el cual soy su
    inmodesto amigo (a todos los vientos declaro que me ha honrado con su
    amistad), y su modesto colaborador por haberle ayudado a encontrar una
    palabra soez, desde un avieso "diccionario del insulto" conseguido
    arduamente en una calle de Madrid, para que fuera pronunciada por uno de los
    personajes de su última obra.  Santa María de las Flores Negras. La obra de
    Rivera Letelier que analizaremos es La Reina Isabel Cantaba Rancheras.
     A manera de colofón. Uno de los principales trabajos en matemática, que permitió resolver un problema matemático abierto (sin resolución) en el siglo pasado, y propuesto por Hilbert, otro matemático, fue realizado por Alan Turing. Este matemático inglés, entre otras cosas, definió lo que en matemáticas se entiende por algoritmo. Un algoritmo, en resumen, es un procedimiento o secuencia de instruciones que una maquina muy especial sin inteligencia puede realizar. Y esta máquina se llama Máquina de Turing. Esta máquina es capaz de leer un texto, una secuencia de caracteres, y conforme al caracter que lee, más el estado interno que posee la máquina, los estados son finitos, la máquina procesa y escribe un determinado caracter. El resultado final, es la ejecución del algoritmo, cuestión que se puede decir que "todo algoritmo es computable si lo puede realizar una máquina de Tuting". Como ven ustedes, al final decantamos en la dualidad texto-matemática. Fue tan importante el trabajo de Turing, que el hecho de que usted esté leyendo estos apuntes en su computador, se basa en los fundamentos de la Máquina de Turing. En definitiva, estos apuntes de lingüística cuantitativa, tocará aspectos de la Estadística Descriptiva para el análisis de textos, hablaremos de entropía, la ley de Zipft, fractales, cadenas de Markov, máquinas de Turing, Biología Molecular en su larga ristra de textos ATTTGGCGTACTGC, y... quien sabe hasta donde llegaremos... si es que llegamos a alguna parte.  | 
    |