Teorema de Bayes

Modelos lineales: coeficiente r de Pearson

De momento no explicaremos quien fue Pearson, en cualquier caso un gran estadístico, sino que nos avocaremos a la explicación y manejo del coeficiente que lleva su nombre. Supongamos que tenemos los siguientes datos

X	2	3	4	5	6
Y	2.25	2.07	2.03	2.02	2.01

Al parecer existiría una relación inversamente proporcional entre ambos pares de valores, es decir que, sea cual sea la interpretación de los datos, se puede postular que Y es explicado a través de X mediante Y = a + bX. Ahora bien, los valores de a y b, bajo la técnica de los mínimos cuadrados se obtienen resolviendo las ecuaciones normales, que nos conduce a

de manera que el modelo que se propone es

Y = 2.288 - 0.053 X

Este modelo lo podemos comparar en relación otro por medio del e.e.e., sin embargo si no tenemos otro modo de comparación ¿cómo podemos discriminar si el modelo lineal propuesto es bueno, regular o malo?

Para poder dar respuesta parcial a esta pregunta realicemos los siguientes cálculos

Cov( X, Y)	- 0.106
S_x²	2
X	4
Y	2.076

Observemos que

Cov( X, Y) / S_x² = - 0.053

y que además

Y - (-0.053) X = 2.288

que es otra manera alternativa de obtener los valores de a y b. Es decir, los estimadores en mínimos cuadrados para el modelo Y = a + bX se obtienen de la siguiente forma

(1)

(2)

En relación a la covarianza entre X e Y, supongamos que efectivamente Y = a + b X, de tal manera que no hay dificultad en demostrar que

(3)

y además

(4)

Definamos lo siguiente

que llamaremos coeficiente de Pearson. Observemos que si Y = a + b X, en virtud de los resultados anteriores en (3) y (4), se tiene que en este caso r = 1. Podemos concluir entonces que si

entonces la relación entre X e Y es lineal "aproximadamente".

En resumen, una "nube" de puntos (x_i, y_i), i = 1, ..., n, se puede modelar si el coeficiente de correlación lineal de Pearson, en valor absoluto, se aproxima al valor de 1. Ahora bien, los valores de a y b para el modelo Y = a + b X se calculan mediante las relaciones (1) y (2), y una manera de estimar si el modelo es bueno, en comparación con otros no lineales, es mediante el e.e.e., como es vio en las secciones anteriores.