\documentclass{sebase}
\usepackage{amsfonts}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{SEART}

%TCIDATA{TCIstyle=article/art4.lat,SEART,SEART}

%TCIDATA{Created=Wed Apr 13 09:59:48 2005}
%TCIDATA{LastRevised=Tue Apr 19 12:06:28 2005}

\input{tcilatex}
\begin{document}

\SetTitle{Tratamiento matricial de los datos multivariantes}
\SetAuthor{Eliseo Mart\'{i}nez H.}
\Setdate{}
\TitlePage{}

\section{Introducci\'{o}n}

Intentaremos conciliar el lenguaje matricial con el lenguaje coloquial de
cuestionario en que se hacen $p$ preguntas a $n$ personas, y suponiendo que
cada respuesta es num\'{e}rica o es f\'{a}cilmente cuantificable, por
ejemplo cuando se pregunta por el g\'{e}nero. Vamos a suponer entonces que
tenemos $n$ individuos (o en t\'{e}rminos estad\'{i}sticos $n$ unidades
muestrales), donde a cada individuo le haremos $p$ preguntas (de otra forma,
se le medir\'{a}n p atributos cuantificables o atributos cuantitativos
ordinales). Supongamos que las respuestas num\'{e}ricas las ubicamos en el
siguiente arreglo bidimensional, 
\[
\mathbf{X}=\left( 
\begin{array}{llll}
x_{11} & x_{12} & \cdots & x_{1p} \\ 
x_{21} & x_{22} & \cdots & x_{2p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{np}
\end{array}
\right) 
\]
en forma m\'{a}s compacta, $X=\left( x_{ij}\right) _{n\times p}$, $%
i=1,...,n;\,\,j=1,...,p$. Entendiendo que $x_{ij}$ es la respuesta a la
pregunta $j$-\'{e}sima realizada por el individuo $i$-\'{e}simo. La fila de
respuestas realizada por el individuo i, matricialmente la denotamos como%
\footnote[1]{%
Los vectores filas los consideraremos en el orden traspuesto, toda vez que
los vectores, para nosotros, ser\'{a}n siempre vectores columnas.} 
\[
\mathbf{x}_{i}^{t}=\left( 
\begin{array}{llll}
x_{i1} & x_{i2} & \cdots & x_{ip}
\end{array}
\right) 
\]
De tal manera que 
\[
\mathbf{X}=\left( 
\begin{array}{llll}
x_{11} & x_{12} & \cdots & x_{1p} \\ 
x_{21} & x_{22} & \cdots & x_{2p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{np}
\end{array}
\right) =\left( 
\begin{array}{l}
\mathbf{x}_{1}^{t} \\ 
\mathbf{x}_{2}^{t} \\ 
\vdots \\ 
\mathbf{x}_{n}^{t}
\end{array}
\right) 
\]

Es de gran importancia obtener la el valor medio o promedio de las
respuestas a la pregunta $j$ realizada por los $n$ individuos, esto es
necesitamoe el c\'{a}lculo de 
\[
\overline{x}_{j}=\frac{1}{n}\sum\limits_{i=1}^{n}x_{ij};\,\,\,j=1,\cdots ,p 
\]
las $p$ medias. Con estos $p$ valores formamos el vector de medias, esto es 
\[
\overline{\mathbf{x}}=\left( 
\begin{array}{l}
\overline{x}_{1} \\ 
\overline{x}_{2} \\ 
\vdots \\ 
\overline{x}_{p}
\end{array}
\right) 
\]

Puesto que tenemos que 
\[
\mathbf{x}_{i}=\left( 
\begin{array}{l}
x_{i1} \\ 
x_{i2} \\ 
\vdots \\ 
x_{ip}
\end{array}
\right) ;\,\,\,i=1,\cdots ,n 
\]
la $i$-\'{e}sima fila de la matriz $\mathbf{X}$, puesta ahora como vector
columna, no resulta complicado verificar que el vector de medias se puede
obtener tambi\'{e}n de la siguiente manera 
\[
\overline{\mathbf{x}}=\frac{1}{n}\sum\limits_{i=1}^{n}\mathbf{x}_{i} 
\]
No obstante la mejor representaci\'{o}n para el vector de medias es a
trav\'{e}s de la propia matriz de datos $\mathbf{X}$. En efecto, se verifica
que 
\begin{equation}
\overline{\mathbf{x}}=\frac{1}{n}\mathbf{X}^{t}\mathbf{1}  \tag{1}  \label{1}
\end{equation}
donde 
\[
\mathbf{1=}\left( 
\begin{array}{l}
1 \\ 
1 \\ 
\vdots \\ 
1
\end{array}
\right) 
\]
es el vector de dimensi\'{o}n $n$ y cuyas entradas son ''unos''.

Observe la matriz de datos $\mathbf{X}$, si sumamos a trav\'{e}s de las $n$
filas, obtendremos para cada columna $j$ un total, y este total ser\'{a}
igual, como es obvio, a $n$ veces su respectivo promedio, de otra forma 
\[
\sum\limits_{i=}^{n}\left( \mathbf{x}_{i}-\overline{\mathbf{x}}\right) =0 
\]

\section{Matriz de varianzas y covarianzas}

Si observamos nuevamente la matriz de datos, 
\[
\mathbf{X}=\left( 
\begin{array}{llll}
x_{11} & x_{12} & \cdots & x_{1p} \\ 
x_{21} & x_{22} & \cdots & x_{2p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{np}
\end{array}
\right) 
\]
y considerando que cada columna es una variable observada, en rigor $n$
respuestas a la misma pregunta, podemos estudiar la covarianza entre
diferentes variables (respuestas a diferentes preguntas). Definamos entonces
la varianza entre la columna $j$ y la columna $k$ como\footnote[2]{%
En algunos libros se considera $s_{jk}=\frac{1}{n}\sum\limits_{i=1}^{n}%
\left( x_{ij}-\overline{x}_{j}\right) \left( x_{ik}-\overline{x}_{k}\right) $%
} 
\[
s_{jk}=\frac{1}{n-1}\sum\limits_{i=1}^{n}\left( x_{ij}-\overline{x}%
_{j}\right) \left( x_{ik}-\overline{x}_{k}\right) 
\]
Esta covarianza medir\'{a} la dependencia lineal entre ambas variables.
Observemos que si $j=k$, entonces obtenemos la varianza de la $j$-\'{e}sima
variable (la columna $j$), esto es $s_{j}^{2}$. Todas las varianzas y
covarianzas nos permiten definir la llamada \textbf{matriz de varianza y
covarianza} como sigue 
\[
\mathbf{S}=\left( 
\begin{array}{llll}
s_{1}^{2} & s_{12} & \cdots & s_{1p} \\ 
s_{21} & s_{2}^{2} & \cdots & s_{2p} \\ 
\vdots & \vdots & \ddots & \vdots \\ 
s_{p1} & s_{p2} & \cdots & s_{p}^{2}
\end{array}
\right) 
\]
que es una matriz cuadrada de orden $p\times p$ sim\'{e}trica.

Esta matriz $\mathbf{S}$ la podemos calcular directamente de la matriz de
datos $\mathbf{X}$. En efecto, definamos la \textit{matriz de datos centrada}%
, como la matrriz de datos al cual a cada columna le restamos la media
respectiva de dicha columna, esto es 
\[
\widetilde{\mathbf{X}}=\mathbf{X}-\mathbf{1}\overline{\mathbf{x}}^{t} 
\]
en forma m\'{a}s detallada 
\[
\widetilde{\mathbf{X}}=\left( 
\begin{array}{llll}
x_{11} & x_{12} & \cdots & x_{1p} \\ 
x_{21} & x_{22} & \cdots & x_{2p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{np}
\end{array}
\right) -\left( 
\begin{array}{llll}
\overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p} \\ 
\overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
\overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p}
\end{array}
\right) 
\]
Sustituyendo el vector de medias por su expresi\'{o}n dada en (2), obtenemos 
\begin{eqnarray*}
\widetilde{\mathbf{X}} &=&\mathbf{X}-\frac{1}{n}\mathbf{11}^{t}\mathbf{X} \\
&=&(\mathbf{I}-\frac{1}{n}\mathbf{11}^{t})\cdot \mathbf{X} \\
&=&\mathbf{P}\cdot \mathbf{X}
\end{eqnarray*}
donde la matriz $\mathbf{P}$ est\'{a} definida por 
\[
\mathbf{P}=(\mathbf{I}-\frac{1}{n}\mathbf{11}^{t}) 
\]
y resulta ser una matriz sim\'{e}trica de orden $n\times n$, idempotente y
de rango $n-1$. Vi\'{e}ndola con m\'{a}s detalle 
\[
\mathbf{P}=\left( 
\begin{array}{llll}
1-\frac{1}{n} & -\frac{1}{n} & \cdots & -\frac{1}{n} \\ 
-\frac{1}{n} & 1-\frac{1}{n} & \cdots & -\frac{1}{n} \\ 
\vdots & \vdots & \ddots & \vdots \\ 
-\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n}
\end{array}
\right) 
\]
Entonces la matriz de varianza y covarianza puede escribirse como 
\[
\mathbf{S}=\frac{1}{n-1}\widetilde{\mathbf{X}}^{t}\widetilde{\mathbf{X}} 
\]

\section{Propiedades de la matriz de varianza y covarianza}

La varianza de una variable unidimensional siempre es positiva, en nuestro
caso para datos multivariantes la situaci\'{o}n es similar. Esto es la
matriz de varianza y covarianza $\mathbf{S}$ es semidefinida positiva. Es
decir que para todo vector en $\mathbf{y}\in \Bbb{R}^{p}$ se satisface que $%
\mathbf{y}^{t}\mathbf{S\,y}\geq 0$. Vamos a demostrar esto.

Sea $\mathbf{w}$ cualquier vector de dimensi\'{o}n $p$, definamos la
variable unidimensional 
\begin{equation}
v_{i}=\mathbf{w}^{t}(\mathbf{x}_{i}-\overline{\mathbf{x}})  \tag{2}
\label{2}
\end{equation}
Observemos que el vector $\mathbf{x}_{i}-\overline{\mathbf{x}}$ es la
i-\'{e}sima fila de la matriz de datos en que a cada componente se le resta
la media de cada columna de la matriz de datos. La media de los valores $%
v_{i}$ es: 
\[
\overline{v}=\frac{1}{n}\sum\limits_{i=1}^{n}v_{i}=\frac{1}{n}\,\,\mathbf{w}%
^{t}\sum_{i=1}^{n}(\mathbf{x}_{i}-\overline{\mathbf{x}})=0 
\]
y entonces su varianza, que es no negativa, es: 
\begin{eqnarray*}
Var\,\,(v) &=&\frac{1}{n}\sum_{i=1}^{n}v_{i}^{2}=\frac{1}{n}%
\sum_{i=1}^{n}\left[ \mathbf{w}^{t}(\mathbf{x}_{i}-\overline{\mathbf{x}}%
)\right] \left[ (\mathbf{x}_{i}-\overline{\mathbf{x}})^{t}\mathbf{w}\right]
\geq 0 \\
&=&\mathbf{w}^{t}S\,\mathbf{w}\geq 0
\end{eqnarray*}

Y puesto que $\mathbf{w}$ es cualquier vector, entonces se concluye que $%
\mathbf{S}$ es semidefinida posiitiva. Adem\'{a}s supongamos que $\lambda
_{i}$ es un autovalor de S, es decir que existe un $\mathbf{w}_{i}$ tal que $%
\mathbf{S\,w}_{i}=\lambda _{i}\mathbf{w}_{i}$, entonces $\mathbf{w}_{i}^{t}\,%
\mathbf{S\,w}_{i}=\mathbf{w}_{i}^{t}\lambda _{i}\mathbf{w}_{i}\geq 0$, y
esto significa que $\lambda _{i}\geq 0$. Es decir, todos los autovalores de $%
\mathbf{S}$ son no negativos.

Supongamos ahora que la matriz $\mathbf{S}$ es singular. Si este es el caso
entonces existe un vector $\mathbf{w}$ tal que satisface la igualdad $%
\mathbf{w}^{t}\,\mathbf{S}\,\mathbf{w}=0$. De tal manera que si definimos
las variables $v_{i}$ como en (2) estas variables tendr\'{a}n varianza nula,
y puesto que su media es ceo, entonces estas variables toman el valor cero.
En consecuencia, para cualquier $i$ (cualquier fila) se satisface que 
\[
\sum_{j=1}^{p}w_{j}(x_{ij}-\overline{x}_{j})=0\,\,\,\,\,\,\,\forall \,i 
\]

Y esta ecuaci\'{o}n implica que las $p$ variables de la fila $i$ no son
independientes, puesto que podemos despejar cualquier $x_{ij}$ en
funci\'{o}n de los restantes, por ejemplo $x_{i1}$: 
\[
x_{i1}=\overline{x}_{1}-\frac{w_{2}}{w_{1}}\left( x_{i2}-\overline{x}%
_{2}\right) -\cdots -\frac{w_{p}}{w_{1}}\left( x_{ip}-\overline{x}%
_{p}\right) 
\]
entendiendo que $w_{1}\neq 0$.

Por lo tanto, si existe alg\'{u}n vector $\mathbf{w}$ para el cual $\mathbf{w%
}^{t}\,\mathbf{S}\,\mathbf{w}=0$, existe una relaci\'{o}n lineal entre las
variables (en nuestro lenguaje, una columna de respuestas es linealmente
dependiente de las restantes columnas de respuestas, de otra forma una
pregunta o atributo tiene una relaci\'{o}n lineal con las restantes
preguntas o atributos).

El rec\'{i}proco tambi\'{e}n es cierto, esto es si hay una relaci\'{o}n
lineal entre las variables, entonces podemos escribir $\mathbf{w}^{t}(%
\mathbf{x}_{i}-\overline{\mathbf{x}})=0$ para todo $i$, para alg\'{u}n $%
\mathbf{w}$ con componentes no todas nulas, es decir 
\[
\widetilde{\mathbf{X}}\;\mathbf{w=0} 
\]
multiplicando esta expresi\'{o}n por la derecha por la matriz $\widetilde{%
\mathbf{X}}^{t}$ y dividiendo por $n-1$, para formar la matriz de varianza y
covarianza, nos queda 
\[
\frac{1}{n-1}\widetilde{\mathbf{X}}^{t}\widetilde{\mathbf{X}}\;\mathbf{%
w=S\,w=}0 
\]

Esta igualdad implica que la matriz $\mathbf{S}$ tiene un autovalor nulo y $%
\mathbf{w}$ es su autovector asociado, y adem\'{a}s las coordenadas del
vector $\mathbf{w}$ indican la combinaci\'{o}n lineal entre las $p$
variables.

\noindent \textbf{Ejemplo 1. }Se tiene la siguiente matriz de varianza y
covarianza: 
\[
\mathbf{S}=\left( 
\begin{array}{llll}
0.0947 & 0.0242 & 0.0054 & 0.0594 \\ 
0.0242 & 0.0740 & 0.0285 & 0.0491 \\ 
0.0054 & 0.0285 & 0.0838 & 0.0170 \\ 
0.0594 & 0.0491 & 0.0170 & 0.0543
\end{array}
\right) 
\]
Calculando los autovalores de esta matriz mediante el software DERIVE nos
arroja los siguientes valores 
\[
0.1729668172;\,0.04616765904;\,0.08761555169;\,4.997202947\times 10^{-5} 
\]
Puesto que este c\'{a}lculo es una aproximaci\'{o}n, seg\'{u}n el algortimo
del software, podemos sospechar que el cuarto autovalor de los anteriores es
practicamente cero m\'{a}s a\'{u}n si trabajamos hasta el cuarto d\'{i}sgito
significativo. Como sea el mismo programa nos arroja el siguiente autovector
asociado al autovalor $4.997202947\times 10^{-5}$(redondeando hasta el
tercer d\'{i}gito) 
\[
\left( 
\begin{array}{llll}
0.408 & 0.408 & 0.000 & -0.816
\end{array}
\right) 
\]
Dividiendo cada componente de este autovector por la mayor componente,
obtenemos el autovector 
\[
\left( 
\begin{array}{llll}
0.5 & 0.5 & 0 & -1
\end{array}
\right) 
\]
Lo que nos estar\'{i}a indicando que la cuarta variable resulta ser el
promedio simple de las dos primeras.

El resultado anterior se puede generalizar a un mayor n\'{u}mero de
autovalores nulos. En efecto, si $\mathbf{S}$ tiene rango $h$ ($h<p$)
existir\'{a}n $r=p-h$ combinaciones lineales entre las variables $\mathbf{X}$%
, y esto se concluye en virtud de que $\mathbf{S}$ y $\mathbf{X}$ (o $%
\widetilde{X}$) tienen el mismo rango\footnote[3]{%
Nos basamos en el hecho de que $%
rango(A)=Rango(A^{t})=Rango(A^{t}A)=Rango(AA^{t}).$}.

\section{Medidas globales de variabilidad}

Interesa medir la variabilidad de un conjunto de variables, fundamentalmente
si existe o no variaci\'{o}n entre los atributos o preguntas que vamos a
hacer. La propia matriz S nos puede entregar ciertas medidas de
variabilidad, luego estas medidas las vamos a asocial al concepto de
distncia entre puntos 8donde los ''puntos'' ser\'{a}n las respuestas de cada
individuo a nuestras preguntas).

\subsection{La varianza total y la varianza media}

Una primera forma de medir la variabilidad entre un conjunto de variables es
mediante la suma de las varianzas de cada variable. Esto significa el
c\'{a}lculo de la traza de la matriz de varianzas y covarianzas. Se define
entonces la \textit{varianza total} de los datos como 
\[
T=traza(\mathbf{S})=\sum_{i=1}^{p}s_{i}^{2} 
\]
y la \textit{varianza media} por 
\[
\overline{s}^{2}=\frac{1}{p}\sum_{i=1}^{p}s_{i}^{2} 
\]

El inconveniente de estas definiciones es que no considera una eventual
estructura de dependencia entre las variables. En efecto, para un caso
extremo consideremos $p=2$, y de tal modo que de las dos variables que vamos
a observar entre ellas se tenga la relaci\'{o}n $\mathbf{y}=a+b\mathbf{x}$.
En este caso, si $\mathbf{x}$ admite una varianza $s_{x}^{2}$, la varianza
para $\mathbf{y}$ ser\'{a} $b^{2}s_{x}^{2}$, de modo que la varianza total
es $(1+b^{2})s_{x}^{2}$, y sin embargo es claro que la variabilidad connunta
entre ambas variables (esto es, la covarianza) es nula. De otra forma, es
posible que un connjunto de variables tenga una alta dependencia, y
enconsecuencia la variabilidad conjunta ser\'{a} peque\~{n}a, no obstante la
variabilidad total puede ser muy alta. Es decir, esta defimnici\'{o}n de
variabilidad total no considera el grado de dependencia entre las variables.

\subsection{La varianza generalizada}

La \textit{varianza generalizada} se define como el determinante de la
matriz de varianza y covarianza, esto es 
\[
VG=\det \,\mathbf{S} 
\]
y la ra\'{i}z cuadrada de $VG$ se denomina \textit{desviaci\'{o}n t\'{i}pica
generalizada}.

La interpretaci\'{o}n que tiene esta varianza generalizada es bastante
interesante. Suponga que $p=2$, esto es tenemos dos variables, entonces la
matriz $\mathbf{S}$ adopta la siguiente forma 
\[
S=\left( 
\begin{array}{cc}
s_{x}^{2} & r\,s_{x}s_{y} \\ 
r\,s_{x}s_{y} & s_{y}^{2}
\end{array}
\right) 
\]
donde $r$ es el coeficiente de correlaci\'{o}n lineal de Pearson definido
por $r=s_{xy}/s_{x}s_{y}$. El determinante de esta matriz es 
\[
VG=s_{x}^{2}s_{y}^{2}\,(1-r^{2}) 
\]
sabemos que la interpretaci\'{o}n de este determinante es el \'{a}rea.
Notemos adem\'{a}s que la desviaci\'{o}n t\'{i}pica generalizada es 
\begin{equation}
\left| \mathbf{S}\right| ^{1/2}=s_{x}s_{y}\sqrt{(1-r^{2})}  \tag{3}
\label{3}
\end{equation}
Observemos que si las variables son independientes, entonces puesto que los
valores observados de $\mathbf{x}$ est\'{a}n contenidos en un 90\% en el
intervalo de longitud $6s_{x}$, tambi\'{e}n los valores observados de $%
\mathbf{y}$ estar\'{a}n contenidos en un intervalo de longitud $6s_{y}$,
entonces en virtud de la independencia entre ambas variables el 90 de los
valores observados $(x,y)$ estar\'{a}n contenidos en un rect\'{a}ngulo de
lados $6s_{x}$ y $6s_{y}$ \footnote[4]{%
En efecto, por el teorema de Tchebyshev que dice que por lo menos el 90\% de
las observaciones estar\'{a}n contenidas en el intervalo centrado en la
media de longitud seis veces la desviaci\'{o}n t\'{i}pica.}Y podemos
ovbservar que el \'{a}rea de este rect\'{a}ngulo es $36s_{x}s_{y}$, de
manera que el \'{a}rea coupada por estas variables es directamente
proporcional a la desviaci\'{o}n t\'{i}pica generalizada. Por otro lado, si
las variables tienen una dependencia de tipo lineal entonces los valores
observados conjuntamente tender\'{a}n a ubicarse cerca de la recta de
regresi\'{o}n, y el \'{a}rea de contenci\'{o}n ser\'{a} mucho menor, y
anal\'{i}ticamente esto significa que $r^{2}\rightarrow 1$, de modo que el
\'{a}era ocupada por los datos tender\'{a} hacia cero cuanto m\'{a}s aumente 
$r^{2}$. En el l\'{i}mite, cuando $r^{2}=1$, todos los puntos estar\'{a}n en
una l\'{i}nea recta cuya \'{a}rea es obviamente cero. De modo que la
f\'{o}rmula (3) describe esta contracci\'{o}n del \'{a}rea ocupada por las
observaciones seg\'{u}n aumente el coeficiente de correlaci\'{o}n lineal.

\subsection{La varianza efectiva}

Se define la \textit{varianza efectica} como 
\[
VE=\left( \det \,\mathbf{S}\right) ^{1/p} 
\]
Esta varianza es una generalizaci\'{o}n de la media geom\'{e}trica, en
efecto si $\mathbf{S}$ es una matriz diagonal, entonces la $VE$ es la media
geom\'{e}trica de las varianzas de las variables. Se define la \textit{%
desviaci\'{o}n efectiva} como 
\[
DE=\left( \det \,\mathbf{S}\right) ^{1/2p} 
\]

\section{Variabilidad y distancias}

En lo que sigue supondremos conocida el signiificado de una distancia en $%
\Bbb{R}^{p}$ as\'{i} como las proiedades m\'{a}s esenciales. En cualquier
caso y en lo posible, haremos uso de las distancias sobre las filas (o
columnas) de la matriz de datos $\mathbf{X}$, considerando a estas filas (o
columnas) como puntos en el espacio dimensional real respectivo.

\subsection{Distancia de Minkowski}

Manteniendo prsente la matriz de datos 
\[
\mathbf{X}=\left( 
\begin{array}{llll}
x_{11} & x_{12} & \cdots & x_{1p} \\ 
x_{21} & x_{22} & \cdots & x_{2p} \\ 
\vdots & \vdots & \cdots & \vdots \\ 
x_{n1} & x_{n2} & \cdots & x_{np}
\end{array}
\right) 
\]
se define la distancia de Minkowski entre dos filas i y j de la matriz $%
\mathbf{X}$, como elementos de $\Bbb{R}^{p}$, de la siguiente forma: 
\[
d_{ij}^{(r)}=\left( \sum_{s=1}^{p}\left( x_{is}-x_{js}\right) ^{r}\right)
^{1/r} 
\]
distancia que depende del par\'{a}metro $r$. Los valores de $r$ usados con
m\'{a}s frecuencia son cuando $r=2$ y $r=1$. En el primer caso caemos en la
llamada \textit{distancia eucl\'{i}dea}, y en el segundo caso se llama
distancia en $L_{1}$. La distancia m\'{a}s usada es la eucl\'{i}dea pero
tiene el inconveniente que depende de las unidades de medidas de las
variables. Supongamos que tenemos los datos para tres personas en que se ha
medido su estatura, en metros, y su peso, en kilogramos:

\[
\begin{tabular}{|c|c|c|}
\hline
persona & estatura (m) & peso (kgr) \\ \hline
1 & 1.80 & 80 \\ \hline
2 & 1.70 & 72 \\ \hline
3 & 1.65 & 81 \\ \hline
\end{tabular}
\]
la distancia eucl\'{i}dea entre la persona 1 y la persona 2 es 
\[
d_{12}=\sqrt{(1.80-1.70)^{2}+(80-72)^{2}}=8.\,0006 
\]
y la distancia entre las personas 1 y 3 es 
\[
d_{13}=\sqrt{(1.80-1.65)^{2}+(80-81)^{2}}=1.0112 
\]
De manera que podemos concluir que la persona 1 est\'{a} m\'{a}s cerca de la
persona 3 que de la persona 2. Supongamos ahora que realizamos un cambio de
escala en la variable estatura, y trabajaremos con cent\'{i}metros. La nueva
tabla de datos es 
\[
\begin{tabular}{|c|c|c|}
\hline
persona & estatura (cm) & peso (kgr) \\ \hline
1 & 180 & 80 \\ \hline
2 & 170 & 72 \\ \hline
3 & 165 & 81 \\ \hline
\end{tabular}
\]
Nuevamente calculamos las distancias $d_{12}$ y $d_{13}$%
\[
d_{12}=\sqrt{(180-170)^{2}+(80-72)^{2}}=12.806 
\]
\[
d_{13}=\sqrt{(180-165)^{2}+(80-81)^{2}}=15.033 
\]
y como podemos abservar esta vez la persona 1 se encuentra m\'{a}s cerca de
la persona 2 que de la 3. De modo que, con este ejemplo, podenos comprobar
que la distancia eucl\'{i}de depende mucho de las unidades de las variables,
y no es aconsejable utilizarla en m\'{e}todos multivariantes cuando no
existe una unidad fija entre las variables.

Una manera de evitar este problema es dividir cada variable por un
t\'{e}rmino que elimine el efecto de la escala. Esto nos conduce a una 
\textit{distancia eucl\'{i}dea ponderada}, que se define como 
\begin{equation}
d_{ij}=\left[ \left( \mathbf{x}_{i}-\mathbf{x}_{j}\right) ^{t}\mathbf{M}%
^{-1}\,\left( \mathbf{x}_{i}-\mathbf{x}_{j}\right) \right] ^{\frac{1}{2}} 
\tag{4}  \label{4}
\end{equation}
donde $\mathbf{M}$ es una matriz diagonal que se utiliza para estandarizar
las variables y hacer las medidas invariante ante cambios de escala. Si la
matriz $\mathbf{M}$ es la matriz que en su diagonal principal lleva las
desciaciones t\'{i}picas de las variables. la ecuaci\'{o}n (4) queda como 
\[
d_{ij}=\left( \sum_{k=1}^{p}\left( \frac{x_{ik}-x_{jk}}{s_{k}}\right)
^{2}\right) ^{\frac{1}{2}}=\left( \sum_{k=1}^{p}s_{k}^{-2}\left(
x_{ik}-x_{jk}\right) ^{2}\right) ^{\frac{1}{2}} 
\]
que se interpreta como una distancia eucl\'{i}dea donde cada coordenada se
pondera inversamente proporcional a la varianza.

En el ejemplo anterior, considerando la estatura y el peso en metros y
kilogramos respectivamente, tenemos que la varianza de la estatura para las
tres observaciones es de $58.\,333$, y la varianza del peso para las tres
observaciones es $24.\,333$, de modo que las distancias ponderadas con estas
varianzas son 
\[
d_{12}=\sqrt{\frac{1}{58.\,333}(180-170)^{2}+\frac{1}{24.\,333}(80-72)^{2}}%
=2.0842 
\]
\[
d_{13}=\sqrt{\frac{1}{58.333}(180-165)^{2}+\frac{1}{24.333}(80-81)^{2}}%
=1.9744 
\]
Y podemos concluir que, con est\'{a} m\'{e}trica, que la persona 1 est\'{a}
m\'{a}s cerca de la persona 3 que de la 2.

En general, la matriz debe ser no singular y definida positiva (para que
admita la definici\'{o}n de distancia). En el caso particular que $\mathbf{M}%
=\mathbf{I}$ se obtiene la distancia eucl\'{i}dea. En el caso en que $%
\mathbf{M}=\mathbf{S}$ se llega a la famosa distancia de Mahalanobis que
estudiaremos a continuaci\'{o}n.

\subsection{La distancia de Mahalanobis}

Se define la distancia entre dos ''puntos'' $\mathbf{x}_{i}$ y $\mathbf{x}%
_{j}$ de $\Bbb{R}^{p}$ como 
\[
d_{ij}=\left[ \left( \mathbf{x}_{i}-\mathbf{x}_{j}\right) ^{t}\mathbf{S}%
^{-1}\,\left( \mathbf{x}_{i}-\mathbf{x}_{j}\right) \right] ^{\frac{1}{2}} 
\]
Vamos a interpretar esta distancia y veremos que es una medida muy razonable
de distancia entre variables correlacionadas. Como antes, consideremos el
caso $p=2$. Entonces, escribiendo $s_{12}=r\,s_{1}s_{2}$, tenemos que el
inverso de la matriz de varianza y covarianza es 
\[
\mathbf{S}^{-1}=\frac{1}{(1-r^{2})}\left( 
\begin{array}{cc}
s_{1}^{-2} & -r\,s_{1}^{-1}s_{2}^{-1} \\ 
-r\,s_{1}^{-1}s_{2}^{-1} & s_{2}^{-2}
\end{array}
\right) 
\]
y la distancia de Mahalanobis al cuadrado entre dos puntos $(x_{1},y_{1})$, $%
(x_{2},y_{2})$ es como sigue 
\[
d_{ij}^{2}=\frac{1}{(1-r^{2})}\left[ \frac{(x_{1}-x_{2})^{2}}{s_{1}^{2}}+%
\frac{(y_{1}-y_{2})^{2}}{s_{2}^{2}}-2r\,\,\frac{(x_{1}-x_{2})(y_{1}-y_{2})}{%
s_{1}s_{2}}\right] 
\]

Si $r=0$, esta distancia se reduce a la distancia eucl\'{i}dea
estarandizando las variables por sus desviaciones t\'{i}pixcas. Cuando $%
r\neq 0$ la distancia de Mahalanobis a\~{n}ade un t\'{e}rmino que puede ser
positivo, y, en este caso, ''agrega'' m\'{a}s distancia entre los puntos; o
el t\'{e}rmino a\~{n}adido puede ser negativo (y por lo tanto ''junta''
m\'{a}s los puntos). La cuesti\'{o}n es entonces interpretar el signo del
t\'{e}rmino 
\[
-2r\,\,\frac{(x_{1}-x_{2})(y_{1}-y_{2})}{s_{1}s_{2}} 
\]
Ete t\'{e}rmino es negativo si $r>0$ y si las diferencias entre las
variables tienen el mismo signo, o si $r<0$ y si las diferencias entre las
variables son de diferente signo. Por ejemplo, entre el peso y la estatura
es natural pensar que hay correlaci\'{o}n positiva, $r>0$: al aumentar la
estatura de una persona tambi\'{e}n lo hace su peso Luego si hay dos
personas que cumplen esta correlaci\'{o}n la distancia entre ellos ser\'{a}
peque\~{n}a, que dos personas que no cumplan la correlaci\'{o}n, es decir
que una persona sea m\'{a}s alta que otra pero de menor peso que la misma,
la distancia entre ellos ser\'{a} m\'{a}s grande. ''\textit{La capacidad de
esta distancia para tener en cuenta la forma de un elemento a partir de su
estructura de correlaci\'{o}n, explica su introducci\'{o}n por P. C.
Mahalanobis, en los a\~{n}os treinta del siglo pasado para comparar las
medidas f\'{i}sicas de razas en la India}''.

\section{Medidas de dependencia lineal}

Un objetivo en el tratamiento de datos multivariantes es comprender la
estructura de dependencia entre las variables. Como siempre desarrollaremos
la teor\'{i}a bas\'{a}ndonos en la matriz de datos $\mathbf{X}$. Las
dependencias pueden ocurrir en los siguientes sentidos

\begin{itemize}
\item[(a)]  entre par de variables, esto es si dos pares de columnas de la
matriz $\mathbf{X}$ tienen alg\'{u}n grado de depndencia lineal,

\item[(b)]  entre una variable y las dem\'{a}s, esto es si alguna columna de
la matriz $\mathbf{X}$ puede depender linealmente de las otras $p-1$
columnas,

\item[(c)]  entre pares de variables pero eliminando el efecto de las
dem\'{a}s, y

\item[(d)]  entre el conjunto de todas las variables.
\end{itemize}

Vamos a analizar estos cuatro aspectos.

\subsection{Dependencia por pares: la matriz de correlaci\'{o}n}

Este tipo de dependencia es la m\'{a}s utilizada en la estad\'{i}stica
descriptiva, y su estudio se inicia con el c\'{a}lculo y la
interpretaci\'{o}n (que suponemos conocida) del \textit{coeficiente de
correlaci\'{o}n lineal de Pearson}. Supongamos que $\mathbf{x}_{j}$ y $%
\mathbf{x}_{k}$ son dos variables en $\Bbb{R}^{p}$, entonces este
coeficiente es 
\[
r_{jk}=\frac{s_{jk}}{s_{j}\,\,s_{k}} 
\]
y tiene las siguientes propiedades:

\begin{itemize}
\item  $0\leq r_{jk}\leq 1;$

\item  Si existe una relaci\'{o}n exacta entre las variables, $%
x_{ij}=a+bx_{ik},\,\,i=1\rightarrow p,$ entonces $\left| rjk\right| =1$;

\item  $r_{jk}$ es invariante ante transformaciones lineales de las
variables.
\end{itemize}

La dependencia por pares entre las variables, en nuesytro caso entre las
columnas de la matriz X, se mide simult\'{a}neamente por la matriz de
correlaci\'{o}n R definida como: 
\[
\mathbf{R}=\left( 
\begin{array}{cccc}
1 & r_{12} & \cdots & r_{1p} \\ 
r_{21} & 1 & \cdots & r_{2p} \\ 
\vdots & \vdots & \ddots & \vdots \\ 
r_{p1} & r_{p2} & \cdots & 1
\end{array}
\right) 
\]
Es una matriz cuadrada, sim\'{e}trica, con unos sobre la diagonal principal,
y evidentemente semidefinida positiva. Es sencillo de mostrar que su
relaci\'{o}n con la matriz de varianzas y covarianzas est\'{a} dada por 
\[
\mathbf{S}=\mathbf{D}^{1/2}\mathbf{R\,\,D}^{1/2} 
\]
donde $\mathbf{D}$ est\'{a} definida como 
\[
D=\left( 
\begin{array}{llll}
s_{1}^{2} & 0 & \cdots & 0 \\ 
0 & s_{2}^{2} & \cdots & 0 \\ 
\vdots & \vdots & \ddots & \vdots \\ 
0 & 0 & \cdots & s_{p}^{p}
\end{array}
\right) 
\]
la matriz diagonal de orden $p$ formada por los elementos de la diagonal de $%
\mathbf{S}$. Y es de esta representaci\'{o}n en que se deduce de que $%
\mathbf{R}$ es semidefinida positiva en cuanto y en tanto $\mathbf{S}$ lo es.

\subsection{Dependencia de cada variable y el resto: regresi\'{o}n
m\'{u}ltiple}

Supongamos que por alguna raz\'{o}n estamos interesados en la variable $%
\mathbf{x}_{j}$, que para simplificar la notaci\'{o}n denotaremos por $%
\mathbf{y}$ y llamaremos \textit{variable predictora} (observe que $\mathbf{x%
}_{j}$ es una columna de nuestra matriz $\mathbf{X}$). Supongamos adem\'{a}s
que, a fortiori, queremos expresar la variable y como una combinaci\'{o}n
lineal de las variables restantes $\mathbf{x}_{1},...,\mathbf{x}_{j-1},%
\mathbf{x}_{j+1},...,\mathbf{x}_{p}$ que llamaremos \textit{variables
explicativas o regresores}. Entonces, nuestra intenci\'{o}n es encontrar los
''mejores'' valores de $\widehat{\beta }_{k}$ para encontrar 
\[
\widehat{y}_{i}=\overline{y}+\widehat{\beta }_{1}(x_{i1}-\overline{x}%
_{1})+\cdots +\widehat{\beta }_{p}(x_{ip}-\overline{x}_{p})\,;\,\,\,\,\,i=1,%
\,...,\,n 
\]
de tal forma que el siguiente valor sea m\'{i}nimo 
\[
M=\sum_{i=1}^{n}e_{i}^{2} 
\]
donde 
\[
e_{i}=(y_{i}-\widehat{y}_{i}) 
\]
La obtenci\'{o}n de los valores $\widehat{\beta }_{k}$ bajo la condici\'{o}n
de hacer m\'{i}nimo $M=\sum_{i=1}^{n}e_{i}^{2}$ se realiza por el m\'{e}todo
de los multiplicadores de Lagrange, de modo que si llamamos al vector de los
par\'{a}metros por $\widehat{\mathbf{\beta }}$ la soluci\'{o}n es 
\[
\widehat{\mathbf{\beta }}=\left( \mathbf{X}_{R}^{t}\mathbf{X}_{R}\right)
^{-1}\mathbf{X}_{R}^{t}\mathbf{y} 
\]
donde $\mathbf{X}_{R}$ es la matrz de $n\times (p-1)$ que se obtiene de la
matriz centrada de datos $\widetilde{\mathbf{X}}$ que se obtiene al eliminar
la columna que corresponde a la variable que queremos prever $\mathbf{y}$.

El promedio corregido de los residuos al cuadrado, o varianza, de esta
ecuaci\'{o}n de regresi\'{o}n m\'{u}ltiple para explicar $\mathbf{x}_{j}$ es 
\begin{equation}
s_{r}^{2}(j)=\frac{\sum e_{i}^{2}}{n-1}  \tag{5}  \label{5}
\end{equation}
y es una medida de precisi\'{o}n de la regresi\'{o}n. Se obtiene una medida
adimensional de la dependencia partiendo de la identidad 
\[
y_{i}-\overline{y}=\widehat{y}_{i}-\overline{y}+e_{i} 
\]
elevando al cuadrado y sumando se verifica f\'{a}cilmente que 
\[
\sum_{i=1}^{n}\left( y_{i}-\overline{y}\right) ^{2}=\sum_{i=1}^{n}\left( 
\widehat{y}_{i}-\overline{y}\right) ^{2}+\sum_{i=1}^{n}e_{i}^{2} 
\]
donde $VT=\sum_{i=1}^{n}\left( y_{i}-\overline{y}\right) ^{2}$ se expresa
como la \textit{variabilidad total} de los datos (observe que solo falta
dividir por $n-1$ para obtener la varianza de $\mathbf{y}$); $%
VE=\sum_{i=1}^{n}\left( \widehat{y}_{i}-\overline{y}\right) ^{2}$ es la 
\textit{variabilidad explicada} por la regresi\'{o}n; y $VNE=%
\sum_{i=1}^{n}e_{i}^{2}$ es la variabilidad no explicada o \textit{residual}%
. Una medida descriptiva de la capacidad predictiva del modelo es el
cocientre entre la variabilidad explicada por la regresi\'{o}n y la
variabilidad total, y tal medida se llama \textit{coeficiente de
determinaci\'{o}n} o coeficiente de \textit{correlaci\'{o}n m\'{u}ltiple} al
cuadrado, y se denota por 
\[
R_{j\cdot 1,...,\,p}^{2}=\frac{VE}{VT}=1-\frac{VNE}{VT} 
\]
Por la ecuaci\'{o}n (\ref{5}), podemos escribir 
\[
R_{j\cdot 1,...,\,p}^{2}=1-\frac{s_{r}^{2}(j)}{s_{j}^{2}} 
\]

No lo vamos a demostrar en estos apuntes pero existe un algoritmo para
calcular los valores $s_{r}^{2}(j)$ a partir de la matriz de varianza y
covarianza $\mathbf{S}$. Y es el siguiente:

\begin{itemize}
\item[(1)]  Invierta la matriz $\mathbf{S}$, y tome el elemento $j$%
-\'{e}simo de la diagonal de $\mathbf{S}^{-1}$,

\item[(2)]  llame a este elemento selecionado $s^{jj}$, entonces $%
s^{jj}=1/s_{r}^{2}(j)$
\end{itemize}

De manera que con el algoritmo anterior podemos calcular, mediante la matriz 
$\mathbf{S}$, todos los coeficientes de correlaci\'{o}n multiple, esto es 
\[
R_{j\cdot 1,...,\,p}^{2}=1-\frac{1}{s^{jj}s_{jj}}\,\,\,\,\,;\,\,\,j=1%
\rightarrow p
\]
entendiendo que $s_{jj}=s_{j}^{2}$ el elemento $j$-\'{e}simo de la diagonal
de $\mathbf{S}$.

Como podemos observar, podemos obtener todos los coeficientes de correlaci%
\'{o}n m\'{u}ltiple entre una variable y las restantes a partir ede las
matrices $\mathbf{S}$ y $\mathbf{S}^{-1}$.

\end{document}