\documentclass{sebase} \usepackage{amsfonts} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \usepackage{SEART} %TCIDATA{TCIstyle=article/art4.lat,SEART,SEART} %TCIDATA{Created=Wed Apr 13 09:59:48 2005} %TCIDATA{LastRevised=Tue Apr 19 12:06:28 2005} \input{tcilatex} \begin{document} \SetTitle{Tratamiento matricial de los datos multivariantes} \SetAuthor{Eliseo Mart\'{i}nez H.} \Setdate{} \TitlePage{} \section{Introducci\'{o}n} Intentaremos conciliar el lenguaje matricial con el lenguaje coloquial de cuestionario en que se hacen $p$ preguntas a $n$ personas, y suponiendo que cada respuesta es num\'{e}rica o es f\'{a}cilmente cuantificable, por ejemplo cuando se pregunta por el g\'{e}nero. Vamos a suponer entonces que tenemos $n$ individuos (o en t\'{e}rminos estad\'{i}sticos $n$ unidades muestrales), donde a cada individuo le haremos $p$ preguntas (de otra forma, se le medir\'{a}n p atributos cuantificables o atributos cuantitativos ordinales). Supongamos que las respuestas num\'{e}ricas las ubicamos en el siguiente arreglo bidimensional, \[ \mathbf{X}=\left( \begin{array}{llll} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \cdots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array} \right) \] en forma m\'{a}s compacta, $X=\left( x_{ij}\right) _{n\times p}$, $% i=1,...,n;\,\,j=1,...,p$. Entendiendo que $x_{ij}$ es la respuesta a la pregunta $j$-\'{e}sima realizada por el individuo $i$-\'{e}simo. La fila de respuestas realizada por el individuo i, matricialmente la denotamos como% \footnote[1]{% Los vectores filas los consideraremos en el orden traspuesto, toda vez que los vectores, para nosotros, ser\'{a}n siempre vectores columnas.} \[ \mathbf{x}_{i}^{t}=\left( \begin{array}{llll} x_{i1} & x_{i2} & \cdots & x_{ip} \end{array} \right) \] De tal manera que \[ \mathbf{X}=\left( \begin{array}{llll} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \cdots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array} \right) =\left( \begin{array}{l} \mathbf{x}_{1}^{t} \\ \mathbf{x}_{2}^{t} \\ \vdots \\ \mathbf{x}_{n}^{t} \end{array} \right) \] Es de gran importancia obtener la el valor medio o promedio de las respuestas a la pregunta $j$ realizada por los $n$ individuos, esto es necesitamoe el c\'{a}lculo de \[ \overline{x}_{j}=\frac{1}{n}\sum\limits_{i=1}^{n}x_{ij};\,\,\,j=1,\cdots ,p \] las $p$ medias. Con estos $p$ valores formamos el vector de medias, esto es \[ \overline{\mathbf{x}}=\left( \begin{array}{l} \overline{x}_{1} \\ \overline{x}_{2} \\ \vdots \\ \overline{x}_{p} \end{array} \right) \] Puesto que tenemos que \[ \mathbf{x}_{i}=\left( \begin{array}{l} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ip} \end{array} \right) ;\,\,\,i=1,\cdots ,n \] la $i$-\'{e}sima fila de la matriz $\mathbf{X}$, puesta ahora como vector columna, no resulta complicado verificar que el vector de medias se puede obtener tambi\'{e}n de la siguiente manera \[ \overline{\mathbf{x}}=\frac{1}{n}\sum\limits_{i=1}^{n}\mathbf{x}_{i} \] No obstante la mejor representaci\'{o}n para el vector de medias es a trav\'{e}s de la propia matriz de datos $\mathbf{X}$. En efecto, se verifica que \begin{equation} \overline{\mathbf{x}}=\frac{1}{n}\mathbf{X}^{t}\mathbf{1} \tag{1} \label{1} \end{equation} donde \[ \mathbf{1=}\left( \begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array} \right) \] es el vector de dimensi\'{o}n $n$ y cuyas entradas son ''unos''. Observe la matriz de datos $\mathbf{X}$, si sumamos a trav\'{e}s de las $n$ filas, obtendremos para cada columna $j$ un total, y este total ser\'{a} igual, como es obvio, a $n$ veces su respectivo promedio, de otra forma \[ \sum\limits_{i=}^{n}\left( \mathbf{x}_{i}-\overline{\mathbf{x}}\right) =0 \] \section{Matriz de varianzas y covarianzas} Si observamos nuevamente la matriz de datos, \[ \mathbf{X}=\left( \begin{array}{llll} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \cdots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array} \right) \] y considerando que cada columna es una variable observada, en rigor $n$ respuestas a la misma pregunta, podemos estudiar la covarianza entre diferentes variables (respuestas a diferentes preguntas). Definamos entonces la varianza entre la columna $j$ y la columna $k$ como\footnote[2]{% En algunos libros se considera $s_{jk}=\frac{1}{n}\sum\limits_{i=1}^{n}% \left( x_{ij}-\overline{x}_{j}\right) \left( x_{ik}-\overline{x}_{k}\right) $% } \[ s_{jk}=\frac{1}{n-1}\sum\limits_{i=1}^{n}\left( x_{ij}-\overline{x}% _{j}\right) \left( x_{ik}-\overline{x}_{k}\right) \] Esta covarianza medir\'{a} la dependencia lineal entre ambas variables. Observemos que si $j=k$, entonces obtenemos la varianza de la $j$-\'{e}sima variable (la columna $j$), esto es $s_{j}^{2}$. Todas las varianzas y covarianzas nos permiten definir la llamada \textbf{matriz de varianza y covarianza} como sigue \[ \mathbf{S}=\left( \begin{array}{llll} s_{1}^{2} & s_{12} & \cdots & s_{1p} \\ s_{21} & s_{2}^{2} & \cdots & s_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_{p}^{2} \end{array} \right) \] que es una matriz cuadrada de orden $p\times p$ sim\'{e}trica. Esta matriz $\mathbf{S}$ la podemos calcular directamente de la matriz de datos $\mathbf{X}$. En efecto, definamos la \textit{matriz de datos centrada}% , como la matrriz de datos al cual a cada columna le restamos la media respectiva de dicha columna, esto es \[ \widetilde{\mathbf{X}}=\mathbf{X}-\mathbf{1}\overline{\mathbf{x}}^{t} \] en forma m\'{a}s detallada \[ \widetilde{\mathbf{X}}=\left( \begin{array}{llll} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \cdots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array} \right) -\left( \begin{array}{llll} \overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p} \\ \overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p} \\ \vdots & \vdots & \cdots & \vdots \\ \overline{x}_{1} & \overline{x}_{2} & \cdots & \overline{x}_{p} \end{array} \right) \] Sustituyendo el vector de medias por su expresi\'{o}n dada en (2), obtenemos \begin{eqnarray*} \widetilde{\mathbf{X}} &=&\mathbf{X}-\frac{1}{n}\mathbf{11}^{t}\mathbf{X} \\ &=&(\mathbf{I}-\frac{1}{n}\mathbf{11}^{t})\cdot \mathbf{X} \\ &=&\mathbf{P}\cdot \mathbf{X} \end{eqnarray*} donde la matriz $\mathbf{P}$ est\'{a} definida por \[ \mathbf{P}=(\mathbf{I}-\frac{1}{n}\mathbf{11}^{t}) \] y resulta ser una matriz sim\'{e}trica de orden $n\times n$, idempotente y de rango $n-1$. Vi\'{e}ndola con m\'{a}s detalle \[ \mathbf{P}=\left( \begin{array}{llll} 1-\frac{1}{n} & -\frac{1}{n} & \cdots & -\frac{1}{n} \\ -\frac{1}{n} & 1-\frac{1}{n} & \cdots & -\frac{1}{n} \\ \vdots & \vdots & \ddots & \vdots \\ -\frac{1}{n} & -\frac{1}{n} & \cdots & 1-\frac{1}{n} \end{array} \right) \] Entonces la matriz de varianza y covarianza puede escribirse como \[ \mathbf{S}=\frac{1}{n-1}\widetilde{\mathbf{X}}^{t}\widetilde{\mathbf{X}} \] \section{Propiedades de la matriz de varianza y covarianza} La varianza de una variable unidimensional siempre es positiva, en nuestro caso para datos multivariantes la situaci\'{o}n es similar. Esto es la matriz de varianza y covarianza $\mathbf{S}$ es semidefinida positiva. Es decir que para todo vector en $\mathbf{y}\in \Bbb{R}^{p}$ se satisface que $% \mathbf{y}^{t}\mathbf{S\,y}\geq 0$. Vamos a demostrar esto. Sea $\mathbf{w}$ cualquier vector de dimensi\'{o}n $p$, definamos la variable unidimensional \begin{equation} v_{i}=\mathbf{w}^{t}(\mathbf{x}_{i}-\overline{\mathbf{x}}) \tag{2} \label{2} \end{equation} Observemos que el vector $\mathbf{x}_{i}-\overline{\mathbf{x}}$ es la i-\'{e}sima fila de la matriz de datos en que a cada componente se le resta la media de cada columna de la matriz de datos. La media de los valores $% v_{i}$ es: \[ \overline{v}=\frac{1}{n}\sum\limits_{i=1}^{n}v_{i}=\frac{1}{n}\,\,\mathbf{w}% ^{t}\sum_{i=1}^{n}(\mathbf{x}_{i}-\overline{\mathbf{x}})=0 \] y entonces su varianza, que es no negativa, es: \begin{eqnarray*} Var\,\,(v) &=&\frac{1}{n}\sum_{i=1}^{n}v_{i}^{2}=\frac{1}{n}% \sum_{i=1}^{n}\left[ \mathbf{w}^{t}(\mathbf{x}_{i}-\overline{\mathbf{x}}% )\right] \left[ (\mathbf{x}_{i}-\overline{\mathbf{x}})^{t}\mathbf{w}\right] \geq 0 \\ &=&\mathbf{w}^{t}S\,\mathbf{w}\geq 0 \end{eqnarray*} Y puesto que $\mathbf{w}$ es cualquier vector, entonces se concluye que $% \mathbf{S}$ es semidefinida posiitiva. Adem\'{a}s supongamos que $\lambda _{i}$ es un autovalor de S, es decir que existe un $\mathbf{w}_{i}$ tal que $% \mathbf{S\,w}_{i}=\lambda _{i}\mathbf{w}_{i}$, entonces $\mathbf{w}_{i}^{t}\,% \mathbf{S\,w}_{i}=\mathbf{w}_{i}^{t}\lambda _{i}\mathbf{w}_{i}\geq 0$, y esto significa que $\lambda _{i}\geq 0$. Es decir, todos los autovalores de $% \mathbf{S}$ son no negativos. Supongamos ahora que la matriz $\mathbf{S}$ es singular. Si este es el caso entonces existe un vector $\mathbf{w}$ tal que satisface la igualdad $% \mathbf{w}^{t}\,\mathbf{S}\,\mathbf{w}=0$. De tal manera que si definimos las variables $v_{i}$ como en (2) estas variables tendr\'{a}n varianza nula, y puesto que su media es ceo, entonces estas variables toman el valor cero. En consecuencia, para cualquier $i$ (cualquier fila) se satisface que \[ \sum_{j=1}^{p}w_{j}(x_{ij}-\overline{x}_{j})=0\,\,\,\,\,\,\,\forall \,i \] Y esta ecuaci\'{o}n implica que las $p$ variables de la fila $i$ no son independientes, puesto que podemos despejar cualquier $x_{ij}$ en funci\'{o}n de los restantes, por ejemplo $x_{i1}$: \[ x_{i1}=\overline{x}_{1}-\frac{w_{2}}{w_{1}}\left( x_{i2}-\overline{x}% _{2}\right) -\cdots -\frac{w_{p}}{w_{1}}\left( x_{ip}-\overline{x}% _{p}\right) \] entendiendo que $w_{1}\neq 0$. Por lo tanto, si existe alg\'{u}n vector $\mathbf{w}$ para el cual $\mathbf{w% }^{t}\,\mathbf{S}\,\mathbf{w}=0$, existe una relaci\'{o}n lineal entre las variables (en nuestro lenguaje, una columna de respuestas es linealmente dependiente de las restantes columnas de respuestas, de otra forma una pregunta o atributo tiene una relaci\'{o}n lineal con las restantes preguntas o atributos). El rec\'{i}proco tambi\'{e}n es cierto, esto es si hay una relaci\'{o}n lineal entre las variables, entonces podemos escribir $\mathbf{w}^{t}(% \mathbf{x}_{i}-\overline{\mathbf{x}})=0$ para todo $i$, para alg\'{u}n $% \mathbf{w}$ con componentes no todas nulas, es decir \[ \widetilde{\mathbf{X}}\;\mathbf{w=0} \] multiplicando esta expresi\'{o}n por la derecha por la matriz $\widetilde{% \mathbf{X}}^{t}$ y dividiendo por $n-1$, para formar la matriz de varianza y covarianza, nos queda \[ \frac{1}{n-1}\widetilde{\mathbf{X}}^{t}\widetilde{\mathbf{X}}\;\mathbf{% w=S\,w=}0 \] Esta igualdad implica que la matriz $\mathbf{S}$ tiene un autovalor nulo y $% \mathbf{w}$ es su autovector asociado, y adem\'{a}s las coordenadas del vector $\mathbf{w}$ indican la combinaci\'{o}n lineal entre las $p$ variables. \noindent \textbf{Ejemplo 1. }Se tiene la siguiente matriz de varianza y covarianza: \[ \mathbf{S}=\left( \begin{array}{llll} 0.0947 & 0.0242 & 0.0054 & 0.0594 \\ 0.0242 & 0.0740 & 0.0285 & 0.0491 \\ 0.0054 & 0.0285 & 0.0838 & 0.0170 \\ 0.0594 & 0.0491 & 0.0170 & 0.0543 \end{array} \right) \] Calculando los autovalores de esta matriz mediante el software DERIVE nos arroja los siguientes valores \[ 0.1729668172;\,0.04616765904;\,0.08761555169;\,4.997202947\times 10^{-5} \] Puesto que este c\'{a}lculo es una aproximaci\'{o}n, seg\'{u}n el algortimo del software, podemos sospechar que el cuarto autovalor de los anteriores es practicamente cero m\'{a}s a\'{u}n si trabajamos hasta el cuarto d\'{i}sgito significativo. Como sea el mismo programa nos arroja el siguiente autovector asociado al autovalor $4.997202947\times 10^{-5}$(redondeando hasta el tercer d\'{i}gito) \[ \left( \begin{array}{llll} 0.408 & 0.408 & 0.000 & -0.816 \end{array} \right) \] Dividiendo cada componente de este autovector por la mayor componente, obtenemos el autovector \[ \left( \begin{array}{llll} 0.5 & 0.5 & 0 & -1 \end{array} \right) \] Lo que nos estar\'{i}a indicando que la cuarta variable resulta ser el promedio simple de las dos primeras. El resultado anterior se puede generalizar a un mayor n\'{u}mero de autovalores nulos. En efecto, si $\mathbf{S}$ tiene rango $h$ ($h
0$ y si las diferencias entre las variables tienen el mismo signo, o si $r<0$ y si las diferencias entre las variables son de diferente signo. Por ejemplo, entre el peso y la estatura es natural pensar que hay correlaci\'{o}n positiva, $r>0$: al aumentar la estatura de una persona tambi\'{e}n lo hace su peso Luego si hay dos personas que cumplen esta correlaci\'{o}n la distancia entre ellos ser\'{a} peque\~{n}a, que dos personas que no cumplan la correlaci\'{o}n, es decir que una persona sea m\'{a}s alta que otra pero de menor peso que la misma, la distancia entre ellos ser\'{a} m\'{a}s grande. ''\textit{La capacidad de esta distancia para tener en cuenta la forma de un elemento a partir de su estructura de correlaci\'{o}n, explica su introducci\'{o}n por P. C. Mahalanobis, en los a\~{n}os treinta del siglo pasado para comparar las medidas f\'{i}sicas de razas en la India}''. \section{Medidas de dependencia lineal} Un objetivo en el tratamiento de datos multivariantes es comprender la estructura de dependencia entre las variables. Como siempre desarrollaremos la teor\'{i}a bas\'{a}ndonos en la matriz de datos $\mathbf{X}$. Las dependencias pueden ocurrir en los siguientes sentidos \begin{itemize} \item[(a)] entre par de variables, esto es si dos pares de columnas de la matriz $\mathbf{X}$ tienen alg\'{u}n grado de depndencia lineal, \item[(b)] entre una variable y las dem\'{a}s, esto es si alguna columna de la matriz $\mathbf{X}$ puede depender linealmente de las otras $p-1$ columnas, \item[(c)] entre pares de variables pero eliminando el efecto de las dem\'{a}s, y \item[(d)] entre el conjunto de todas las variables. \end{itemize} Vamos a analizar estos cuatro aspectos. \subsection{Dependencia por pares: la matriz de correlaci\'{o}n} Este tipo de dependencia es la m\'{a}s utilizada en la estad\'{i}stica descriptiva, y su estudio se inicia con el c\'{a}lculo y la interpretaci\'{o}n (que suponemos conocida) del \textit{coeficiente de correlaci\'{o}n lineal de Pearson}. Supongamos que $\mathbf{x}_{j}$ y $% \mathbf{x}_{k}$ son dos variables en $\Bbb{R}^{p}$, entonces este coeficiente es \[ r_{jk}=\frac{s_{jk}}{s_{j}\,\,s_{k}} \] y tiene las siguientes propiedades: \begin{itemize} \item $0\leq r_{jk}\leq 1;$ \item Si existe una relaci\'{o}n exacta entre las variables, $% x_{ij}=a+bx_{ik},\,\,i=1\rightarrow p,$ entonces $\left| rjk\right| =1$; \item $r_{jk}$ es invariante ante transformaciones lineales de las variables. \end{itemize} La dependencia por pares entre las variables, en nuesytro caso entre las columnas de la matriz X, se mide simult\'{a}neamente por la matriz de correlaci\'{o}n R definida como: \[ \mathbf{R}=\left( \begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{array} \right) \] Es una matriz cuadrada, sim\'{e}trica, con unos sobre la diagonal principal, y evidentemente semidefinida positiva. Es sencillo de mostrar que su relaci\'{o}n con la matriz de varianzas y covarianzas est\'{a} dada por \[ \mathbf{S}=\mathbf{D}^{1/2}\mathbf{R\,\,D}^{1/2} \] donde $\mathbf{D}$ est\'{a} definida como \[ D=\left( \begin{array}{llll} s_{1}^{2} & 0 & \cdots & 0 \\ 0 & s_{2}^{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & s_{p}^{p} \end{array} \right) \] la matriz diagonal de orden $p$ formada por los elementos de la diagonal de $% \mathbf{S}$. Y es de esta representaci\'{o}n en que se deduce de que $% \mathbf{R}$ es semidefinida positiva en cuanto y en tanto $\mathbf{S}$ lo es. \subsection{Dependencia de cada variable y el resto: regresi\'{o}n m\'{u}ltiple} Supongamos que por alguna raz\'{o}n estamos interesados en la variable $% \mathbf{x}_{j}$, que para simplificar la notaci\'{o}n denotaremos por $% \mathbf{y}$ y llamaremos \textit{variable predictora} (observe que $\mathbf{x% }_{j}$ es una columna de nuestra matriz $\mathbf{X}$). Supongamos adem\'{a}s que, a fortiori, queremos expresar la variable y como una combinaci\'{o}n lineal de las variables restantes $\mathbf{x}_{1},...,\mathbf{x}_{j-1},% \mathbf{x}_{j+1},...,\mathbf{x}_{p}$ que llamaremos \textit{variables explicativas o regresores}. Entonces, nuestra intenci\'{o}n es encontrar los ''mejores'' valores de $\widehat{\beta }_{k}$ para encontrar \[ \widehat{y}_{i}=\overline{y}+\widehat{\beta }_{1}(x_{i1}-\overline{x}% _{1})+\cdots +\widehat{\beta }_{p}(x_{ip}-\overline{x}_{p})\,;\,\,\,\,\,i=1,% \,...,\,n \] de tal forma que el siguiente valor sea m\'{i}nimo \[ M=\sum_{i=1}^{n}e_{i}^{2} \] donde \[ e_{i}=(y_{i}-\widehat{y}_{i}) \] La obtenci\'{o}n de los valores $\widehat{\beta }_{k}$ bajo la condici\'{o}n de hacer m\'{i}nimo $M=\sum_{i=1}^{n}e_{i}^{2}$ se realiza por el m\'{e}todo de los multiplicadores de Lagrange, de modo que si llamamos al vector de los par\'{a}metros por $\widehat{\mathbf{\beta }}$ la soluci\'{o}n es \[ \widehat{\mathbf{\beta }}=\left( \mathbf{X}_{R}^{t}\mathbf{X}_{R}\right) ^{-1}\mathbf{X}_{R}^{t}\mathbf{y} \] donde $\mathbf{X}_{R}$ es la matrz de $n\times (p-1)$ que se obtiene de la matriz centrada de datos $\widetilde{\mathbf{X}}$ que se obtiene al eliminar la columna que corresponde a la variable que queremos prever $\mathbf{y}$. El promedio corregido de los residuos al cuadrado, o varianza, de esta ecuaci\'{o}n de regresi\'{o}n m\'{u}ltiple para explicar $\mathbf{x}_{j}$ es \begin{equation} s_{r}^{2}(j)=\frac{\sum e_{i}^{2}}{n-1} \tag{5} \label{5} \end{equation} y es una medida de precisi\'{o}n de la regresi\'{o}n. Se obtiene una medida adimensional de la dependencia partiendo de la identidad \[ y_{i}-\overline{y}=\widehat{y}_{i}-\overline{y}+e_{i} \] elevando al cuadrado y sumando se verifica f\'{a}cilmente que \[ \sum_{i=1}^{n}\left( y_{i}-\overline{y}\right) ^{2}=\sum_{i=1}^{n}\left( \widehat{y}_{i}-\overline{y}\right) ^{2}+\sum_{i=1}^{n}e_{i}^{2} \] donde $VT=\sum_{i=1}^{n}\left( y_{i}-\overline{y}\right) ^{2}$ se expresa como la \textit{variabilidad total} de los datos (observe que solo falta dividir por $n-1$ para obtener la varianza de $\mathbf{y}$); $% VE=\sum_{i=1}^{n}\left( \widehat{y}_{i}-\overline{y}\right) ^{2}$ es la \textit{variabilidad explicada} por la regresi\'{o}n; y $VNE=% \sum_{i=1}^{n}e_{i}^{2}$ es la variabilidad no explicada o \textit{residual}% . Una medida descriptiva de la capacidad predictiva del modelo es el cocientre entre la variabilidad explicada por la regresi\'{o}n y la variabilidad total, y tal medida se llama \textit{coeficiente de determinaci\'{o}n} o coeficiente de \textit{correlaci\'{o}n m\'{u}ltiple} al cuadrado, y se denota por \[ R_{j\cdot 1,...,\,p}^{2}=\frac{VE}{VT}=1-\frac{VNE}{VT} \] Por la ecuaci\'{o}n (\ref{5}), podemos escribir \[ R_{j\cdot 1,...,\,p}^{2}=1-\frac{s_{r}^{2}(j)}{s_{j}^{2}} \] No lo vamos a demostrar en estos apuntes pero existe un algoritmo para calcular los valores $s_{r}^{2}(j)$ a partir de la matriz de varianza y covarianza $\mathbf{S}$. Y es el siguiente: \begin{itemize} \item[(1)] Invierta la matriz $\mathbf{S}$, y tome el elemento $j$% -\'{e}simo de la diagonal de $\mathbf{S}^{-1}$, \item[(2)] llame a este elemento selecionado $s^{jj}$, entonces $% s^{jj}=1/s_{r}^{2}(j)$ \end{itemize} De manera que con el algoritmo anterior podemos calcular, mediante la matriz $\mathbf{S}$, todos los coeficientes de correlaci\'{o}n multiple, esto es \[ R_{j\cdot 1,...,\,p}^{2}=1-\frac{1}{s^{jj}s_{jj}}\,\,\,\,\,;\,\,\,j=1% \rightarrow p \] entendiendo que $s_{jj}=s_{j}^{2}$ el elemento $j$-\'{e}simo de la diagonal de $\mathbf{S}$. Como podemos observar, podemos obtener todos los coeficientes de correlaci% \'{o}n m\'{u}ltiple entre una variable y las restantes a partir ede las matrices $\mathbf{S}$ y $\mathbf{S}^{-1}$. \end{document}