\documentclass{sebase}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{SEART}

%TCIDATA{TCIstyle=article/art4.lat,SEART,SEART}

%TCIDATA{Created=Fri Apr 22 19:03:59 2005}
%TCIDATA{LastRevised=Thu Apr 28 16:59:43 2005}

\input{tcilatex}
\begin{document}

\SetTitle{Componentes principales (II)}
\SetAuthor{Eliseo Mart\'{i}nez Herrera}
\Setdate{}
\TitlePage{}

\section{Propiedades de los componentes}

Los componentes principales tienen las siguientes propiedades:

\begin{itemize}
\item[1]  La suma de las varianzas de los componentes es igual a la varianza
de las variables originales. En fecto, puesto que $Var(z_{j})=\lambda _{j}$,
y la suma de los valores propios de $\mathbf{S}$ es la traza de $\mathbf{S}$
y adem\'{a}s por construcci\'{o}n de esta matriz se tiene que 
\[
tr(\mathbf{S})=\sum_{j=1}^{p}Var(x_{j})
\]
entonces 
\[
tr(\mathbf{S})=\sum_{j=1}^{p}Var(x_{j})=\sum_{j=1}^{p}\lambda
_{j}=\sum_{j=1}^{p}Var(z_{j})
\]
De modo que las nuevas variables, los componentes principales, tienen
conjuntamente la misma variabilidad que las variables originales.

\item[2]  La proporci\'{o}n de la variabilidad explicada por un componente
es el cociente entre su varianza, que es el vector propio que lo define, y
la suma de los valores propios de la matriz $\mathbf{S}$. Eso es 
\[
\frac{\lambda _{h}}{\sum\limits_{j=1}^{p}\lambda _{j}}
\]
es la proporci\'{o}n de la varianza explicada por el componente $h$.

\item[3]  Las covarianzas entre cada componente principal y las variables
columnas de $\mathbf{X}$ vienen dadas por el producto de las coordenadas del
vector propio y el autovalor propio asociado, esto es 
\[
Cov(z_{i},x_{1},\ldots ,x_{p})=\lambda _{i}\mathbf{a}_{i}=\lambda _{i}\left( 
\begin{array}{lll}
a_{i1} & \cdots  & a_{ip}
\end{array}
\right) 
\]
donde $\mathbf{a}_{i}$ es el $i$-\'{e}simo autovector que define al $i$%
-\'{e}simo componente.

\item[4]  El coeficiente de correlaci\'{o}n lineal entre la $i$-\'{e}sima
componente y la $j$-\'{e}sima variable columna de $\mathbf{X}$, $\rho
(z_{i},x_{j})$ est\'{a} dado por 
\[
\rho (z_{i},x_{j})=\frac{Cov(z_{i},x_{j})}{\sqrt{Var(z_{i})\,Var(x_{j})}}=%
\frac{\lambda _{i}\,a_{i\,j}}{\sqrt{\lambda _{i}\,s_{j}^{2}}}=a_{i\,j}\,%
\frac{\sqrt{\lambda _{i}}}{s_{j}}
\]

\item[5]  Los $r$ componentes principales $(r<p)$ proporcionan la
predicci\'{o}n lineal \'{o}ptima con $r$ variables del conjunto de valores
de variables $\mathbf{X}$. De otra forma, si queremos aproximar la matriz $%
\mathbf{X}$, de rango $p$, por otra matriz $\widehat{\mathbf{X}}_{r}$ de
rango $r<p$, la aproximaci\'{o}n \'{o}ptima es $\widehat{\mathbf{X}}_{r}=%
\mathbf{XA}_{r}\mathbf{A}_{r}^{t}$ donde la matriz $\mathbf{A}_{r}$ es de $%
p\times r$ y sus columnas son los vectores propios asociados a los $r$
mayores valores propios de la matriz $\mathbf{S}$.

\item[6]  Si estandarizamos los componentes principales, dividiendo cada uno
por su desviaci\'{o}n t\'{i}pica, se obtiene la estandarizaci\'{o}n
multivariante de los datos originales. En efecto, la matriz de componentes $%
\mathbf{Z}$ se obtienen mediante la ecuaci\'{o}n
\[
\mathbf{Z}=\mathbf{X\cdot A}
\]
Si estandarizamos los componentes $\mathbf{Z}$ por sus desviaciones t\'{i}%
picas, debemos considerar la matriz diagonal $\mathbf{D}$ formada en su
diagonal principal por las varianzas de los componentes, luego invirtiendo y
sacando la ra\'{i}z cuadrada para obtener la desviaci\'{o}n est\'{a}ndar
como denominador, obtenemos la estandarizaci\'{o}n
\[
\mathbf{Y}=\mathbf{Z}\cdot \mathbf{D}^{\,-\,\frac{1}{2}}
\]
y entonces se concluye que
\[
\mathbf{Y}=\mathbf{Z}\cdot \mathbf{D}^{\,-\,\frac{1}{2}}=\mathbf{X\cdot A}%
\cdot \mathbf{D}^{\,-\,\frac{1}{2}}
\]
que es la estandarizaci\'{o}n de las variables originales.
\end{itemize}

\section{An\'{a}lisis normado o con correlaciones}

Para determinar el componente principal asociado al vector de direcci\'{o}n
principal $\mathbf{a}$, se debe maximizar la funci\'{o}n 
\[
M=\mathbf{a}^{t}\mathbf{Sa} 
\]
sujeta a la condici\'{o}n $\mathbf{a}^{t}\mathbf{a}=1$. La funci\'{o}n $M$
puede escribirse como 
\begin{equation}
M=\sum\limits_{i=1}^{p}a_{i}^{2}s_{i}^{2}+2\sum_{i=1}^{p}%
\sum_{j=i+1}^{p}a_{i}a_{j}s_{i\,j}  \tag{1}  \label{1}
\end{equation}
Supongamos que, a modo de ejemplo, la varianza $s_{1}^{2}$ es mucho mayor
que las demas varianzas, una manera de maximizar $M$ es sencillamente es
hacer tan grande como se pueda la coordenada $a_{1}$ asociada a esta
variable $x_{1}$. Si una variable original tiene una varianza mucho mayor
que las dem\'{a}s, el primer componente coincidir\'{a} muy aproximadamente
con esta variable, en efecto recuerde que el primer componente satisface
para cada observaci\'{o}n $i$: 
\[
z_{1i}=x_{i1}\,a_{1}+\cdots +x_{ip\,}a_{p} 
\]
De modo que si una variable tiene una varianza mucho mayor que las
dem\'{a}s, el primer componente principal coincidir\'{a} con esta variable.

De tal modo que esta pripiedad depender\'{a} del tama\~{n}o de escala que
est\'{e} utilizando una determinada variable, de tal manera que la
maximizaci\'{o}n de (1) depender\'{a} decisivamente de la escala a usar en
cada variables. Es decir las escalas con valores m\'{a}s grandes tendr\'{a}n
mayor peso en el an\'{a}lisis. Una manera de evitar este riesgo consiste en
estandarizar las variables antes de calculas los componentes principales.
Una vez estandarizadas las variables, se tiene que la funci\'{o}n que se
debe maximizar es 
\[
M^{\prime }=1+2\sum_{i=1}^{p}\sum_{j=i+1}^{p}a_{i}a_{j}r_{i\,j}
\]
siendo $r_{ij}$ en coeficiente de correlaci\'{o}n entre las variables $i$ y $%
j$. En consecuencia, esta maximizaci\'{o}n depender\'{a} de las
correlaciones y no de las varianzas.

Los componnete principales normados se obtienen calculando los vectores y
valores propios de la matriz $\mathbf{R}$, matriz de los coeficientes de
correlaci\'{o}n lineal. Si llamamos $\lambda _{i}^{R}$ a las ra\'{i}ces
caracter\'{i}sticas de esa matriz, que vamos a suponer es no singular, se
verifica que 
\[
\sum\limits_{i=1}^{p}\lambda _{i}^{R}=traza(R)=p 
\]

Las propiedades de los componnetes principales extra\'{i}dos de $\mathbf{R}$
son:

\begin{itemize}
\item[1]  La proporci\'{o}n de variaci\'{o}n explicada por $\lambda _{i}^{R}$
ser\'{a} 
\[
\frac{\lambda _{i}^{R}}{p}
\]

\item[2]  Las correlaciones entre cada componente $z_{j}$ y las variables $%
\mathbf{X}$ originales vienen dados directamente por $\mathbf{a}_{\,j}^{t}%
\sqrt{\lambda _{j}}$ siendo $z_{j}=\mathbf{Xa}_{j}$.
\end{itemize}

Cuando las variables originales de $\mathbf{X}$ est\'{a}n en distintas
unidades conviene aplicar el an\'{a}lisis de los componentes principales
emanados de la matriz $\mathbf{R}$ de correlaci\'{o}n. Cuando las variables
originales tienen las mismas unidades ambas alternativas son posibles. Si
las diferencias entre las variables son informativas y queremos considerar
este hecho en el an\'{a}lisis no conviene estandarizar las variables. Por el
contrario, si las diferencias entre las varianzas no son relevantes,
simplemente se elimina del an\'{a}lisis considerando la matriz de
correlaciones.

\noindent \textbf{Ejemplo}. Este conjunto de datos llamados INVEST y que
puede ser obtenido el el Internet \textit{%
http://www.mhe.es/universidad/ciencias\_matematicas/pena/ficheros.html}
presenta 21 observaciones de 8 variables. Las observaciones corrsponden a
los pa\'{i}ses de la OCDE y las variables son el n\'{u}mero de publicaciones
cient\'{i}ficas recogidas en el trienio 1982-84 en ocho bases de datos de
producci\'{o}n cient\'{i}fica. Las variables se han llamado seg\'{u}n la
orientaci\'{o}n de la base de datos: InterA (por interdisciplinaria), Inter
F (por interdisciplinaria), Agric., Biolo., Medic., Quimic., Ingen. y
F\'{i}sica. Fuente: Caballero y Pe\~{n}a (1987).

Pasando estos datos a logaritmo natural para ''suavizarlos'' y utilizando el
software MINITAB, eligiendo esta vez la opci\'{o}n de c\'{a}lculo de los
componentes principales generados por la matriz de correlaci\'{o}n,
obtenemos el siguiente resultado

\begin{center}
\noindent Eigenanalysis of the Correlation Matrix

\begin{tabular}{ccccccccc}
Autoval & 7.3683 & 0.2407 & 0.1793 & 0.0984 & 0.0497 & 0.0422 & 0.0120 & 
0.0094 \\ 
propor. & 0.921 & 0.030 & 0.022 & 0.012 & 0.006 & 0.005 & 0.002 & 0.001 \\ 
acum. & 0.921 & 0.951 & 0.974 & 0.986 & 0.992 & 0.997 & 0.999 & 1.000
\end{tabular}
\end{center}

Y los vectores propios de las ocho componentes son

\begin{center}
Vectores propios de las ocho componentes
\end{center}

\noindent 
\begin{tabular}{ccccccccc}
Variables & $C_{1}$ & $C_{2}$ & $C_{3}$ & $C_{4}$ & $C_{5}$ & $C_{6}$ & $%
C_{7}$ & $C_{8}$ \\ 
$X_{1}$ & -0,362 & -0.089 & -0.334 & -0.088 & -0.126 & -0.382 & -0.356 & 
0.673 \\ 
$X_{2}$ & -0,336 & 0.618 & 0.608 & -0.302 & -0.158 & -0.066 & 0.036 & 0.116
\\ 
$X_{3}$ & -0,360 & -0.041 & -0.015 & -0.263 & 0.837 & 0.080 & -0.250 & -0.171
\\ 
$X_{4}$ & -0,355 & -0.366 & -0.126 & -0.491 & -0.179 & 0.376 & 0.546 & 0.104
\\ 
$X_{5}$ & -0,364 & -0.149 & -0.106 & -0.141 & -0.432 & .0.219 & -0.350 & 
-0.676 \\ 
$X_{6}$ & -0,339 & -0.527 & 0.585 & 0.500 & 0.001 & 0.048 & -0.042 & 0.108
\\ 
$X_{7}$ &  -0,352 & 0,363  & -0,307 & 0,422 & -0,116 & 0,655 & -0,171 & 0,021
\\ 
$X_{8}$ & -0,359 & 0,207 & -0,236 & 0,378 & 0,162 & -0,472 & 0,597 & -0,155
\end{tabular}

\medskip 

La interpretaci\'{o}n de estos resultados son como sigue: la primera tabla
muestra en la primera fila los autovalores ordenados en forma decreciente, y
puesto que son los autovalores de la matriz de correlaci\'{o}n $\mathbf{R}$,
la suma de estos autovalores debe ser igual $p=8$ (el n\'{u}mero de
variables); la segunda fila describe para cada autovalor la proporci\'{o}n
de varianza explicada; y la tercera fila describe la proporci\'{o}n
acumulada. La segunda tabla tiene la siguiente lectura. Cada columna,
indicadas por $C_{1}$ hasta la $C_{8}$, son los autovectores asociados a los
respectivos autovalores ya ordenados de mayor a menor en la primera table.
Los componentes en rigor est\'{a}n denotados por $C_{1},..,C_{8}$ y las
variables originales est\'{a}n denotadas por $X_{1}$ hasta $X_{8}$, y su
interpretaci\'{o}n, a modo de ejemplo para la primera componente, es la
siguiente:
\begin{eqnarray*}
C_{1} &=&-0.362X_{1}-0,336X_{2}-0,360X_{3}-0,355X_{4} \\
&&-0,364X_{5}-0,339X_{6}-0,352X_{7}-0,359X_{8}
\end{eqnarray*}

\section{Interpretaci\'{o}n de los componentes}

Toda vez que hemos pasado de las variables originales determinadas por las
columnas de X, \textquestiondown cu\'{a}l es la interpretaci\'{o}n de los
componentes principales?

En primer lugar. la interpretaci\'{o}n tiene un sentido cuando solo elegimos
las primeras componentes, puesto que en definitiva el objetivo es ''reducir
variables''. En segundo lugar, los componentes elegidos, en rigor los
primeros componentes elegidos est\'{a}ra asociado a la proporci\'{o}n de
varianza acumulada, puesto que si, a modo de ejemplo, los tres primeros
componentes ya explican el 90\% de la variabilidad total, tendr\'{a} sentido
entonces buscar la interpretaci\'{o}n de estos tres primeros componentes. En
tercer lugar, es claro que entre las variables originales tiene que existir
un cierto grado de colinealidad o correlaci\'{o}n, puesto que si las
variables originales, en un caso extremo, no est\'{a}n correlacionadas su
matriz de varianza o de correlaci\'{o}n ser\'{a}n diagonales y poca informaci%
\'{o}n podr\'{a}n entregar y evidentemente no podremos reducir variables. Un
vez pasados estos unmbrales, estamos en condiciones de realizar una
interpretaci\'{o}n sobre los componentes principales.

Si existe una alta correlaci\'{o}n entre las variables originales, por lo
regular el primer componente tendr\'{a} sus coordenadas del mismo signo, de
modo que su interpretaci\'{o}n es de ser un promedio ponderado de todas las
variables originales. De otra forma, el primer componente entrega el factor
global de tama\~{n}o. En t\'{e}rminos m\'{a}s simples, las observaciones
pueden ser unicadas en un orden descendente de los individuos evaluados
conforme a las puntuaciones obtenidas seg\'{u}n este componente. Los
restantes componentes, que tendr\'{a}n coordenadas positivas y negativas, se
interpretar\'{a}n como factores de ''forma'', puesto que se van a
contraponer grupos de variables originales frente a otros grupos de
variables. De otra forma, estos factores de forma ser\'{a}n medias
ponderadas de dos grupos de variables con distinto signo, y adem\'{a}s en
cada una de las medias habr\'{a}n variables que dominan unas m\`{a}s que
otras y ser\'{a}n estas que dar\'{a}n sentido a la ''forma'' que describe el
componente.

Daremos un breve y sencillo ejemplo d\'{i}dactico que intente reflejar esta
interpretaci\'{o}n. 

\noindent \textbf{Ejemplo}. Supongamos que nuestras unidades muestrales o
individuos a ser observados ser\'{a}n 6 rect\'{a}ngulos, sobre los cuales
mediremos dos atributos: longitud de la base, y altura del rect\'{a}ngulo
(medidas en las mismas unidades de longitud, por ejemplo cent\'{i}metros).
De modo que, para este ejemplo, $p=2$. Supongamos que las observaciones
obtenidas son las indicadas por la siguiente tabla,
\[
\begin{tabular}{ccc}
rect\'{a}ngulo & \thinspace $X_{1}$(base) & $X_{2}$ (altura) \\ 
1 & 2 & 2 \\ 
2 & 1.5 & 0.5 \\ 
3 & 0.7 & 0.5 \\ 
4 & 0.5 & 1.5 \\ 
5 & 0.5 & 0.7 \\ 
6 & 0.7 & 0.7
\end{tabular}
\]
Aplicaremos a estos datos logaritmo en base 10 para facilitar la interpretaci%
\'{o}n de sus componentes. la matriz de las observaciones queda entonces como

\[
\mathbf{X}=\left( 
\begin{array}{cc}
.\,30103 & .\,30103 \\ 
.\,17609 & -.\,30103 \\ 
-.\,1549 & -.\,30103 \\ 
-.\,30103 & .\,17609 \\ 
-.\,30103 & -.\,1549 \\ 
-.\,1549 & -.\,1549
\end{array}
\right) 
\]
Con cualquier software matem\'{a}tico, por ejemplo con el DERIVE, obtenemos
la matriz de varianzas y covarianzas
\[
\mathbf{S}=\left( 
\begin{array}{ll}
0.06387086891 & 0.01407125000 \\ 
0.01407125000 & 0.06387086891
\end{array}
\right) 
\]
Los autovalores de esta matriz son
\[
\lambda _{1}=0.07794211891\,\,;\,\,\lambda _{2}=0.04979961890
\]
cuyos autovectores asociados correspondientes son
\begin{eqnarray*}
\mathbf{a}_{1} &=&\left( 
\begin{array}{ll}
0.7071067804 & 0.7071067804
\end{array}
\right)  \\
\mathbf{a}_{2} &=&\left( 
\begin{array}{ll}
0.7071067804 & -0.7071067804
\end{array}
\right) 
\end{eqnarray*}
Entonces las primeras componentes son
\begin{eqnarray*}
z_{1} &=&0.7071067804\,X_{1}+0.7071067804\,X_{2} \\
z_{2} &=&0.7071067804\,X_{1}-0.7071067804\,X_{2}
\end{eqnarray*}
recordando que $X_{i}$ es el logaritmo en base 10 de la $i$-\'{e}sima
variable original, $i=1,2$. De manera que las evaluaciones de las primeras
componentes para las 6 observaciones se obtienen del siguiente producto
matricial

\begin{eqnarray*}
&&\left( 
\begin{array}{cc}
.\,30103 & .\,30103 \\ 
.\,17609 & -.\,30103 \\ 
-.\,1549 & -.\,30103 \\ 
-.\,30103 & .\,17609 \\ 
-.\,30103 & -.\,1549 \\ 
-.\,1549 & -.\,1549
\end{array}
\right) \left( 
\begin{array}{ll}
0.7071067804 & 0.7071067804 \\ 
0.7071067804 & -0.7071067804
\end{array}
\right)  \\
&=&\left( 
\begin{array}{cc}
.\,42572 & 0 \\ 
-8.\,8346\times 10^{-2} & .\,33737 \\ 
-.\,32239 & .\,10333 \\ 
-8.\,8346\times 10^{-2} & -.\,33737 \\ 
-.\,32239 & -.\,10333 \\ 
-.\,21906 & 0
\end{array}
\right) 
\end{eqnarray*}
En resumen

\[
\begin{tabular}{ccc}
rect\'{a}ngulo & $z_{1}$ & $z_{2}$ \\ 
1 & $0.\,426$ & $0$ \\ 
2 & $-0.088$ & $0.\,337$ \\ 
3 & $-0.\,322$ & $0.\,103$ \\ 
4 & $-0.088$ & $-0.\,337$ \\ 
5 & $-0.\,322$ & $-0.\,103$ \\ 
6 & $-0.\,219$ & $0$%
\end{tabular}
\]
Si ordenamos los rect\'{a}ngulos seg\'{u}n la primera componente:

\[
\begin{tabular}{cc}
rect\'{a}ngulo & $z_{1}$ \\ 
1 & 0.426 \\ 
2 & -0.088 \\ 
4 & -0.088 \\ 
6 & -0.219 \\ 
3 & -0.322 \\ 
5 & -0.322
\end{tabular}
\]
y ordenando los rect\'{a}ngulos seg\'{u}n la segunda componente
\[
\begin{tabular}{cc}
rect\'{a}ngulo & $z_{2}$ \\ 
2 & 0.337 \\ 
3 & 0.103 \\ 
1 & 0 \\ 
6 & 0 \\ 
5 & -0.103 \\ 
4 & -0.337
\end{tabular}
\]

Notemos que el primer ordenamiento es por el factor ''tama\~{n}o''. En
efecto, los rect\'{a}ngulos 1, 2, 4, 6, 3, 5 tienen las siguientes \'{a}reas
respectivas: 4, 0.75, 0.75, 0.49, 0.35, 0.35. \textexclamdown El primer
componente los ha ordenado por el ''tama\~{n}o'' o \'{a}rea!

El segundo ordenamiento es un poco m\'{a}s complicado de ver, pero relaciona
la base con la altura. Esto es,  considera primero los rect\'{a}ngulos cuya
base es superior a la altura. Observemos que los rect\'{a}ngulos 1 y 6 (que
son los que dan la pista) tienen igual base y altura, mientras que los rect%
\'{a}ngulos 2 y 3 su base es mayor que la altura, siendo el rect\'{a}ngulo 2
el que tiene mayor diferencia positiva entre la base y la altura, los rect%
\'{a}ngulos 5 y 4 son los que su altura es mucho mayor que su base, siendo
el rect\'{a}ngulo 4 el de mayor diferencia negativa entre la base y la
altura. \textexclamdown El segundo componente los ha ordenado seg\'{u}n su
''forma''!.

\section{Selecci\'{o}n del n\'{u}mero de componentes}

\textquestiondown Cu\'{a}ntos componentes principales seleccionar?

Se tienen los siguientes tres criterios para determinar el n\'{u}mero de
componentes:

\begin{itemize}
\item  Realizar un gr\'{a}fico de los puntos $\left( \lambda _{i},i\right)
,i=1,...,p$, que a menudo se llama \textit{gr\'{a}fico de sedimentaci\'{o}n}%
, y comenzar eligiendo componentes hasta que los restantes puntos est\'{e}n
a la misma altura de un autovalos $\lambda _{k}$. La idea es buscar un
''codo'' o cambio brusco de pendiente a la cual a partir de este codo la
pendiente es aproximadamente un plano horizontal. De otra forma, buscar el
valor de $k$ de tal forma que los dem\'{a}s autovalores, $\lambda _{j}$ con $%
j>k$, tengan casi el mismo valor, y ese valor de $k$ indica el n\'{u}mero de
componentes a considerar.

\item  Seleccionar componentes de tal forma que entre ellas la proporci\'{o}%
n de varianza acumulada satisfaga un requerimiento a priori, como por
ejemplo el 80 o 90\%. Sin embargo, este criterio no debe usarse a rajatabla,
puesto que es posible que el primer componente alcance por s\'{i} solo el
90\%, y puede existir otros componentes que nos expliquen la ''forma'' de
las variables, que con este criterio lo perder\'{i}amos.

\item  Desechar aquellos componentes asociados a valores propios que son
inferiores a una cota establecida como puede ser la varianza media de los
componentes, esto es $\sum \lambda _{i}/p$. Y en caso que estemos trabajando
con la matriz de correlaci\'{o}n $\mathbf{R}$, que ser\'{a} lo m\'{a}s
frecuente, este valor es 1, de tal manera que solamente consideraremos
aquellas componentes asociados a los autovalores mayores que 1. Cuando las
variables originales son pocas, es posible que un solo autovalor cumpla este
requisito, y podr\'{i}amos caer en la arbritrariedad del punto anterior. Por
lo general este criterio se utiliza cuando el n\'{u}mero de variables
originales es suficientemente grande y nos permite encontar por lo menos 3
componentes principales cuyos autovalores satisfacen la cota de 1. Se debe
usar con cuidado.
\end{itemize}

\end{document}