\documentclass{sebase} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \usepackage{SEART} %TCIDATA{TCIstyle=article/art4.lat,SEART,SEART} %TCIDATA{Created=Fri Apr 22 19:03:59 2005} %TCIDATA{LastRevised=Thu Apr 28 16:59:43 2005} \input{tcilatex} \begin{document} \SetTitle{Componentes principales (II)} \SetAuthor{Eliseo Mart\'{i}nez Herrera} \Setdate{} \TitlePage{} \section{Propiedades de los componentes} Los componentes principales tienen las siguientes propiedades: \begin{itemize} \item[1] La suma de las varianzas de los componentes es igual a la varianza de las variables originales. En fecto, puesto que $Var(z_{j})=\lambda _{j}$, y la suma de los valores propios de $\mathbf{S}$ es la traza de $\mathbf{S}$ y adem\'{a}s por construcci\'{o}n de esta matriz se tiene que \[ tr(\mathbf{S})=\sum_{j=1}^{p}Var(x_{j}) \] entonces \[ tr(\mathbf{S})=\sum_{j=1}^{p}Var(x_{j})=\sum_{j=1}^{p}\lambda _{j}=\sum_{j=1}^{p}Var(z_{j}) \] De modo que las nuevas variables, los componentes principales, tienen conjuntamente la misma variabilidad que las variables originales. \item[2] La proporci\'{o}n de la variabilidad explicada por un componente es el cociente entre su varianza, que es el vector propio que lo define, y la suma de los valores propios de la matriz $\mathbf{S}$. Eso es \[ \frac{\lambda _{h}}{\sum\limits_{j=1}^{p}\lambda _{j}} \] es la proporci\'{o}n de la varianza explicada por el componente $h$. \item[3] Las covarianzas entre cada componente principal y las variables columnas de $\mathbf{X}$ vienen dadas por el producto de las coordenadas del vector propio y el autovalor propio asociado, esto es \[ Cov(z_{i},x_{1},\ldots ,x_{p})=\lambda _{i}\mathbf{a}_{i}=\lambda _{i}\left( \begin{array}{lll} a_{i1} & \cdots & a_{ip} \end{array} \right) \] donde $\mathbf{a}_{i}$ es el $i$-\'{e}simo autovector que define al $i$% -\'{e}simo componente. \item[4] El coeficiente de correlaci\'{o}n lineal entre la $i$-\'{e}sima componente y la $j$-\'{e}sima variable columna de $\mathbf{X}$, $\rho (z_{i},x_{j})$ est\'{a} dado por \[ \rho (z_{i},x_{j})=\frac{Cov(z_{i},x_{j})}{\sqrt{Var(z_{i})\,Var(x_{j})}}=% \frac{\lambda _{i}\,a_{i\,j}}{\sqrt{\lambda _{i}\,s_{j}^{2}}}=a_{i\,j}\,% \frac{\sqrt{\lambda _{i}}}{s_{j}} \] \item[5] Los $r$ componentes principales $(r
k$, tengan casi el mismo valor, y ese valor de $k$ indica el n\'{u}mero de componentes a considerar. \item Seleccionar componentes de tal forma que entre ellas la proporci\'{o}% n de varianza acumulada satisfaga un requerimiento a priori, como por ejemplo el 80 o 90\%. Sin embargo, este criterio no debe usarse a rajatabla, puesto que es posible que el primer componente alcance por s\'{i} solo el 90\%, y puede existir otros componentes que nos expliquen la ''forma'' de las variables, que con este criterio lo perder\'{i}amos. \item Desechar aquellos componentes asociados a valores propios que son inferiores a una cota establecida como puede ser la varianza media de los componentes, esto es $\sum \lambda _{i}/p$. Y en caso que estemos trabajando con la matriz de correlaci\'{o}n $\mathbf{R}$, que ser\'{a} lo m\'{a}s frecuente, este valor es 1, de tal manera que solamente consideraremos aquellas componentes asociados a los autovalores mayores que 1. Cuando las variables originales son pocas, es posible que un solo autovalor cumpla este requisito, y podr\'{i}amos caer en la arbritrariedad del punto anterior. Por lo general este criterio se utiliza cuando el n\'{u}mero de variables originales es suficientemente grande y nos permite encontar por lo menos 3 componentes principales cuyos autovalores satisfacen la cota de 1. Se debe usar con cuidado. \end{itemize} \end{document}