RELACIÓN ENTRE VARIABLES CUANTITATIVAS

RELACIÓN ENTRE VARIABLES CUANTITATIVAS COVARIANZA

El término covarianza
hace referencia a la variación conjunta de dos variables , y tanto por
su definición como por su calculo no es mas que un índice que cuantifica
la variabilidad conjunta de dos variables. Formalmente se define como
la media aritmética del producto de las puntuaciones diferenciales de
dos variables medidas conjuntamente, y se designa por cov(X,Y) o por
Sxy. El signo, positivo o negativo, de la covarianza nos indica si la
relación lineal entre ambas variables es directa o inversa. Si la
magnitud de los productos positivos es superior a la de los productos
negativos la covarianza tendrá signo positivo y la relación entre ambas
variables será directa; es decir, a medida que aumentan los valores en
una variable, lo hacen también, en promedio, los de la otra variable.
Por el contrario, si la magnitud de los productos negativos supera a la
de los productos positivos la covarianza tendrá signo negativo y la
relación será inversa; es decir, a medida que aumenta los valores en una
variable disminuyen, en promedio, los de la otra. Cuando se dice que
una variable aumenta o disminuye en promedio, se quiere resaltar que lo
que va aumentando o disminuyendo son las medias de una variable
condicionada a los valores de la otra, mas que a os valores concretos en
sí. Cálculo de la covarianza con datos NO agrupados en intervalos de la
que se deriva Cálculo de la covarianza con datos agrupados en
intervalos de la que se deriva Propiedades de la covarianza Un
inconveniente de la covarianza, como medida de variación conjunta o
asociación entre dos variables es que depende de las unidades de medida
en que se expresen las variables de interés. De esta forma, por ejemplo,
la covarianza entre el tiempo de reacción y la velocidad de un móvil
puede ser de 64-338 cseg. X km/h. De esta particularidad se deriva la
siguiente propiedad: 1ª. Si sobre una variable X se efectúa una
transformación lineal del tipo Vi = a + bXi y sobre otra variable Y se
efectúa otra transformación lineal del tipo Wi = c +dYi, siendo a, b, c y
d cuatro constantes, la covarianza entre V y W será igual a: Svw =
bdSxy 2ª. Cuando hay r grupos, el primero con n1 pares de observaciones
en X e Y, el segundo con n2 pares observaciones en X e Y, y el r-ésimo
con nr pares de observaciones en X e Y, la covarianza total entre las
variables X e Y del grupo total es igual a la media ponderada de las
covarianzas en cada grupo más la covarianza ponderada de las medias. La
covarianza y la varianza Teniendo en cuenta la formula de calculo de la
covarianza, su estructura es idéntica a la varianza de una variable.
Efectivamente, si las dos variables X e Y fueran la misma, es decir X =
Y, entonces la covarianza sería igual a la varianza. Cuando hay dos
variables o grupos de valores, X e Y, y se combinan mediante las
operaciones de suma o resta, la varianza de las nuevas puntuaciones se
puede obtener directamente sin necesidad de calcularla a partir de las
puntuaciones resultantes. Efectivamente, si: Vi = Xi +/-Yi se demuestra
que: y EL COEFICIENTE DE CORRELACIÓN DE PEARSON Como se ha señalado, la
covarianza, como índice que cuantifica la relación lineal entre dos
variables, tiene una difícil interpretación para el analista dado que su
valor depende de las unidades en que están medidas las variables y, por
ende, del rango de valores de cada variable. Para evitar este
inconveniente es necesario disponer de un índice cuyos valores estén
acotados y su interpretación sea mas inmediata. Una estrategia que evita
las unidades de medida de las variables y unifica el rango de las
mismas, seria calcular la covarianza con puntuaciones típicas en vez de
directas. Las puntuaciones típicas, como se recordará, tienen la misma
media, cero, y la misma desviación típica, uno, y carecen de unidad de
medida. Pues bien, la covarianza entre dos variables, X e Y, calculada a
partir de sus puntuaciones típicas se conoce como coeficiente de
correlación de Pearson, y se designa por rxy. Es decir: rxy = cov(zx,
zy) Cálculo del coeficiente de correlación de Pearson De la expresión se
deduce que el coeficiente de correlación de Pearson calculado con
puntuaciones típicas es: rxy = = = el coeficiente de correlación de
Pearson se puede obtener como la covarianza entre puntuaciones típicas y
también como el cociente entre la covarianza en puntuaciones directas y
el producto de las respectivas desviaciones típicas de X e Y. De esta
expresión se puede calcular el coeficiente a partir de puntuaciones
diferenciales y directas también, y con datos agrupados en intervalos,
con sus respectivas formulas. Y con puntuaciones directas Propiedades
del coeficiente de correlación de Pearson Es un índice simétrico, es
decir rxy = ryx Su valor está en el rango 1 y +1. rxy tomará el valor
mínimo cuando cada par de observaciones tengan las mismas puntuaciones
típicas, pero con diferente signo; es decir: zx = -zy. rxy, en valor
absoluto, es invariante frente a cualquier transformación lineal de las
variables. Es decir, si tenemos n pares de valores X1, X2, , Xn; Y1, Y2,
, Yn; siendo las correspondientes medias y desviaciones típicas de X e
Y, y se forman las nuevas puntuaciones: Vi = AXi + B Wi = CYi + D donde
A, B, C y D son cuatro constantes arbitrarias, entonces la correlación
entre V y W será, en valor absoluto, igual a la correlación entra X e Y.
rvw= rxy rxy tomará el valor 1 ó 1 cuando una variable sea una
combinación lineal de la otra. Así, por ejemplo, si T = AX + B, entonces
rxt = 1 si A > 0, y rxt = -1 si A Correlación y heterogeneidad El
coeficiente de correlación indica si dos variables presentan relación
lineal en situaciones de homogeneidad de los datos. Esta homogeneidad
puede no darse en dos circunstancias: en primer lugar , cuando algún
dato es muy discordante respecto del conjunto; en segundo lugar, cuando
dentro de los datos hay varios grupos perfectamente diferenciados. En el
primer caso, el investigador debe analizar si ese dato atípico lo es
por un fallo en la transcripción, o bien es un elemento que no es
homogéneo con los demás. En ambas situaciones conviene eliminar dicho
caso del computo del coeficiente de correlación. En el segundo caso, lo
que se da es un caso de heterogeneidad, en el sentido que en los datos
hay varios grupos perfectamente diferenciados. Si se calcula el
coeficiente de correlación tomando todos los datos su valor estará
próximo a cero, sin embargo, si se calcula un coeficiente de correlación
para cada grupo, los valores que se obtendrán serán previsiblemente
altos. La conclusión que se deriva es que, antes de calcular un
coeficiente de correlación lineal entre un par de variables es preciso
representar los datos en un diagrama de dispersión para determinar la
relación entre las variables. Correlación y causalidad Cuando se observa
un coeficiente de correlación lineal alto entre dos variables, lo único
que se puede concluir es que están relacionadas entre sí, pero no
siempre se puede establecer un nexo de causalidad de una variable
respecto de otra. Hay muchas variables que presentan una alta
correlación entre sí, pero ello se debe a la presencia de una tercera
variable que tiene una fuerte relación entre ellas. Este tipo de
correlaciones se denomina correlaciones espurias. Hay muchos casos que
ilustran este tipo de correlaciones, por ejemplo, la alta correlación
que se da entre el numero de matrimonios celebrados y la temperatura
media mensual, o el número de cigüeñas observadas en un mes en algunas
zonas rurales de Alemania y el número de nacimientos en dicho mes. En
ningún caso se debe caer en el error de pensar que una variable es causa
de la otra, el sentido común nos lleva a pensar que la relación es
meramente fortuita o producida por alguna otra variable que no hemos
contemplado y que pudiera estar relacionada con las dos variables que
presentan una alta correlación entre sí. Incluso en aquellas variables
en que se pueda llegar a pensar que una es causa de la otra, como p.e.
la relación que pueda darse en los alumnos de secundaria entre la
ansiedad ante una prueba de conocimientos de estadística y el
rendimiento en dicha prueba. Se podría pensar que un alto grado de
ansiedad determina el mal rendimiento en la prueba, y que un nivel bajo
determina un alto rendimiento. ¿Quiere esto decir que la ansiedad es la
causa del rendimiento en esa prueba? Pero también podría ser que la
prueba de conocimientos de estadística provoca una reacción de ansiedad
de tal modo que los alumnos poco preparados reaccionan con un aumento de
la ansiedad mientras que los mejores preparados se manejan con cierta
tranquilidad en dicha prueba. A partir de un simple estudio
correlacional es imprudente establecer ese nexo de causalidad sin acudir
a un enfoque experimental que pudiera determinar si en verdad existe
dicho nexo de causalidad o no. El coeficiente de correlación, cuyo rango
de valores está acotado entre 1 y +1, no permite por tanto una
interpretación en términos de causalidad. Si se obtiene un valor próximo
a +1, indica que cuando una de las variables aumenta su valor en la
escala, la otra, en promedio, también lo hace, mientras que cuando el
valor está próximo a 1 indica justamente lo contrario, es decir, que
cuando una de las variables aumenta de valor, la otra, en promedio,
disminuye. Por ultimo, los valores próximos a cero indican ausencia de
relación lineal, o lo que es lo mismo, que cuando una variable va
aumentando de valor, la otra, en promedio, a veces aumenta y a veces
disminuye.