RELACIÓN ENTRE VARIABLES CUANTITATIVAS

RELACIÓN ENTRE VARIABLES CUANTITATIVAS COVARIANZA

El término covarianza hace referencia a la variación conjunta de dos variables , y tanto por su definición como por su calculo no es mas que un índice que cuantifica la variabilidad conjunta de dos variables. Formalmente se define como la media aritmética del producto de las puntuaciones diferenciales de dos variables medidas conjuntamente, y se designa por cov(X,Y) o por Sxy. El signo, positivo o negativo, de la covarianza nos indica si la relación lineal entre ambas variables es directa o inversa. Si la magnitud de los productos positivos es superior a la de los productos negativos la covarianza tendrá signo positivo y la relación entre ambas variables será directa; es decir, a medida que aumentan los valores en una variable, lo hacen también, en promedio, los de la otra variable. Por el contrario, si la magnitud de los productos negativos supera a la de los productos positivos la covarianza tendrá signo negativo y la relación será inversa; es decir, a medida que aumenta los valores en una variable disminuyen, en promedio, los de la otra. Cuando se dice que una variable aumenta o disminuye en promedio, se quiere resaltar que lo que va aumentando o disminuyendo son las medias de una variable condicionada a los valores de la otra, mas que a os valores concretos en sí. Cálculo de la covarianza con datos NO agrupados en intervalos de la que se deriva Cálculo de la covarianza con datos agrupados en intervalos de la que se deriva Propiedades de la covarianza Un inconveniente de la covarianza, como medida de variación conjunta o asociación entre dos variables es que depende de las unidades de medida en que se expresen las variables de interés. De esta forma, por ejemplo, la covarianza entre el tiempo de reacción y la velocidad de un móvil puede ser de 64-338 cseg. X km/h. De esta particularidad se deriva la siguiente propiedad: 1ª. Si sobre una variable X se efectúa una transformación lineal del tipo Vi = a + bXi y sobre otra variable Y se efectúa otra transformación lineal del tipo Wi = c +dYi, siendo a, b, c y d cuatro constantes, la covarianza entre V y W será igual a: Svw = bdSxy 2ª. Cuando hay r grupos, el primero con n1 pares de observaciones en X e Y, el segundo con n2 pares observaciones en X e Y, y el r-ésimo con nr pares de observaciones en X e Y, la covarianza total entre las variables X e Y del grupo total es igual a la media ponderada de las covarianzas en cada grupo más la covarianza ponderada de las medias. La covarianza y la varianza Teniendo en cuenta la formula de calculo de la covarianza, su estructura es idéntica a la varianza de una variable. Efectivamente, si las dos variables X e Y fueran la misma, es decir X = Y, entonces la covarianza sería igual a la varianza. Cuando hay dos variables o grupos de valores, X e Y, y se combinan mediante las operaciones de suma o resta, la varianza de las nuevas puntuaciones se puede obtener directamente sin necesidad de calcularla a partir de las puntuaciones resultantes. Efectivamente, si: Vi = Xi +/-Yi se demuestra que: y EL COEFICIENTE DE CORRELACIÓN DE PEARSON Como se ha señalado, la covarianza, como índice que cuantifica la relación lineal entre dos variables, tiene una difícil interpretación para el analista dado que su valor depende de las unidades en que están medidas las variables y, por ende, del rango de valores de cada variable. Para evitar este inconveniente es necesario disponer de un índice cuyos valores estén acotados y su interpretación sea mas inmediata. Una estrategia que evita las unidades de medida de las variables y unifica el rango de las mismas, seria calcular la covarianza con puntuaciones típicas en vez de directas. Las puntuaciones típicas, como se recordará, tienen la misma media, cero, y la misma desviación típica, uno, y carecen de unidad de medida. Pues bien, la covarianza entre dos variables, X e Y, calculada a partir de sus puntuaciones típicas se conoce como coeficiente de correlación de Pearson, y se designa por rxy. Es decir: rxy = cov(zx, zy) Cálculo del coeficiente de correlación de Pearson De la expresión se deduce que el coeficiente de correlación de Pearson calculado con puntuaciones típicas es: rxy = = = el coeficiente de correlación de Pearson se puede obtener como la covarianza entre puntuaciones típicas y también como el cociente entre la covarianza en puntuaciones directas y el producto de las respectivas desviaciones típicas de X e Y. De esta expresión se puede calcular el coeficiente a partir de puntuaciones diferenciales y directas también, y con datos agrupados en intervalos, con sus respectivas formulas. Y con puntuaciones directas Propiedades del coeficiente de correlación de Pearson Es un índice simétrico, es decir rxy = ryx Su valor está en el rango 1 y +1. rxy tomará el valor mínimo cuando cada par de observaciones tengan las mismas puntuaciones típicas, pero con diferente signo; es decir: zx = -zy. rxy, en valor absoluto, es invariante frente a cualquier transformación lineal de las variables. Es decir, si tenemos n pares de valores X1, X2, , Xn; Y1, Y2, , Yn; siendo las correspondientes medias y desviaciones típicas de X e Y, y se forman las nuevas puntuaciones: Vi = AXi + B Wi = CYi + D donde A, B, C y D son cuatro constantes arbitrarias, entonces la correlación entre V y W será, en valor absoluto, igual a la correlación entra X e Y. rvw= rxy rxy tomará el valor 1 ó 1 cuando una variable sea una combinación lineal de la otra. Así, por ejemplo, si T = AX + B, entonces rxt = 1 si A > 0, y rxt = -1 si A Correlación y heterogeneidad El coeficiente de correlación indica si dos variables presentan relación lineal en situaciones de homogeneidad de los datos. Esta homogeneidad puede no darse en dos circunstancias: en primer lugar , cuando algún dato es muy discordante respecto del conjunto; en segundo lugar, cuando dentro de los datos hay varios grupos perfectamente diferenciados. En el primer caso, el investigador debe analizar si ese dato atípico lo es por un fallo en la transcripción, o bien es un elemento que no es homogéneo con los demás. En ambas situaciones conviene eliminar dicho caso del computo del coeficiente de correlación. En el segundo caso, lo que se da es un caso de heterogeneidad, en el sentido que en los datos hay varios grupos perfectamente diferenciados. Si se calcula el coeficiente de correlación tomando todos los datos su valor estará próximo a cero, sin embargo, si se calcula un coeficiente de correlación para cada grupo, los valores que se obtendrán serán previsiblemente altos. La conclusión que se deriva es que, antes de calcular un coeficiente de correlación lineal entre un par de variables es preciso representar los datos en un diagrama de dispersión para determinar la relación entre las variables. Correlación y causalidad Cuando se observa un coeficiente de correlación lineal alto entre dos variables, lo único que se puede concluir es que están relacionadas entre sí, pero no siempre se puede establecer un nexo de causalidad de una variable respecto de otra. Hay muchas variables que presentan una alta correlación entre sí, pero ello se debe a la presencia de una tercera variable que tiene una fuerte relación entre ellas. Este tipo de correlaciones se denomina correlaciones espurias. Hay muchos casos que ilustran este tipo de correlaciones, por ejemplo, la alta correlación que se da entre el numero de matrimonios celebrados y la temperatura media mensual, o el número de cigüeñas observadas en un mes en algunas zonas rurales de Alemania y el número de nacimientos en dicho mes. En ningún caso se debe caer en el error de pensar que una variable es causa de la otra, el sentido común nos lleva a pensar que la relación es meramente fortuita o producida por alguna otra variable que no hemos contemplado y que pudiera estar relacionada con las dos variables que presentan una alta correlación entre sí. Incluso en aquellas variables en que se pueda llegar a pensar que una es causa de la otra, como p.e. la relación que pueda darse en los alumnos de secundaria entre la ansiedad ante una prueba de conocimientos de estadística y el rendimiento en dicha prueba. Se podría pensar que un alto grado de ansiedad determina el mal rendimiento en la prueba, y que un nivel bajo determina un alto rendimiento. ¿Quiere esto decir que la ansiedad es la causa del rendimiento en esa prueba? Pero también podría ser que la prueba de conocimientos de estadística provoca una reacción de ansiedad de tal modo que los alumnos poco preparados reaccionan con un aumento de la ansiedad mientras que los mejores preparados se manejan con cierta tranquilidad en dicha prueba. A partir de un simple estudio correlacional es imprudente establecer ese nexo de causalidad sin acudir a un enfoque experimental que pudiera determinar si en verdad existe dicho nexo de causalidad o no. El coeficiente de correlación, cuyo rango de valores está acotado entre 1 y +1, no permite por tanto una interpretación en términos de causalidad. Si se obtiene un valor próximo a +1, indica que cuando una de las variables aumenta su valor en la escala, la otra, en promedio, también lo hace, mientras que cuando el valor está próximo a 1 indica justamente lo contrario, es decir, que cuando una de las variables aumenta de valor, la otra, en promedio, disminuye. Por ultimo, los valores próximos a cero indican ausencia de relación lineal, o lo que es lo mismo, que cuando una variable va aumentando de valor, la otra, en promedio, a veces aumenta y a veces disminuye.