나이와 혈압은 서로 관계가 있을까? 허리둘레와 체중 사이에는 어떤 관계가 있을까? 이렇게 두 관측치들 사이의 관계, 특히 연속형 자료들 사이의 관계를 분석하는 것이 상관분석과 회귀분석이다. 두 변수들 사이의 선형적 상관관계 정도를 보는 것이 상관분석(correlation analysis)이고, y=a+b*x의 식을 구하여 x변수를 통해 y변수의 값을 예측하는 것이 회귀분석(regression analysis)이다. 



상관분석


상관분석은 다시 모수적 방법과 비모수적 방법으로 나뉜다. Pearson의 상관분석은 대표적인 모수적 상관분석법으로 두 연속형 자료 중 적어도 한 개는 정규성을 갖는다는 가정을 전제로 한다. 표본수가 30 이상이라면 중심극한정리에 의해 정규성 검정 없이도 이 방법을 적용할 수 있다. 표본수가 적고 정규분포를 가정할 수 없는 연속형 자료들 간의 관계나, 혹은 순위 척도를 분석에 포함하고 싶은 경우에는 Spearman이나 Kendall의 비모수적 순위상관분석을 대신 사용할 수 있다.


1) Pearson의 상관분석


허리둘레가 두꺼운 사람은 체중도 많이 나갈 것으로 예상된다. 그렇다면, 허리둘레와 체중은 얼마만큼 연관되어 있을까? Pearson의 상관분석은 두 연속형 변수의 상관의 정도에 대해 알려준다. Pearson의 상관계수(coefficient of correlation) r은 -1에서 1사이의 값을 가지며 양수는 양의 상관관계, 음수는 음의 상관관계를 의미한다. 상관관계 r이 1에 가까울 수록 두 변수의 상관관계는 직선에 가깝게 뚜렷해지고, -1에 가까울 수록 완전한 역상관관계에 가까워진다. 또한 상관계수 r이 0에 가까운 값을 가진다면 두 변수의 관계는 전혀 선형적이지 못하는 뜻이다. 


※ 상관계수 r은 직선의 기울기가 아니다.

상관계수 r은 오로지 상관의 정도만을 의미한다. r=1 또는 -1은 100%의 상관성을 보여주는 것으로 한 변수를 알 때 다른 변수의 값을 100% 정확하게 예측할 수 있음을 뜻한다. 이 경우 두 변수를 x와 y축으로 하여 좌표로 나타내면 완벽하게 일직선상에 위치할 것이다. 그러나 r=1이라고 하더라도 두 변수 사이의 기울기는 다양할 수 있다. 다시 말해, r=1이라는 것은 100%의 상관성을 의미하므로 x변수와 y변수가 서로를 100% 정확하게 설명할 수 있다는 것일 뿐, 실제 기울기가 작으면 x변수가 y변수에 대해 큰 영향을 미친다고 보기는 어렵다. 이렇듯 상관분석은 연관성의 정도를 뜻하며, 이 기울기를 추정하는 것은 회귀분석의 영역이다. 한편 절대값 r이 1보다 작을수록 두 변수 사이의 상관관계는 작아져서 넓게 흩어진 분포를 보이며, 특히 r=0인 경우에는 양의 상관관계도, 음의 상관관계도 규정할 수 없는 관계를 의미한다. 


※ 설명력 r의 제곱

설명력은 상관계수(r)의 제곱으로 표현하며, 두 변수 사이의 선형 관계 정도를 설명해 준다. 두 변수 사이의 상관계수(r)가 0.9라면 서로 81%만큼 설명이 가능하고, 0.4면 16%만큼 설명이 가능하다는 의미이다. 또한, r=-0.4라면 둘의 관계는 역의 관게이지만 역시 16%만큼 설명이 가능하다. 물론 상관계수(r)가 1혹은 -!인 경우에는 두 변수는 완전한 선형의 관계를 갖기 때문에 한 변수를 알 때 다른 변수값을 100% 정확하게 예측할 수 있으며, r=0이라면 두 변수는 서로 완전한 독립 관계로 서로를 전혀 설명하지 못한다고 할 수 있다.


※ 상관분석의 가설 설정

  • 귀무가설(H0): 두 변수는 선형의 상관관계가 없다(r = 0).
  • 대립가설(H1): 두 변수는 선형의 상관관계가 있다(r ≠ 0).

상관분석에서 두 변수의 선형 관계의 통계적 유의성을 검증하기 위해서는 아래와 같은 가설의 설정이 필요하다. 그리고 상관분석을 통해 p value가 유의수준 5% 미만일 때 귀무가설을 기각하고 대립가설을 채택하여 두 변수가 선형의 상관관계에 있음을 보일 수 있다. 그러나 상관분석은 두 변수의 선형 관계의 분석일 뿐 인과 관계를 의미하지는 않는다. 예를 들어 체중과 혈압이 높은 상관관계를 보인다고 해서 혈압이 높기 때문에 체중이 높다고 해석할 수도 없고, 역으로 체중이 높기 때문에 혈압이 높다고 말할 수도 없다. 


※ 편상관분석

혈압과 허리둘레 사이에 상관계수(r) 0.8의 강한 양의 상관관계가 있는 경우를 생각해 보자. 하지만, 혈압은 허리둘레 외에도 나이와도 역시 강한 상관관계(r=0.8)를 가질 수 있으므로, 이 세 변수들은 실제로 서로 겹치고 겹치는 관계라 할 수 있다. 즉 혈압이 높은 것은 허리둘레와의 연관도 있지만, 헐리둘레가 증가한 사람들의 연령대가 높은 것과도 연관이 있을 수 있을 것이다. 편상관분석(partial correlation)은 관심을 갖는 두 변수 외 나머지 변수들이 모두 동일한 값으로 고정되었다고 가정할 경우 두 변수 사이의 순수한 연관성 정도를 평가하는 방법이다. 특정 예시를 살펴보면, 허리둘레와 혈압은 서로 64%정도 설명해 주지만, 나이에 의한 영향을 통제하였을 때 허리둘레와 혈압은 서로 25%를 설명할 수 있다. 이 때 r=0.5를 편상관계수(partial correlation coefficient)라고 한다.




출처: '그림으로 이해하는 닥터 배의 술술 보건의학통계, 배정민 지음. 한나래 아카데미'

+ Recent posts