2) Spearman의 순위상관분석


표본수가 적고 정규성을 만족하지 않는 두 연속형 변수 혹은 순위 척도 사이의 상관관계를 추정 및 검정하기 위해서는 Spearman, Kendall 등이 고안한 비모수적 방법인 순위상관분석을 사용한다. 순위상관분석에서는 짝지어진 두 변수(x,y)를 각각 순위를 매긴 뒤 그 순위의 차를 통해 두 변수의 상관관계를 검정한다. Spearman, Kendall 두 방법 모두 본래의 값에서 순위 정보만 추출해서 사용하는데, 그 중 더 흔히 사용되는 Spearman에 의한 순위상관분석의 rho값은, 만약 짝지어진 두 변수의 순서가 완전히 같다면 순위차(d)는 모두 0이고 rho=1이 된다.


하지만 비모수 상관분석에서는 자료 본연의 값이 모두 제거되고 순위 정보만이 분석에 이용되므로 두 변수 사이의 선형적인 관련성을 추정할 수 있는 것은 아니다. 비모수 상관분석에서 우리가 검정하는 것은 두 변수 사이의 선형성이 아니라, "한 변수(x)가 증가할 때 다른 변수(y)도 증가하는 경향이 있느냐"하는 상관성이다. 



※ 회귀분석


영국의 유전학자 갈턴은 1889년 아버지와 아들의 키에 대한 유전 관계를 통계적으로 조사한 그의 논문에서 회귀(regression)라는 단어를 처음 사용하였다. 두 연속형 변수의 상관관계를 규명하는 방법이 상관분석이라면, 두 변수 사이에 어떤 함수 관계가 있는지 파악하고 나아가 종속변수가 독립변수들에 의해 어떻게 설명 혹은 예측되는지를 알아보는 통계적 방법이 회귀분석(regression analysis)이다. 이때 예측되는 변수를 종속변수(dependent variable), 결과변수(outcome variable) 또는 반응변수(response variable)라 하고, 종속변수를 예측하는 데 사용하는 변수들을 독립변수(independent variable), 설명변수(explanatory variable), 예측변수(predictor variable) 혹은 위험인자(risk factor)라 부른다.


회귀분석은 함수의 형태에 따라 여러 가지로 분류할 수 있다. 변수들의 관계가 선형의 관계, 즉 1차 함수일 수도 있고, 곡선 형태로 2차 혹은 3차 함수일 수도 있다. 하지만 보건, 의학 연구에서는 결과변수와 독립변수 사이의 선형 관계를 규명하는 선형회귀분석(linear regression analysis)이 주로 사용되므로 회귀분석이라 하면 일반적으로 선형외귀분석을 의미한다. 선형회귀분석은 다시 두 변수 사이의 선형 관계를 하나의 회귀직선으로 표현하는 단순회귀분석(simple linear regression)과 여러 개의 독립변수들에 의해 결과변수를 예측하는 다중회귀분석(multiple linear regression)으로 나뉜다. 



3) 단순회귀분석


단순회귀분석은 독립변수(x)와 종속변수(y)가 선형의 관계에 있을 때, y=α+β*x의 선형회귀식을 추정하는 것을 목적으로 한다. 이 때 α를 절편(intercept), β를 기울기(slope)라고 한다. 절편(α)은 x=0일 때의 y값들의 평균을 말하지만 임상적인 의미는 크지 않다. 회귀분석에서는 기울기(β)에 큰 관심을 기울이는데, 기울기란 x가 1단위 증가할 때 y의 평균적인 증가량을 의미한다. 회귀분석에서 추정하는 α와 β를 회귀계수(regression coefficient)라고 하는데, 때로는 β만을 회귀계수라고 부르기도 한다. 회귀식은 우리가 현상을 설명하는 하나의 모형이라는 의미에서 회귀모형(regression model)이라고 부르기도 한다. 


허리둘레(x)와 BMI(y)사이에 회귀식 y=α+β*x이 추정되었다고 가정하면, 허리둘레가 x1일 때, 회귀식에 의해 y1이라는 예측값을 얻을 수 있을 것이다. 하지만, 허리둘레에 의해 BMI를 100% 설명할 수 있는 것은 아니므로 실제 허리둘레가 x1인 경우에도 다양한 BMI가 관찰될 수 있다. 표본집단에서 관측값과 회귀선에 의한 예측값 사이의 차이를 잔차라고 하며, 모집단에서 실제값과 회귀선 사이에 차이가 나는 부분을 오차항이라고 한다. 다시 말해, 추정된 회귀식 혹은 회귀모형에 의해 설명되지 않는 부분을 오차항 및 잔차(residual error, ε)라고 한다. 한편, 모집단을 대신하여 표본집단을 분석하는 회귀분석에서는 모집단의 오차항을 직접 관찰할수는 없으므로 표본집단의 잔차를 오차항의 관찰값으로 간주한다. 오차항과 잔차는 회귀분석이 적절하게 수행되었는지 판단하는 데 꼭 필요한 개념이므로 잘 기억해두어야 한다. 



출처: '그림으로 이해하는 닥터 배의 술술 보건의학통계, 배정민 지음. 한나래 아카데미'

나이와 혈압은 서로 관계가 있을까? 허리둘레와 체중 사이에는 어떤 관계가 있을까? 이렇게 두 관측치들 사이의 관계, 특히 연속형 자료들 사이의 관계를 분석하는 것이 상관분석과 회귀분석이다. 두 변수들 사이의 선형적 상관관계 정도를 보는 것이 상관분석(correlation analysis)이고, y=a+b*x의 식을 구하여 x변수를 통해 y변수의 값을 예측하는 것이 회귀분석(regression analysis)이다. 



상관분석


상관분석은 다시 모수적 방법과 비모수적 방법으로 나뉜다. Pearson의 상관분석은 대표적인 모수적 상관분석법으로 두 연속형 자료 중 적어도 한 개는 정규성을 갖는다는 가정을 전제로 한다. 표본수가 30 이상이라면 중심극한정리에 의해 정규성 검정 없이도 이 방법을 적용할 수 있다. 표본수가 적고 정규분포를 가정할 수 없는 연속형 자료들 간의 관계나, 혹은 순위 척도를 분석에 포함하고 싶은 경우에는 Spearman이나 Kendall의 비모수적 순위상관분석을 대신 사용할 수 있다.


1) Pearson의 상관분석


허리둘레가 두꺼운 사람은 체중도 많이 나갈 것으로 예상된다. 그렇다면, 허리둘레와 체중은 얼마만큼 연관되어 있을까? Pearson의 상관분석은 두 연속형 변수의 상관의 정도에 대해 알려준다. Pearson의 상관계수(coefficient of correlation) r은 -1에서 1사이의 값을 가지며 양수는 양의 상관관계, 음수는 음의 상관관계를 의미한다. 상관관계 r이 1에 가까울 수록 두 변수의 상관관계는 직선에 가깝게 뚜렷해지고, -1에 가까울 수록 완전한 역상관관계에 가까워진다. 또한 상관계수 r이 0에 가까운 값을 가진다면 두 변수의 관계는 전혀 선형적이지 못하는 뜻이다. 


※ 상관계수 r은 직선의 기울기가 아니다.

상관계수 r은 오로지 상관의 정도만을 의미한다. r=1 또는 -1은 100%의 상관성을 보여주는 것으로 한 변수를 알 때 다른 변수의 값을 100% 정확하게 예측할 수 있음을 뜻한다. 이 경우 두 변수를 x와 y축으로 하여 좌표로 나타내면 완벽하게 일직선상에 위치할 것이다. 그러나 r=1이라고 하더라도 두 변수 사이의 기울기는 다양할 수 있다. 다시 말해, r=1이라는 것은 100%의 상관성을 의미하므로 x변수와 y변수가 서로를 100% 정확하게 설명할 수 있다는 것일 뿐, 실제 기울기가 작으면 x변수가 y변수에 대해 큰 영향을 미친다고 보기는 어렵다. 이렇듯 상관분석은 연관성의 정도를 뜻하며, 이 기울기를 추정하는 것은 회귀분석의 영역이다. 한편 절대값 r이 1보다 작을수록 두 변수 사이의 상관관계는 작아져서 넓게 흩어진 분포를 보이며, 특히 r=0인 경우에는 양의 상관관계도, 음의 상관관계도 규정할 수 없는 관계를 의미한다. 


※ 설명력 r의 제곱

설명력은 상관계수(r)의 제곱으로 표현하며, 두 변수 사이의 선형 관계 정도를 설명해 준다. 두 변수 사이의 상관계수(r)가 0.9라면 서로 81%만큼 설명이 가능하고, 0.4면 16%만큼 설명이 가능하다는 의미이다. 또한, r=-0.4라면 둘의 관계는 역의 관게이지만 역시 16%만큼 설명이 가능하다. 물론 상관계수(r)가 1혹은 -!인 경우에는 두 변수는 완전한 선형의 관계를 갖기 때문에 한 변수를 알 때 다른 변수값을 100% 정확하게 예측할 수 있으며, r=0이라면 두 변수는 서로 완전한 독립 관계로 서로를 전혀 설명하지 못한다고 할 수 있다.


※ 상관분석의 가설 설정

  • 귀무가설(H0): 두 변수는 선형의 상관관계가 없다(r = 0).
  • 대립가설(H1): 두 변수는 선형의 상관관계가 있다(r ≠ 0).

상관분석에서 두 변수의 선형 관계의 통계적 유의성을 검증하기 위해서는 아래와 같은 가설의 설정이 필요하다. 그리고 상관분석을 통해 p value가 유의수준 5% 미만일 때 귀무가설을 기각하고 대립가설을 채택하여 두 변수가 선형의 상관관계에 있음을 보일 수 있다. 그러나 상관분석은 두 변수의 선형 관계의 분석일 뿐 인과 관계를 의미하지는 않는다. 예를 들어 체중과 혈압이 높은 상관관계를 보인다고 해서 혈압이 높기 때문에 체중이 높다고 해석할 수도 없고, 역으로 체중이 높기 때문에 혈압이 높다고 말할 수도 없다. 


※ 편상관분석

혈압과 허리둘레 사이에 상관계수(r) 0.8의 강한 양의 상관관계가 있는 경우를 생각해 보자. 하지만, 혈압은 허리둘레 외에도 나이와도 역시 강한 상관관계(r=0.8)를 가질 수 있으므로, 이 세 변수들은 실제로 서로 겹치고 겹치는 관계라 할 수 있다. 즉 혈압이 높은 것은 허리둘레와의 연관도 있지만, 헐리둘레가 증가한 사람들의 연령대가 높은 것과도 연관이 있을 수 있을 것이다. 편상관분석(partial correlation)은 관심을 갖는 두 변수 외 나머지 변수들이 모두 동일한 값으로 고정되었다고 가정할 경우 두 변수 사이의 순수한 연관성 정도를 평가하는 방법이다. 특정 예시를 살펴보면, 허리둘레와 혈압은 서로 64%정도 설명해 주지만, 나이에 의한 영향을 통제하였을 때 허리둘레와 혈압은 서로 25%를 설명할 수 있다. 이 때 r=0.5를 편상관계수(partial correlation coefficient)라고 한다.




출처: '그림으로 이해하는 닥터 배의 술술 보건의학통계, 배정민 지음. 한나래 아카데미'

+ Recent posts