2) Spearman의 순위상관분석
표본수가 적고 정규성을 만족하지 않는 두 연속형 변수 혹은 순위 척도 사이의 상관관계를 추정 및 검정하기 위해서는 Spearman, Kendall 등이 고안한 비모수적 방법인 순위상관분석을 사용한다. 순위상관분석에서는 짝지어진 두 변수(x,y)를 각각 순위를 매긴 뒤 그 순위의 차를 통해 두 변수의 상관관계를 검정한다. Spearman, Kendall 두 방법 모두 본래의 값에서 순위 정보만 추출해서 사용하는데, 그 중 더 흔히 사용되는 Spearman에 의한 순위상관분석의 rho값은, 만약 짝지어진 두 변수의 순서가 완전히 같다면 순위차(d)는 모두 0이고 rho=1이 된다.
하지만 비모수 상관분석에서는 자료 본연의 값이 모두 제거되고 순위 정보만이 분석에 이용되므로 두 변수 사이의 선형적인 관련성을 추정할 수 있는 것은 아니다. 비모수 상관분석에서 우리가 검정하는 것은 두 변수 사이의 선형성이 아니라, "한 변수(x)가 증가할 때 다른 변수(y)도 증가하는 경향이 있느냐"하는 상관성이다.
※ 회귀분석
영국의 유전학자 갈턴은 1889년 아버지와 아들의 키에 대한 유전 관계를 통계적으로 조사한 그의 논문에서 회귀(regression)라는 단어를 처음 사용하였다. 두 연속형 변수의 상관관계를 규명하는 방법이 상관분석이라면, 두 변수 사이에 어떤 함수 관계가 있는지 파악하고 나아가 종속변수가 독립변수들에 의해 어떻게 설명 혹은 예측되는지를 알아보는 통계적 방법이 회귀분석(regression analysis)이다. 이때 예측되는 변수를 종속변수(dependent variable), 결과변수(outcome variable) 또는 반응변수(response variable)라 하고, 종속변수를 예측하는 데 사용하는 변수들을 독립변수(independent variable), 설명변수(explanatory variable), 예측변수(predictor variable) 혹은 위험인자(risk factor)라 부른다.
회귀분석은 함수의 형태에 따라 여러 가지로 분류할 수 있다. 변수들의 관계가 선형의 관계, 즉 1차 함수일 수도 있고, 곡선 형태로 2차 혹은 3차 함수일 수도 있다. 하지만 보건, 의학 연구에서는 결과변수와 독립변수 사이의 선형 관계를 규명하는 선형회귀분석(linear regression analysis)이 주로 사용되므로 회귀분석이라 하면 일반적으로 선형외귀분석을 의미한다. 선형회귀분석은 다시 두 변수 사이의 선형 관계를 하나의 회귀직선으로 표현하는 단순회귀분석(simple linear regression)과 여러 개의 독립변수들에 의해 결과변수를 예측하는 다중회귀분석(multiple linear regression)으로 나뉜다.
3) 단순회귀분석
단순회귀분석은 독립변수(x)와 종속변수(y)가 선형의 관계에 있을 때, y=α+β*x의 선형회귀식을 추정하는 것을 목적으로 한다. 이 때 α를 절편(intercept), β를 기울기(slope)라고 한다. 절편(α)은 x=0일 때의 y값들의 평균을 말하지만 임상적인 의미는 크지 않다. 회귀분석에서는 기울기(β)에 큰 관심을 기울이는데, 기울기란 x가 1단위 증가할 때 y의 평균적인 증가량을 의미한다. 회귀분석에서 추정하는 α와 β를 회귀계수(regression coefficient)라고 하는데, 때로는 β만을 회귀계수라고 부르기도 한다. 회귀식은 우리가 현상을 설명하는 하나의 모형이라는 의미에서 회귀모형(regression model)이라고 부르기도 한다.
허리둘레(x)와 BMI(y)사이에 회귀식 y=α+β*x이 추정되었다고 가정하면, 허리둘레가 x1일 때, 회귀식에 의해 y1이라는 예측값을 얻을 수 있을 것이다. 하지만, 허리둘레에 의해 BMI를 100% 설명할 수 있는 것은 아니므로 실제 허리둘레가 x1인 경우에도 다양한 BMI가 관찰될 수 있다. 표본집단에서 관측값과 회귀선에 의한 예측값 사이의 차이를 잔차라고 하며, 모집단에서 실제값과 회귀선 사이에 차이가 나는 부분을 오차항이라고 한다. 다시 말해, 추정된 회귀식 혹은 회귀모형에 의해 설명되지 않는 부분을 오차항 및 잔차(residual error, ε)라고 한다. 한편, 모집단을 대신하여 표본집단을 분석하는 회귀분석에서는 모집단의 오차항을 직접 관찰할수는 없으므로 표본집단의 잔차를 오차항의 관찰값으로 간주한다. 오차항과 잔차는 회귀분석이 적절하게 수행되었는지 판단하는 데 꼭 필요한 개념이므로 잘 기억해두어야 한다.
출처: '그림으로 이해하는 닥터 배의 술술 보건의학통계, 배정민 지음. 한나래 아카데미'
'공부하는삶 > 통계학' 카테고리의 다른 글
[보건의학통계] 연속형 변수 사이의 선형관계 추정 (1) (0) | 2018.11.28 |
---|