본문 바로가기

ADsP/3장

ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석

반응형

< 회귀분석 >

- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

- 변수들 사이의 인과관계 밝히고 관심 있는 변수 예측, 추론하기 위한 분석 방법

* 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수

* 영향을 주는 변수 x : 설명변수, 독립변수, 예측 변수

# 선형 회귀분석의 가정

1) 선형성 : 입력 변수와 출력 변수의 관계가 선형

2) 등분 산성 : 오차의 분산(잔차) --> 입력 변수와 무관하게 일정

3) 독립성 : 입력변수와 오차는 관련 X

4) 비상 관성 : 오차들끼리 상관이 없음

5) 정상성(정규성) : 오차의 분포가 정규분포를 따름 [Q-Q plot, Kolmogolov-Smirnov 검정, Sharprio-Wilk 검정 활용]

< 단순 선형 회귀 분석 >

# 회귀분석에서의 검토사항

- 회귀계수들이 유의미한가? t통계량의 p-값이 0.05보다 작아야 통계적으로 유의!

- 모형이 얼마나 설명력을 갖는가? 결정계수(R**2) 확인!

- 모형이 데이터를 잘 적합하고 있는가? 잔차를 그래프로 그리고 회귀 진단!

# 회귀 계수의 추정 : 최소 제곱 법, 최소 자승 법

# 회귀 직선의 적합도 검토

- 결정계수를 통하여 추정된 회귀 식이 얼마나 타당한지 검토

- -> 1에 가까울수록 회귀모형이 자료를 잘 설명함

- 독립변수의 수가 많아지면 결정계수가 높아짐 => 유의하지 않던, 유의하던 그냥 높아짐

- -> 수정된 결정계수 활용!

* 오차 : 모집단에서 실제값이 회귀선과 비교해볼 때 나타나는 차이

* 잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이

< 다중 선형 회귀분석 >

- 독립변수의 수가 증가 -> 설명력 증가 -> y에 대한 x의 상대적 영향력 감소

- 추정치의 표준 오차에 대한 분석 : t-분석

- 회귀분석의 적합성 진단하는 방법 : 잔차 분석

# 모형의 통계적 유의성

- 모형의 통계적 유의성은 F통계량으로 확인

- 유의 수준 5% 이하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의

- F통계량이 크면 p-value가 0.05보다 작아짐 -> 귀무가설 기각

# 회귀계수의 유의성

- t통계량 확인

# 모형의 설명력

- 결정계수(R**2)

# 모형의 적합성

- 잔차와 종속변수의 산점도로 확인

# 데이터가 전제하는 가정을 만족시키는가?

- 선형성, 독립성, 등분산성, 비상관성, 정규성

# 다중 공선 성

- 다중회귀분석에서 설명변수 사이에 선형 관계가 존재하면 회귀 계수의 정확한 추정이 곤란하다.

- 다중 공선성 검사 방법

1) 분산 팽창 요인(VIF) : 4보다 크면 다중 공선 성 존재, 10보다 크면 심각한 문제

2) 상태 지수 : 10 이상이면 문제, 30보다 크면 심각한 문제

-> 다중 공선 성에 문제 발생하면 문제가 있는 변수를 제거하거나 주성분 회귀, 능형 회귀 모형을 적용하여 문제 해결

# 회귀분석의 종류

- 단순 회귀, 다중회귀, 곡선 회귀, 다항 회귀, 비선형 회귀, 로지스틱 회귀

< 최적 회귀 방정식 >

1) 설명변수 선택

- 필요한 변수만 상황에 따라 타협을 통해 선택

- x들의 수가 많아지면 관리하는데 많은 노력 요구 --> 가능한 범위 내에서 적은 수의 설명변수 포함

2) 모형 선택 : 분석 데이터에 가장 잘 맞는 모형 찾아내는 방법

- 모든 후보 모형에 대해 ACI 또는 BIC 값이 가장 작은 모형 --> 모든 가능한 조합의 회귀분석 실시

3) 단계적 변수 선택

* 전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가

* 후진 선택법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형 선택

* 단계 선택법 : 전진 선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단

- AIC, BIC : 모형의 복잡도에 벌점을 주는 방법

 

반응형