< 회귀분석 >
- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
- 변수들 사이의 인과관계 밝히고 관심 있는 변수 예측, 추론하기 위한 분석 방법
* 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수
* 영향을 주는 변수 x : 설명변수, 독립변수, 예측 변수
# 선형 회귀분석의 가정
1) 선형성 : 입력 변수와 출력 변수의 관계가 선형
2) 등분 산성 : 오차의 분산(잔차) --> 입력 변수와 무관하게 일정
3) 독립성 : 입력변수와 오차는 관련 X
4) 비상 관성 : 오차들끼리 상관이 없음
5) 정상성(정규성) : 오차의 분포가 정규분포를 따름 [Q-Q plot, Kolmogolov-Smirnov 검정, Sharprio-Wilk 검정 활용]
< 단순 선형 회귀 분석 >
# 회귀분석에서의 검토사항
- 회귀계수들이 유의미한가? t통계량의 p-값이 0.05보다 작아야 통계적으로 유의!
- 모형이 얼마나 설명력을 갖는가? 결정계수(R**2) 확인!
- 모형이 데이터를 잘 적합하고 있는가? 잔차를 그래프로 그리고 회귀 진단!
# 회귀 계수의 추정 : 최소 제곱 법, 최소 자승 법
# 회귀 직선의 적합도 검토
- 결정계수를 통하여 추정된 회귀 식이 얼마나 타당한지 검토
- -> 1에 가까울수록 회귀모형이 자료를 잘 설명함
- 독립변수의 수가 많아지면 결정계수가 높아짐 => 유의하지 않던, 유의하던 그냥 높아짐
- -> 수정된 결정계수 활용!
* 오차 : 모집단에서 실제값이 회귀선과 비교해볼 때 나타나는 차이
* 잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
< 다중 선형 회귀분석 >
- 독립변수의 수가 증가 -> 설명력 증가 -> y에 대한 x의 상대적 영향력 감소
- 추정치의 표준 오차에 대한 분석 : t-분석
- 회귀분석의 적합성 진단하는 방법 : 잔차 분석
# 모형의 통계적 유의성
- 모형의 통계적 유의성은 F통계량으로 확인
- 유의 수준 5% 이하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의
- F통계량이 크면 p-value가 0.05보다 작아짐 -> 귀무가설 기각
# 회귀계수의 유의성
- t통계량 확인
# 모형의 설명력
- 결정계수(R**2)
# 모형의 적합성
- 잔차와 종속변수의 산점도로 확인
# 데이터가 전제하는 가정을 만족시키는가?
- 선형성, 독립성, 등분산성, 비상관성, 정규성
# 다중 공선 성
- 다중회귀분석에서 설명변수 사이에 선형 관계가 존재하면 회귀 계수의 정확한 추정이 곤란하다.
- 다중 공선성 검사 방법
1) 분산 팽창 요인(VIF) : 4보다 크면 다중 공선 성 존재, 10보다 크면 심각한 문제
2) 상태 지수 : 10 이상이면 문제, 30보다 크면 심각한 문제
-> 다중 공선 성에 문제 발생하면 문제가 있는 변수를 제거하거나 주성분 회귀, 능형 회귀 모형을 적용하여 문제 해결
# 회귀분석의 종류
- 단순 회귀, 다중회귀, 곡선 회귀, 다항 회귀, 비선형 회귀, 로지스틱 회귀
< 최적 회귀 방정식 >
1) 설명변수 선택
- 필요한 변수만 상황에 따라 타협을 통해 선택
- x들의 수가 많아지면 관리하는데 많은 노력 요구 --> 가능한 범위 내에서 적은 수의 설명변수 포함
2) 모형 선택 : 분석 데이터에 가장 잘 맞는 모형 찾아내는 방법
- 모든 후보 모형에 대해 ACI 또는 BIC 값이 가장 작은 모형 --> 모든 가능한 조합의 회귀분석 실시
3) 단계적 변수 선택
* 전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
* 후진 선택법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형 선택
* 단계 선택법 : 전진 선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단
- AIC, BIC : 모형의 복잡도에 벌점을 주는 방법
'ADsP > 3장' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 03 - 5장 _1 정형 데이터마이닝 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초 (0) | 2021.03.27 |