< 시계열 자료 >
- 시간의 흐름에 따라 관찰된 값들
- 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악
- 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것
- 시계열 데이터의 모델링 : 탐색목적, 예측목적
- 짧은 기간동안의 주기적인 패턴 -> 계절변동
- 잡음: 무작위한 변동, 원인 알려지지 X
# 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료
* 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화
* 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화
* 공분산 : 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존 X
# 정상 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료
- 어떤 시점에서 평균과 분산, 자기공분산을 측정하더라도 동일한 값 가짐
- 항상 그 평균값으로 회귀하려는 경향 있음, 그 평균값 주변에서의 변동은 대체로 일정한 폭
- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없음
< 시계열자료 분석 방법 >
# 분석 방법
- 수학적 이론 모형 : 회귀분석(계량경제) 방법, Box-Jenkins 방법
- 직관적 방법 : 지수평활법, 시계열분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용
- 장기 예측 : 회귀분석방법 활용
- 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용
# 자료 형태에 따른 분석 방법
1) 일변량 시계열 분석
- 시간(t)을 설명변수로 한 회귀모형주가, 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석
- Box-Jenkins 방법, 지수평활법, 시계열 분해법
2) 다중 시계열 분석
- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등
- 여러개의 시간(t)에 따른 변수들을 활용하는 시계열 분석
# 이동 평균법
과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동 평균 계산 -> 추세 파악 -> 다음기간을 예측하는 방법
시계열 자료에서 계절변동, 불규칙 변동 제거 -> 추세변동, 순환 변동만 가진 시계열로 변환하는 방법으로도 사용
- 간단하고 쉽게 미래 예측
- 자료의 수가 많고 안정된 패턴을 보이는 경우 : 예측의 품질 높음
- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치 부여
- 시계열 자료에 뚜렷한 추세, 불규칙 변동이 심하지 않은 경우 : 짧은 기간의 평균 사용
불규칙 변동이 심한 경우 : 긴 기간의 평균 사용
- ** 적절한 기간을 사용하는 것이 중요
# 지수평활법
모든 시계열 자료를 사용하여 평균 구함 -> 시간의 흐름에 따라 최근 시계열에 더 많은 가중치 부여 -> 미래 예측
지수평활계수(알파) : 과거로 갈수록 지수 형태로 감소
- 단기간에 발생하는 불규칙변동을 평활하는 방법
- 자료의 수가 많고 안정된 패턴을 보이는 경우 : 예측의 품질 높음 = 이동 평균법과 동일
- 불규칙 변동이 큰 경우 : 지수평활계수 작은값 적용
불규칙 변동이 작은 경우 : 지수 평활 계수 큰 값 적용
- 지수 평활 계수 : 예측오차와 비교하여 예측 오차가 가장 작은 값을 선택하는 것이 바람직 함
- ** 불규칙변동의 영향을 제거하는 효과가 있음, 중기예측 이상에 주로 사용
( 단, 단순지수 평활법인 경우 : 장기 추세나 계절 변동이 포함된 시계열 예측에는 적합 X )
< 시계열 모형 >
# 자기회귀 모형 (AR 모형)
- p 시점 전의 자료가 현재 자료에 영향을 주는 모형
# 이동평균 모형 (MA 모형)
- 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족
# 자기회귀누적이동평균 모형 (ARIMA 모형)
- 비정상시계열 모형
- 차분이나 변환을 통해 AR모형이나 MA 모형, ARMA모형으로 정상화 가능
- 차분할 필요가 없는 모형 (d = 0) -> ARMA 모형, 정상성 만족
# 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀분석적인 방법 주로 사용
1) 경향(추세)요인 : 장기적으로 변해가는 큰 흐름, 자료가 오르거나 내리는 추세, 선형, 이차식 형태, 지수적 형태 등
2) 계절 요인 : 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화
3) 순환 요인 : 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
4) 불규칙 요인 : 불규칙하게 변동하는 급격한 환경변화, 천재 지변
< 다차원 척도법 >
- 객체간 근접성을 시각화하는 통계 기법
- 변수들 측정 -> 개체들 사이의 유사성/비유사성 측정 -> 개체들을 2차원 공간상에 점으로 표현하는 분석 방법
- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
# 목적
- 데이터 속에 잠재해 있는 패턴, 구조 찾아냄
- 소수 차원의 공간에 기하하적으로 표현
- 데이터 축소의 목적으로 다차원 척도법 이용
--> 데이터에 포함되는 정보를 끄집어내기 위해 다차원척도법을 탐색수단으로써 사용
# 방법
- 유클리드 거리행렬 활용
- 부적합도 기준 : STRESS, S-STRESS => 최소로 하는 반복알고리즘 사용, 일정 수준 이하가 될때 최종적으로 적합한 모형 제시
< 다차원척도법 종류 >
# 계량적 MDS
- 구간척도나 비율척도인 경우 활용
- 각 개체들간의 유클리드 거리 행렬 계산 -> 개체들간의 비유사성 S를 공간에 표현
# 비계량적 MDS
- 순서척도인 경우 활용
- 개체들간의 거리가 순서로 주어진 경우 : 손서척도를 거리의 속성과 같도록 변환하여 거리 생성 후 적용
< 주성분 분석 >
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 첫번째 주성분 : 전체 변동을 가장 많이 설명하게
- 두번째 주성분 : 첫번째 주성분과는 상관성이 없어서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보 손실 없이 가장 많이 설명하게
# 목적
- 여러 변수들 간에 상관관계, 연관성 이용 -> 소수의 주성분으로 차원을 축소 -> 데이터를 이해하기 쉽고, 관리하기 쉽게
- 다중공선성이 존재하는 경우 : 상관성이 없는 주성분으로 변수들 축소 -> 모형 개발
- 회귀 분석 등의 모형 개발시 다중 공선성이 존재할 경우 문제 발생
- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집 분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있음
< 주성분 목적 VS 요인 분석 >
# 요인 분석
- 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
# 주성분목적과 요인 분석 공통점 : 모두 데이터를 축소하는 데 활용
# 차이점
|
요인 분석 |
주성분분석 |
생성된 변수의 수 |
몇 개라고 지정 없이 (마음대로) |
제1주성분, 제2주성분, 제3주성분 (4개 이상 X) |
생성된 변수의 이름 |
분석자가 요인의 이름 명명 |
제1주성분, 제2주성분 |
생성된 변수들간의 관계 |
변수들끼리 대등한 관계 단, 분류/예측에 그 다음 단계로 사용 -> 중요성의 의미 부여 |
제 1주성분이 중요, 그 다음 제 2주성분 중요 |
분석 방법의 의미 |
목표변수 고려 X 데이터가 주어지면 변수들을 비슷한 |
목표 변수 고려 O 목표 변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분을 찾아냄 |
< 주성분의 선택법 >
- 누적 기여율이 85% 이상이면 주성분의 수로 결정할 수 있음
- scree plot 활용 -> 고유값이 수평을 유지하기 전 단계로 주성분의 수 선택
'ADsP > 3장' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 03 - 5장 _2 정형 데이터마이닝 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 03 - 5장 _1 정형 데이터마이닝 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트 (0) | 2021.03.27 |