본문 바로가기

ADsP/3장

ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석

반응형

< 시계열 자료 >

- 시간의 흐름에 따라 관찰된 값들

- 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악

- 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것

- 시계열 데이터의 모델링 : 탐색목적, 예측목적

- 짧은 기간동안의 주기적인 패턴 -> 계절변동

- 잡음: 무작위한 변동, 원인 알려지지 X

# 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료

* 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화

* 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화

* 공분산 : 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존 X

# 정상 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료

- 어떤 시점에서 평균과 분산, 자기공분산을 측정하더라도 동일한 값 가짐

- 항상 그 평균값으로 회귀하려는 경향 있음, 그 평균값 주변에서의 변동은 대체로 일정한 폭

- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없음

< 시계열자료 분석 방법 >

# 분석 방법

- 수학적 이론 모형 : 회귀분석(계량경제) 방법, Box-Jenkins 방법

- 직관적 방법 : 지수평활법, 시계열분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용

- 장기 예측 : 회귀분석방법 활용

- 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용

# 자료 형태에 따른 분석 방법

1) 일변량 시계열 분석

- 시간(t)을 설명변수로 한 회귀모형주가, 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석

- Box-Jenkins 방법, 지수평활법, 시계열 분해법

2) 다중 시계열 분석

- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등

- 여러개의 시간(t)에 따른 변수들을 활용하는 시계열 분석

# 이동 평균법

과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동 평균 계산 -> 추세 파악 -> 다음기간을 예측하는 방법

시계열 자료에서 계절변동, 불규칙 변동 제거 -> 추세변동, 순환 변동만 가진 시계열로 변환하는 방법으로도 사용

- 간단하고 쉽게 미래 예측

- 자료의 수가 많고 안정된 패턴을 보이는 경우 : 예측의 품질 높음

- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치 부여

- 시계열 자료에 뚜렷한 추세, 불규칙 변동이 심하지 않은 경우 : 짧은 기간의 평균 사용

불규칙 변동이 심한 경우 : 긴 기간의 평균 사용

- ** 적절한 기간을 사용하는 것이 중요

# 지수평활법

모든 시계열 자료를 사용하여 평균 구함 -> 시간의 흐름에 따라 최근 시계열에 더 많은 가중치 부여 -> 미래 예측

지수평활계수(알파) : 과거로 갈수록 지수 형태로 감소

- 단기간에 발생하는 불규칙변동을 평활하는 방법

- 자료의 수가 많고 안정된 패턴을 보이는 경우 : 예측의 품질 높음 = 이동 평균법과 동일

- 불규칙 변동이 큰 경우 : 지수평활계수 작은값 적용

불규칙 변동이 작은 경우 : 지수 평활 계수 큰 값 적용

- 지수 평활 계수 : 예측오차와 비교하여 예측 오차가 가장 작은 값을 선택하는 것이 바람직 함

- ** 불규칙변동의 영향을 제거하는 효과가 있음, 중기예측 이상에 주로 사용

( 단, 단순지수 평활법인 경우 : 장기 추세나 계절 변동이 포함된 시계열 예측에는 적합 X )

< 시계열 모형 >​

# 자기회귀 모형 (AR 모형)

- p 시점 전의 자료가 현재 자료에 영향을 주는 모형

# 이동평균 모형 (MA 모형)

- 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족

# 자기회귀누적이동평균 모형 (ARIMA 모형)

- 비정상시계열 모형

- 차분이나 변환을 통해 AR모형이나 MA 모형, ARMA모형으로 정상화 가능

- 차분할 필요가 없는 모형 (d = 0) -> ARMA 모형, 정상성 만족

# 분해 시계열

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

- 회귀분석적인 방법 주로 사용

1) 경향(추세)요인 : 장기적으로 변해가는 큰 흐름, 자료가 오르거나 내리는 추세, 선형, 이차식 형태, 지수적 형태 등

2) 계절 요인 : 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화

3) 순환 요인 : 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료

4) 불규칙 요인 : 불규칙하게 변동하는 급격한 환경변화, 천재 지변

< 다차원 척도법 >

- 객체간 근접성을 시각화하는 통계 기법

- 변수들 측정 -> 개체들 사이의 유사성/비유사성 측정 -> 개체들을 2차원 공간상에 점으로 표현하는 분석 방법

- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

# 목적

- 데이터 속에 잠재해 있는 패턴, 구조 찾아냄

- 소수 차원의 공간에 기하하적으로 표현

- 데이터 축소의 목적으로 다차원 척도법 이용

--> 데이터에 포함되는 정보를 끄집어내기 위해 다차원척도법을 탐색수단으로써 사용

# 방법

- 유클리드 거리행렬 활용

- 부적합도 기준 : STRESS, S-STRESS => 최소로 하는 반복알고리즘 사용, 일정 수준 이하가 될때 최종적으로 적합한 모형 제시

< 다차원척도법 종류 >

# 계량적 MDS

- 구간척도나 비율척도인 경우 활용

- 각 개체들간의 유클리드 거리 행렬 계산 -> 개체들간의 비유사성 S를 공간에 표현

# 비계량적 MDS

- 순서척도인 경우 활용

- 개체들간의 거리가 순서로 주어진 경우 : 손서척도를 거리의 속성과 같도록 변환하여 거리 생성 후 적용

< 주성분 분석 >

- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

- 첫번째 주성분 : 전체 변동을 가장 많이 설명하게

- 두번째 주성분 : 첫번째 주성분과는 상관성이 없어서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보 손실 없이 가장 많이 설명하게

# 목적

- 여러 변수들 간에 상관관계, 연관성 이용 -> 소수의 주성분으로 차원을 축소 -> 데이터를 이해하기 쉽고, 관리하기 쉽게

- 다중공선성이 존재하는 경우 : 상관성이 없는 주성분으로 변수들 축소 -> 모형 개발

- 회귀 분석 등의 모형 개발시 다중 공선성이 존재할 경우 문제 발생

- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집 분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있음

< 주성분 목적 VS 요인 분석 >

# 요인 분석

- 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법

# 주성분목적과 요인 분석 공통점 : 모두 데이터를 축소하는 데 활용

# 차이점

요인 분석

주성분분석

생성된 변수의 수

몇 개라고 지정 없이 (마음대로)

제1주성분, 제2주성분, 제3주성분 (4개 이상 X)

생성된 변수의 이름

분석자가 요인의 이름 명명

제1주성분, 제2주성분

생성된 변수들간의 관계

변수들끼리 대등한 관계

단, 분류/예측에 그 다음 단계로 사용

-> 중요성의 의미 부여

제 1주성분이 중요, 그 다음 제 2주성분 중요

분석 방법의 의미

목표변수 고려 X

데이터가 주어지면 변수들을 비슷한
성격들로 묶어
새로운 [잠재]변수 생성

목표 변수 고려 O

목표 변수를 잘 예측/분류하기 위하여 원래 변수들의

선형 결합으로 이루어진 몇 개의 주성분을 찾아냄

< 주성분의 선택법 >

- 누적 기여율이 85% 이상이면 주성분의 수로 결정할 수 있음

- scree plot 활용 -> 고유값이 수평을 유지하기 전 단계로 주성분의 수 선택

 

반응형