ADsP/3장

ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석

sujii 2021. 3. 27. 21:46
반응형

# 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등

< 통계자료의 획득 방법 >

# 총 조사/전수조사

- 대상 집단 모두를 조사 -> 많은 비용과 시간 소요

- 특별한 경우를 제외하고는 사용 X

ex) 인구 주택 총 조사

# 표본 조사

- 대부분의 설문조사: 표본조사로 진행

- 모집단에서 샘플을 추출하여 진행하는 조사

모집단 : 조사하고자 하는 대상 집단 전체

원소 : 모집단을 구성하는 체계

표본 : 조사하기 위해 추출한 모집단의 일부 원소

모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보

# 표본 추출 방법

- 표본 조사 : 모집단을 대표할 수 있는 표본 추출 --> 표본 추출 방법에 따라 분석 결과의 해석에 차이 발생

[N개의 모집단에서 n개의 표본을 추출하는 경우]

1) 단순 랜덤 추출법 : 각 샘플에 번호 부여하여 임의의 n개를 추출하는 방법, 각 샘플이 선택될 확률 동일 ex) 비 복원, 복원 추출

2) 계통 추출법 : 단순랜덤 추출법의 변형된 방식, k개의 구간의 임의의 위치에서 매 k번째 항목을 추출하는 방법

3) 집락 추출법 : 군집을 구분하고 군집 별로 단순 랜덤 추출법 수행 -> 모든 자료를 활용, 샘플링하는 방법 ex) 지역 표본 추출, 다단계 표본추출

4) 층화 추출법 : 유사한 원소끼리 몇 개의 층을 나누어 각 층에서 랜덤 추출하는 방법 ex) 비례층화 추출법, 불비례 층화 추출법

# 측정

- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

1) 명목 척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 - 질적 척도

2) 순서 척도 : 측정 대상의 서열관계 관측하는 척도 - 질적 척도

3) 구간(등간) 척도 : 측정 대상이 갖고 있는 속성의 양 측정, 간격이 의미가 있는 자료, 절대적 크기 측정 X, 곱하기 나누기 X - 양적 척도

4) 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적인 기준인 0 존재, 사칙연산 가능, 제일 많은 정보를 가치는 척도 - 양적 척도

< 통계 분석 >

정의 : 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정

# 기술통계

- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정 배제 -> 객관적인 데이터로 나타내는 통계분석 방법론

- Sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것 의미

# 통계적 추론(추측 통계)

- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것, Sample을 통해 모집단 추정하는 것 의미

1) 모수 추정 : 표본집단으로부터 모집단의 특성인 모수 분석 -> 모집단 추론 [소수의 분석 -> 다수 예측]

2) 가설검정 : 가설 설정 후 가설이 옳은지 그른지에 대한 채택 여부 결정

3) 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용 ex) 회귀분석, 시계열 분석

< 확률 분포 >

# 이산형 확률 변수

- 베르누이 확률분포

- 이항 분포

- 기하 분포

- 다항 분포

- 포아송 분포

# 연속형 확률변수

- 균일 분포

- 정규분포

- 지수 분포

- t-분포

: 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 활용

: 표본 30개 이상 -> 표본 정규분포와 유사한 분포

- 카이제곱 분포

: 두 집단의 동질성 검정에 활용

: 모평균과 모 분산이 알려지지 않은 모집단의 모분 선에 대한 가설 검정에 사용

- F-분포

: 두 집단 간 분산의 동일성 검정에 사용

: 항상 양의 값, 자유도 2개, 자유도 ↑ ~ 정규분포에 가까워짐

< 추정과 가설검정 >

# 추정

1. 확률 표본

- 확률분포는 분포를 결정하는 평균, 분산, 등의 모수를 가지고 있음

- 특정한 확률분포로부터 독립적으로 반복해 표본 추출

- 각 관찰 값들은 서로 독립적이며 동일한 분포 가짐

2. 추정

- 표본으로부터 미지의 모수 추측

1) 점추 정 : 모수가 특정한 값일 것이라고 추정. 표본의 평균, 중위수, 최빈값 사용

[ 불편성, 효율성, 일치성, 충족성 ]

2) 구간 추정 : 모수가 특정한 구간에 있을 것이라고 선언. 전제와 가능성의 크기 주어져야 함

# 가설검정

- 모집단에 대한 어떤 가설을 설정한 뒤 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법

1. 귀무가설(H0) : 비교하는 값과 차이가 없다, 동일하다

2. 대립 가설(H1) : 뚜렷한 증거가 있을 때 주장하는 가설

3. 검정 통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

4. 유의 수준 : 귀무가설을 기각하게 되는 확률의 크기

5. 기각역 : 귀무가설이 옳다는 전제 하에서 구한 검정 통계량의 분포에서 확률이 유의수준 α 인 부분

6. p-vlaue : 우리가 내린 판정이 잘못되었을 때 실제의 확률

H0가 사실이라고 판정

H0가 사실이 아니라고 판정

H0가 사실임

옳은 결정

제1종 오류

H0가 사실이 아님

제2종 오류

옳은 결정

< 비모수 검정 >

모수적 방법

비모수적 방법

가설의 설정

가설 설정

가정된 분포 X -> 분포의 형태 설정

검정 방법

표본 평균, 표본 분산 이용

관측값의 절대적 크기에 의존하지 않는 관측값들의 순위나

두 관측값 차이의 부호 이용


자료가 추출된 모집단의 분포에 대한 제약 X

자료수 (30개 미만), 서열관계 나타내는 경우

부호 검정, 월콕슨의 순위합 검정, 부호 순위합 검정,

만-위트니의 U 검정, 런검정, 스피어만의 순위 상관계수

< 기술 통계 >

- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것

- 자료를 요약하는 기초적 통계 의미

- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산 --> 데이터에 대한 이해와 통찰력 얻기에 유리

# 통계량에 의한 자료 정리

1. 중심 위치의 측도

- 자료, 표본 평균, 중앙값

2. 산포의 측도

- 분산, 표준편차, 사분위수, 백분위수, 변동 계수, 평균의 표준오차

3. 분포의 형태에 관한 측도

1) 왜도

- 분포의 비대칭 정도

- m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포, 작은 값으로 몰려 있음

- m3 = 0 : 좌우가 대칭인 분포

- m3 < 0 : 왼쪽으로 긴 꼬리를 갖는 분포, 큰 값으로 몰려 있음

2) 첨도

- 분포의 뾰족한 정도

- m4 > 0 : 표준 정규분포보다 더 뾰족함

- m4 = 0 : 표준 정규분포와 유사한 뾰족함

- m4 < 0 : 표준 정규분포보다 덜 뾰족함

# 그래프를 이용한 자료 정리

막대그래프

히스토그램

범주형으로 구분된 데이터

연속형으로 표시된 데이터

순서 변경 가능

순서 변경 X, 막대의 간격 X

* 히스토그램 생성

- 계급의 수 : 2**k >= n을 만족하는 최소의 정수

- 계급의 간격 : (최댓값 - 최솟값)/계급수

< 인과 관계의 이해 >

# 종속변수 (반응 변수, y) # 독립변수 (설명변수, x)

- 다른 변수의 영향을 받는 변수 - 영향을 주는 변수

# 산점도

- 공분산의 부호만으로 두 변수 간의 방향성 확인 가능

- 공분산의 부호 + -> 양의 방향성, - -> 음의 방향성

< 상관분석 >

두 변수 간의 관계의 정도를 알아보기 위한 분석 방법

# 상관분석의 유형

구분

피어슨

스피어만

개요

* 등간 척도 이상으로 측정된 두 변수들의

상관관계 측정 방식

* 서열 척도인 두 변수들의
상관관계 측정 방식

특징

*연속형 변수, 정규성 가정

* 대부분 많이 사용

* 순서형 변수, 비모수적 방법

* 순위를 기준으로 상관관계 측정

상관계수

* 피어슨 r(적률 상관계수)

* 순위 상관계수(로우)