# 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등
< 통계자료의 획득 방법 >
# 총 조사/전수조사
- 대상 집단 모두를 조사 -> 많은 비용과 시간 소요
- 특별한 경우를 제외하고는 사용 X
ex) 인구 주택 총 조사
# 표본 조사
- 대부분의 설문조사: 표본조사로 진행
- 모집단에서 샘플을 추출하여 진행하는 조사
모집단 : 조사하고자 하는 대상 집단 전체
원소 : 모집단을 구성하는 체계
표본 : 조사하기 위해 추출한 모집단의 일부 원소
모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보
# 표본 추출 방법
- 표본 조사 : 모집단을 대표할 수 있는 표본 추출 --> 표본 추출 방법에 따라 분석 결과의 해석에 차이 발생
[N개의 모집단에서 n개의 표본을 추출하는 경우]
1) 단순 랜덤 추출법 : 각 샘플에 번호 부여하여 임의의 n개를 추출하는 방법, 각 샘플이 선택될 확률 동일 ex) 비 복원, 복원 추출
2) 계통 추출법 : 단순랜덤 추출법의 변형된 방식, k개의 구간의 임의의 위치에서 매 k번째 항목을 추출하는 방법
3) 집락 추출법 : 군집을 구분하고 군집 별로 단순 랜덤 추출법 수행 -> 모든 자료를 활용, 샘플링하는 방법 ex) 지역 표본 추출, 다단계 표본추출
4) 층화 추출법 : 유사한 원소끼리 몇 개의 층을 나누어 각 층에서 랜덤 추출하는 방법 ex) 비례층화 추출법, 불비례 층화 추출법
# 측정
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
1) 명목 척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 - 질적 척도
2) 순서 척도 : 측정 대상의 서열관계 관측하는 척도 - 질적 척도
3) 구간(등간) 척도 : 측정 대상이 갖고 있는 속성의 양 측정, 간격이 의미가 있는 자료, 절대적 크기 측정 X, 곱하기 나누기 X - 양적 척도
4) 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적인 기준인 0 존재, 사칙연산 가능, 제일 많은 정보를 가치는 척도 - 양적 척도
< 통계 분석 >
정의 : 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정
# 기술통계
- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정 배제 -> 객관적인 데이터로 나타내는 통계분석 방법론
- Sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것 의미
# 통계적 추론(추측 통계)
- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것, Sample을 통해 모집단 추정하는 것 의미
1) 모수 추정 : 표본집단으로부터 모집단의 특성인 모수 분석 -> 모집단 추론 [소수의 분석 -> 다수 예측]
2) 가설검정 : 가설 설정 후 가설이 옳은지 그른지에 대한 채택 여부 결정
3) 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용 ex) 회귀분석, 시계열 분석
< 확률 분포 >
# 이산형 확률 변수
- 베르누이 확률분포
- 이항 분포
- 기하 분포
- 다항 분포
- 포아송 분포
# 연속형 확률변수
- 균일 분포
- 정규분포
- 지수 분포
- t-분포
: 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 활용
: 표본 30개 이상 -> 표본 정규분포와 유사한 분포
- 카이제곱 분포
: 두 집단의 동질성 검정에 활용
: 모평균과 모 분산이 알려지지 않은 모집단의 모분 선에 대한 가설 검정에 사용
- F-분포
: 두 집단 간 분산의 동일성 검정에 사용
: 항상 양의 값, 자유도 2개, 자유도 ↑ ~ 정규분포에 가까워짐
< 추정과 가설검정 >
# 추정
1. 확률 표본
- 확률분포는 분포를 결정하는 평균, 분산, 등의 모수를 가지고 있음
- 특정한 확률분포로부터 독립적으로 반복해 표본 추출
- 각 관찰 값들은 서로 독립적이며 동일한 분포 가짐
2. 추정
- 표본으로부터 미지의 모수 추측
1) 점추 정 : 모수가 특정한 값일 것이라고 추정. 표본의 평균, 중위수, 최빈값 사용
[ 불편성, 효율성, 일치성, 충족성 ]
2) 구간 추정 : 모수가 특정한 구간에 있을 것이라고 선언. 전제와 가능성의 크기 주어져야 함
# 가설검정
- 모집단에 대한 어떤 가설을 설정한 뒤 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법
1. 귀무가설(H0) : 비교하는 값과 차이가 없다, 동일하다
2. 대립 가설(H1) : 뚜렷한 증거가 있을 때 주장하는 가설
3. 검정 통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
4. 유의 수준 : 귀무가설을 기각하게 되는 확률의 크기
5. 기각역 : 귀무가설이 옳다는 전제 하에서 구한 검정 통계량의 분포에서 확률이 유의수준 α 인 부분
6. p-vlaue : 우리가 내린 판정이 잘못되었을 때 실제의 확률
|
H0가 사실이라고 판정 |
H0가 사실이 아니라고 판정 |
H0가 사실임 |
옳은 결정 |
제1종 오류 |
H0가 사실이 아님 |
제2종 오류 |
옳은 결정 |
< 비모수 검정 >
|
모수적 방법 |
비모수적 방법 |
가설의 설정 |
가설 설정 |
가정된 분포 X -> 분포의 형태 설정 |
검정 방법 |
표본 평균, 표본 분산 이용 |
관측값의 절대적 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 이용 |
|
자료가 추출된 모집단의 분포에 대한 제약 X 자료수 (30개 미만), 서열관계 나타내는 경우 |
|
부호 검정, 월콕슨의 순위합 검정, 부호 순위합 검정, 만-위트니의 U 검정, 런검정, 스피어만의 순위 상관계수 |
< 기술 통계 >
- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것
- 자료를 요약하는 기초적 통계 의미
- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산 --> 데이터에 대한 이해와 통찰력 얻기에 유리
# 통계량에 의한 자료 정리
1. 중심 위치의 측도
- 자료, 표본 평균, 중앙값
2. 산포의 측도
- 분산, 표준편차, 사분위수, 백분위수, 변동 계수, 평균의 표준오차
3. 분포의 형태에 관한 측도
1) 왜도
- 분포의 비대칭 정도
- m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포, 작은 값으로 몰려 있음
- m3 = 0 : 좌우가 대칭인 분포
- m3 < 0 : 왼쪽으로 긴 꼬리를 갖는 분포, 큰 값으로 몰려 있음
2) 첨도
- 분포의 뾰족한 정도
- m4 > 0 : 표준 정규분포보다 더 뾰족함
- m4 = 0 : 표준 정규분포와 유사한 뾰족함
- m4 < 0 : 표준 정규분포보다 덜 뾰족함
# 그래프를 이용한 자료 정리
막대그래프 |
히스토그램 |
범주형으로 구분된 데이터 |
연속형으로 표시된 데이터 |
순서 변경 가능 |
순서 변경 X, 막대의 간격 X |
* 히스토그램 생성
- 계급의 수 : 2**k >= n을 만족하는 최소의 정수
- 계급의 간격 : (최댓값 - 최솟값)/계급수
< 인과 관계의 이해 >
# 종속변수 (반응 변수, y) # 독립변수 (설명변수, x)
- 다른 변수의 영향을 받는 변수 - 영향을 주는 변수
# 산점도
- 공분산의 부호만으로 두 변수 간의 방향성 확인 가능
- 공분산의 부호 + -> 양의 방향성, - -> 음의 방향성
< 상관분석 >
두 변수 간의 관계의 정도를 알아보기 위한 분석 방법
# 상관분석의 유형
구분 |
피어슨 |
스피어만 |
개요 |
* 등간 척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 |
* 서열 척도인 두 변수들의 |
특징 |
*연속형 변수, 정규성 가정 * 대부분 많이 사용 |
* 순서형 변수, 비모수적 방법 * 순위를 기준으로 상관관계 측정 |
상관계수 |
* 피어슨 r(적률 상관계수) |
* 순위 상관계수(로우) |
'📚 License study' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜 (0) | 2021.03.27 |