본문 바로가기

ADsP/오답노트

ADsP 데이터 분석 준전문가 PART 03 - 4장_오답노트

반응형

[ 통계적 추론 ]

- 구간 추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정, 실제 모집단의 모수는 신뢰구간에 포함되지 않아도 됨 --> 포함되면 신뢰구간이 평균의 참값을 포함하는구나~

[ 표본조사 ]

표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로써 발생하는 오차

표본 편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차

: 확률화에 의해 최소화하거나 없앨 수 있음

( 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차 의미 )

( 확률 표본 : 확률화 절차에 의해 추출된 표본 )

비표본 오차 : 표본오차를 제외한 모든 오차, 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모드 ㄴ오차 의미

: 조사 대상이 증가하면 오차 증가

[ 모 분산의 추론 ]

- 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산의 추론 대상

- 정규 모집단으로부터 n개의 단순 임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱 분포를 따름

- 표본에 의한 분산 비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정 통계량은 F분포를 따름

- 모집단이 정규 분포를 따르지 않더라도 중심 극한 정리를 통해 정규 모집단으로부터의 모분 선에 대한 검정 유사하게 실행 가능

* t-분포 : 두 집단의 평균

* 카이제곱 분포 : 두 집단 간의 동질성 검정

* F-분포 : 두 집단의 분산의 동일성 검정

[ 모집단 분포의 개형 파악 방법 ]

히스토그램 : 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프

: 수평축 위에 계급 구간을 표시하고 그 위로 각 계급의 상대 도수에 비례하는 넓이의 직사각형을 그린 것\

줄기잎 그림 : 각 데이터의 점들을 구간 단위로 요약하는 방법, 계산량이 많지 않음

산점도 : 두 특성의 값이 연속적인 수인 경우 표본 자료를 그래프로 나타내는 방법

: 각 이차원 자료에 대하여 좌표가 (특성 1의 값, 특성 2의 값)인 점을 좌표 평면 위에 찍은 것

파레토그림 : 명목형 자료에서 중요한 소수를 찾는데 유용

[ 데이터의 정규성 확인하기 위한 방법 ]

- 히스토그램, Q-Q plot, Shapiro-Wilks test

[ 주성분분석 ]

- 전체 변이 공헌도 방법은 전체 변이의 70~90% 정도가 되도록 주성분의 수 결정

- 평균 고유값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정하는 것 (제거 X)

- Scree graph를 이용하는 방법 : 추세가 원만해지는 지점에서 1을 뺀 개수 -> 주성분의 개수

: 고유값이 수평을 유지하기 전 단계 -> 주성분의 개수

- 주성분은 주성분을 구성하는 변수들의 계수 구조를 파악하여 적절하게 해석되어야 함, 명확하게 정의된 해석 방법이 있는 것은 아님

[ 시계열 분석 ]

시간 그래프 그리기 -> 추세와 계절성 제거 -> 잔차 예측 -> 잔차에 대한 모델 적합하기 -> 예측된 잔차에 추세와 계절성을 더하여 미래 예측

[ lasso 회귀 모형 ]

- 모형에 포함 된 회귀계수들의 절댓값의 크기가 클수록 penalty를 부여하는 방식

- 자동적으로 변수 선택을 하는 효과

- Lambda 값으로 penalty의 정도를 조정

- L1 Penalty 사용

[ 교차분석 ]

- 범수의 관찰 도수에 비교될 수 있는 기대 도수 계산

- 교차분석 : 두 문항이 모두 범주형 변수일 때 사용 -> 두 변수 간 관계를 보기 위해 실시

- 교차분석 : 교차 표를 작성, 교차 빈도를 집계, 두 변수들 간의 독립성 검정 가능

- 기대 빈도가 5 미만인 셀의 비율이 20% 넘으면 카이제곱 분포에 근사 X -> 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 사용

 

반응형