[ 통계적 추론 ]
- 구간 추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정, 실제 모집단의 모수는 신뢰구간에 포함되지 않아도 됨 --> 포함되면 신뢰구간이 평균의 참값을 포함하는구나~
[ 표본조사 ]
표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로써 발생하는 오차
표본 편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
: 확률화에 의해 최소화하거나 없앨 수 있음
( 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차 의미 )
( 확률 표본 : 확률화 절차에 의해 추출된 표본 )
비표본 오차 : 표본오차를 제외한 모든 오차, 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모드 ㄴ오차 의미
: 조사 대상이 증가하면 오차 증가
[ 모 분산의 추론 ]
- 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산의 추론 대상
- 정규 모집단으로부터 n개의 단순 임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱 분포를 따름
- 표본에 의한 분산 비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정 통계량은 F분포를 따름
- 모집단이 정규 분포를 따르지 않더라도 중심 극한 정리를 통해 정규 모집단으로부터의 모분 선에 대한 검정 유사하게 실행 가능
* t-분포 : 두 집단의 평균
* 카이제곱 분포 : 두 집단 간의 동질성 검정
* F-분포 : 두 집단의 분산의 동일성 검정
[ 모집단 분포의 개형 파악 방법 ]
히스토그램 : 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프
: 수평축 위에 계급 구간을 표시하고 그 위로 각 계급의 상대 도수에 비례하는 넓이의 직사각형을 그린 것\
줄기잎 그림 : 각 데이터의 점들을 구간 단위로 요약하는 방법, 계산량이 많지 않음
산점도 : 두 특성의 값이 연속적인 수인 경우 표본 자료를 그래프로 나타내는 방법
: 각 이차원 자료에 대하여 좌표가 (특성 1의 값, 특성 2의 값)인 점을 좌표 평면 위에 찍은 것
파레토그림 : 명목형 자료에서 중요한 소수를 찾는데 유용
[ 데이터의 정규성 확인하기 위한 방법 ]
- 히스토그램, Q-Q plot, Shapiro-Wilks test
[ 주성분분석 ]
- 전체 변이 공헌도 방법은 전체 변이의 70~90% 정도가 되도록 주성분의 수 결정
- 평균 고유값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정하는 것 (제거 X)
- Scree graph를 이용하는 방법 : 추세가 원만해지는 지점에서 1을 뺀 개수 -> 주성분의 개수
: 고유값이 수평을 유지하기 전 단계 -> 주성분의 개수
- 주성분은 주성분을 구성하는 변수들의 계수 구조를 파악하여 적절하게 해석되어야 함, 명확하게 정의된 해석 방법이 있는 것은 아님
[ 시계열 분석 ]
시간 그래프 그리기 -> 추세와 계절성 제거 -> 잔차 예측 -> 잔차에 대한 모델 적합하기 -> 예측된 잔차에 추세와 계절성을 더하여 미래 예측
[ lasso 회귀 모형 ]
- 모형에 포함 된 회귀계수들의 절댓값의 크기가 클수록 penalty를 부여하는 방식
- 자동적으로 변수 선택을 하는 효과
- Lambda 값으로 penalty의 정도를 조정
- L1 Penalty 사용
[ 교차분석 ]
- 범수의 관찰 도수에 비교될 수 있는 기대 도수 계산
- 교차분석 : 두 문항이 모두 범주형 변수일 때 사용 -> 두 변수 간 관계를 보기 위해 실시
- 교차분석 : 교차 표를 작성, 교차 빈도를 집계, 두 변수들 간의 독립성 검정 가능
- 기대 빈도가 5 미만인 셀의 비율이 20% 넘으면 카이제곱 분포에 근사 X -> 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 사용
'ADsP > 오답노트' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 03 _ 요약 및 정리 (0) | 2021.03.28 |
---|---|
ADsP 데이터 분석 준전문가 PART 02 - 오답노트 (0) | 2021.03.28 |
ADsP 데이터 분석 준전문가 PART 01 - 오답노트 (0) | 2021.03.28 |