ADsP/오답노트

ADsP 데이터 분석 준전문가 PART 03 _ 요약 및 정리

sujii 2021. 3. 28. 16:33
반응형

1. 데이터 마이닝 단계 : 목적 정의 -> 데이터 준비 -> 데이터 가공 -> 기법 적용

(데이터 가공 : 모델링 목적에 따라 목적 변수 정의, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계)

2. 지도학습: 로지스틱 회귀분석, 인공신경망, 의사결정 나무

비지도학습 : SOM, 군집분석, 장바구니 분석, OLAP

3. 과대적합과대 적합 : 생성된 모델이 훈련 데이터에 너무 최적화되어 있어 작은 변화에 민감하게 반응, 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생, 변수가 너무 많아 모형이 복잡할 때 생성, 과대 적합이 발생할 것으로 예상되면 학습 종료 -> 업데이터 과정 반복 -> 과대 적합 방지

4. 모형 학습과 평가를 동일한 데이터셋에서 진행하면 과적합 가능성

5. 의사결정나무 : 과적합 문제를 해결하기 위해 가지치기 방법, 사례 : 대출 신용평가, 환자 증상 유추, 채무 불이행 가능성 예측

- ID3, C4.5, CART 알고리즘 -> 하향식 기법 사용, 각 진행 단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변숫값 선택

- 엔트로피 : 정보 이론의 개념 기반, 순수성, 단일성 -> 엔트로피 지수 커지면 순수도 낮아짐

- 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음

6. 뿌리마디에서 아래로 내려갈수록 각 마디에서의 불순도 점차 감소

7. 이익도표 % Captured Response : 해당 집단에서 목표 변수의 특정 범주 빈도 / 전체 목표 변수의 특정 범주 빈도 * 100

8. 배깅 -> 붓 스트랩 - 랜덤 복원 추출, 부스팅 -> n개의 가중치, 랜덤 포레스트 -> 배깅보다 더 많은 무작위성

9. 교사학습 -> 앙상블, 회귀분석, 인공 신경망, 비교사학습 -> k-평균 군집화

10. 인공 신경망의 학습 추론 위한 함수 : neuralnet(), 가중치 : 로지스틱 회귀모형에서의 회귀계수와 유사하게 해석

11. softmax 함수 : 출력값이 여러 개, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하는 함수

12. 피드포워드 신경망 : 정보가 전방으로 전달되는 것, 생물학적 신경계에서 나타나는 형태, 딥러닝에서 가장 핵심적인 구조 개념

13. 역전파 알고리즘 : 연결 강도를 갱신하기 위해 예측된 결과와 실제 값의 차이인 에러의 역전파를 통해 가중치를 구하는 데서 시작

14. 뉴런 수가 많으면 과적합, 뉴런 수가 너무 적으면 입력 데이터 충분히 표현 X

15. 신경망 모형 : 변수가 많거나 입출력 변수 간에 복잡한 비선형 관계가 존재할 때 유용, 잡음에 대해서도 민감하게 반응하지 않는다는 장점

: 뉴런은 활성화 함수를 이용해 출력 결정, 입력신호의 가중치 합 계산 -> 임계값과 비교, 입력 변수의 속성에 따라 활성화 함수 선택 x

16. 로지스틱 회귀모형에서 설명 변수가 1개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프 => 역 s자 rmfovm

y의 값 범위를 [0,1]로 조정하기 위해 로짓 함수 사용

17. 계층적 군집 분석 : 최단, 최장, 평균, 와드 [ 평균 연결법 : 계산량 많음 ]

18. 통계적 거리 : 표준화 거리, 마할라노비스 거리

19. k-means 군집 : k개의 초기 중심값 -> 임의로 선택, 이동 가능, 모든 개체가 할당되면 조정 멈춤, 중앙값 ==> PAM, 집단 내 제곱합 그래프

20. 군집분석 : 군집의 개수나 구조에 대한 가정 없이 데이터 사이의 거리 기준으로 군집화 유도, 교차타당성, 군집 간 변동의 크기 차이 , 기준이 밝혀지지 않은 상태에서 유용

21. apriori함수 - 생성된 연관 규칙을 보기 위해 사용되는 함수 : inspect()

22. SOM에서 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는 데 이때 선택된 프로토타입 벡터 => BMU

23. 랜덤 모델과 ㅂ교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프 : 향상도 곡선