ADsP 데이터 분석 준전문가 PART 03 _ 요약 및 정리
·
ADsP
1. 데이터 마이닝 단계 : 목적 정의 -> 데이터 준비 -> 데이터 가공 -> 기법 적용(데이터 가공 : 모델링 목적에 따라 목적 변수 정의, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계)2. 지도학습: 로지스틱 회귀분석, 인공신경망, 의사결정 나무 비지도학습 : SOM, 군집분석, 장바구니 분석, OLAP3. 과대적합과대 적합 : 생성된 모델이 훈련 데이터에 너무 최적화되어 있어 작은 변화에 민감하게 반응, 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생, 변수가 너무 많아 모형이 복잡할 때 생성, 과대 적합이 발생할 것으로 예상되면 학습 종료 -> 업데이터 과정 반복 -> 과대 적합 방지4. 모형 학습과 평가를 동일한 데이터셋에서 진행하면 과적합 가능성5..
ADsP 데이터 분석 준전문가 PART 03 - 4장_오답노트
·
ADsP
[ 통계적 추론 ]- 구간 추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정, 실제 모집단의 모수는 신뢰구간에 포함되지 않아도 됨 --> 포함되면 신뢰구간이 평균의 참값을 포함하는구나~​[ 표본조사 ]표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로써 발생하는 오차표본 편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차 : 확률화에 의해 최소화하거나 없앨 수 있음( 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차 의미 )( 확률 표본 : 확률화 절차에 의해 추출된 표본 )비표본 오차 : 표본오차를 제외한 모든 오차, 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모드 ㄴ오차 의미 : 조사 대상이..
ADsP 데이터 분석 준전문가 PART 02 - 오답노트
·
ADsP
1. 분석 기획 고려사항 중 장애요소: 비용 대비 효과의 적정한 비용, 분석 모형의 안정적 성능 확보, 조직 역량으로 내제화를 위한 변화 관리 ( 복잡하고 정교한 모형 X )​2. 비즈니스 모델 컨버스의 채널에 대한 기능: 해당 고객에게 접근하는 유통 채널 공급, 고객에게 밸류 프로포지션 전달, 기업이 제공하는 상품이나 서비스에 대한 고객의 이해 높여줌 (A/S 제공 X)​3. 분석 프로젝트 관리: 데이터 분석 모델의 품질 평가 -> SPICE: 분석 프로젝트 관리는 KSA ISO 21500:2013를 가이드로 활용: 분석 프로젝트의 최종 산출물이 보고서인지, 시스템인지에 따라 프로젝트 관리에 차이: 분석 범위가 빈번하게 변경 -> 일정 계획보다 더 많은 시간이 소요될 수 있음 => Time Boxing..
ADsP 데이터 분석 준전문가 PART 01 - 오답노트
·
ADsP
1. 표출화 : 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정​2. 신용평가 : 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야​3. 사물인터넷 : 데이터화 현상에 큰 영향을 미치는 기술, 모든 것의 데이터화​4. SCM : '공급망 관리', 기업이 외부 공급 업체 또는 제휴 업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것 ex) 자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성됨​​5. 빅데이터 활용 사례 - 구글 : 실시간 자동 번역 시스템- 넷플릭스 : 이용자의 콘텐츠 기호를 파악하여 새로운 영화 추천- 월마트 : 고객 소비 패턴 분석하는 월마트랩- 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 수요 예측​6. 데이터..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _3 정형 데이터마이닝
·
ADsP
- 각 객체의 유사성을 측정 -> 유사성이 높은 대상 집단을 분류 -> 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성 규명하는 분석 방법- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것- 결과는 구체적인 군집분석 방법에 따라 차이남- 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도- 마케팅 조사에서 소비자들의 상품 구매행동이나 life style에 따른 소비자군을 분류하여 시장 전략 수립 등에 활용​# 특징1) 요인 분석과의 차이점- 요인분석 : 유사한 변수를 함께 묶어주는 것​2) 판별분석과의 차이점- 판별분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당하는 것이 목적​군집 분석에서는 관측 데이터..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _2 정형 데이터마이닝
·
ADsP
- 인간 뇌를 기반으로 한 추론 모델- 뉴런 : 기본적인 정보 처리 단위# 역전파 알고리즘 : 비선형성의 한계점 발생 -XOR 문제를 풀지 못하는 한계 극복!​# 인간 뇌의 특징- 100억 개의 뉴런, 6조 개의 시냅스의 결합체- 인간의 뇌 : 현존하는 어떤 컴퓨터보다 빠르고, 복잡하고, 비선형적, 병렬적인 정보 시스템과 같음- 적응성에 따라 '잘못된 답' -> 뉴런들 사이의 연결 약화, '올바른 답' -> 연결 강화​# 인간의 뇌 모델링- 뉴런은 가중치가 있는 링크들로 연결- 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성​# 인공 신경망의 학습- 신경망: 가중치를 반복적으로 조정하며 학습- 뉴런 : 링크로 연결, 각 링크 : 수치적인 가중치- 인공신경망은 신경망의 가중치를 초기화 -> ..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _1 정형 데이터마이닝
·
ADsP
대용량 데이터에서 의미 있는 패턴 파악, 예측 -> 의사결정에 활용하는 방법​# 통계 분석과의 차이점- 통계 분석 : 가설이나 가정에 따른 분석이나 검증- 데이터마이닝 : 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 찾아내는 방법을 통칭​# 종류정보를 찾는 방법론에 따른 종류분석대상, 활용목적, 표현방법에 따른 분류* 인공지능 의사결정나무K-평균 군집화* 연관분석* 회귀분석* 로짓 분석* 최근접 이웃* 시각화 분석* 분류* 군집화* 포케스팅# 데이터 마이닝의 최근 환경- 데이터 마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능- 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움 없음- 분석 결과의 품질은 분석가의 역량과 경험에 따라 차이 남 ->..
ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석
·
ADsP
- 시간의 흐름에 따라 관찰된 값들- 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악- 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것- 시계열 데이터의 모델링 : 탐색목적, 예측목적- 짧은 기간동안의 주기적인 패턴 -> 계절변동- 잡음: 무작위한 변동, 원인 알려지지 X​# 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료​* 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화* 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화* 공분산 : 단지 시차에만 의존, 실제 특정 시..
ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석
·
ADsP
- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법- 변수들 사이의 인과관계 밝히고 관심 있는 변수 예측, 추론하기 위한 분석 방법​* 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수* 영향을 주는 변수 x : 설명변수, 독립변수, 예측 변수​# 선형 회귀분석의 가정1) 선형성 : 입력 변수와 출력 변수의 관계가 선형2) 등분 산성 : 오차의 분산(잔차) --> 입력 변수와 무관하게 일정3) 독립성 : 입력변수와 오차는 관련 X4) 비상 관성 : 오차들끼리 상관이 없음5) 정상성(정규성)​​ : 오차의 분포가 정규분포를 따름 [Q-Q plot, Kolmogolov-Smirnov 검정, Sharprio-Wilk 검정 활용]​​# 회귀분석에서의 검토사항 - 회귀계수들..
ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석
·
ADsP
# 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등​# 총 조사/전수조사- 대상 집단 모두를 조사 -> 많은 비용과 시간 소요- 특별한 경우를 제외하고는 사용 X ex) 인구 주택 총 조사​# 표본 조사- 대부분의 설문조사: 표본조사로 진행- 모집단에서 샘플을 추출하여 진행하는 조사모집단 : 조사하고자 하는 대상 집단 전체원소 : 모집단을 구성하는 체계표본 : 조사하기 위해 추출한 모집단의 일부 원소모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보​# 표본 추출 방법- 표본 조사 : 모집단을 대표할 수 있는 표본 추출 --> 표본 추출 방법에 따라 분석 결..