본문 바로가기

ADsP

(19)
ADsP 데이터 분석 준전문가 PART 03 _ 요약 및 정리 1. 데이터 마이닝 단계 : 목적 정의 -> 데이터 준비 -> 데이터 가공 -> 기법 적용 (데이터 가공 : 모델링 목적에 따라 목적 변수 정의, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계) 2. 지도학습: 로지스틱 회귀분석, 인공신경망, 의사결정 나무 비지도학습 : SOM, 군집분석, 장바구니 분석, OLAP 3. 과대적합과대 적합 : 생성된 모델이 훈련 데이터에 너무 최적화되어 있어 작은 변화에 민감하게 반응, 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생, 변수가 너무 많아 모형이 복잡할 때 생성, 과대 적합이 발생할 것으로 예상되면 학습 종료 -> 업데이터 과정 반복 -> 과대 적합 방지 4. 모형 학습과 평가를 동일한 데이터셋에서 진행하면 과적합 가..
ADsP 데이터 분석 준전문가 PART 03 - 4장_오답노트 [ 통계적 추론 ] - 구간 추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정, 실제 모집단의 모수는 신뢰구간에 포함되지 않아도 됨 --> 포함되면 신뢰구간이 평균의 참값을 포함하는구나~ ​ [ 표본조사 ] 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로써 발생하는 오차 표본 편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차 : 확률화에 의해 최소화하거나 없앨 수 있음 ( 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차 의미 ) ( 확률 표본 : 확률화 절차에 의해 추출된 표본 ) 비표본 오차 : 표본오차를 제외한 모든 오차, 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모드 ㄴ오차 의미 ..
ADsP 데이터 분석 준전문가 PART 02 - 오답노트 1. 분석 기획 고려사항 중 장애요소 : 비용 대비 효과의 적정한 비용, 분석 모형의 안정적 성능 확보, 조직 역량으로 내제화를 위한 변화 관리 ( 복잡하고 정교한 모형 X ) ​ 2. 비즈니스 모델 컨버스의 채널에 대한 기능 : 해당 고객에게 접근하는 유통 채널 공급, 고객에게 밸류 프로포지션 전달, 기업이 제공하는 상품이나 서비스에 대한 고객의 이해 높여줌 (A/S 제공 X) ​ 3. 분석 프로젝트 관리 : 데이터 분석 모델의 품질 평가 -> SPICE : 분석 프로젝트 관리는 KSA ISO 21500:2013를 가이드로 활용 : 분석 프로젝트의 최종 산출물이 보고서인지, 시스템인지에 따라 프로젝트 관리에 차이 : 분석 범위가 빈번하게 변경 -> 일정 계획보다 더 많은 시간이 소요될 수 있음 => T..
ADsP 데이터 분석 준전문가 PART 01 - 오답노트 1. 표출화 : 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정 ​ 2. 신용평가 : 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야 ​ 3. 사물인터넷 : 데이터화 현상에 큰 영향을 미치는 기술, 모든 것의 데이터화 ​ 4. SCM : '공급망 관리', 기업이 외부 공급 업체 또는 제휴 업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것 ex) 자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성됨 ​ ​ 5. 빅데이터 활용 사례 - 구글 : 실시간 자동 번역 시스템 - 넷플릭스 : 이용자의 콘텐츠 기호를 파악하여 새로운 영화 추천 - 월마트 : 고객 소비 패턴 분석하는 월마트랩 - 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 ..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _3 정형 데이터마이닝 - 각 객체의 유사성을 측정 -> 유사성이 높은 대상 집단을 분류 -> 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성 규명하는 분석 방법 - 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 - 결과는 구체적인 군집분석 방법에 따라 차이남 - 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도 - 마케팅 조사에서 소비자들의 상품 구매행동이나 life style에 따른 소비자군을 분류하여 시장 전략 수립 등에 활용 ​ # 특징 1) 요인 분석과의 차이점 - 요인분석 : 유사한 변수를 함께 묶어주는 것 ​ 2) 판별분석과의 차이점 - 판별분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당하는 ..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _2 정형 데이터마이닝 - 인간 뇌를 기반으로 한 추론 모델 - 뉴런 : 기본적인 정보 처리 단위 # 역전파 알고리즘 : 비선형성의 한계점 발생 -XOR 문제를 풀지 못하는 한계 극복! ​ # 인간 뇌의 특징 - 100억 개의 뉴런, 6조 개의 시냅스의 결합체 - 인간의 뇌 : 현존하는 어떤 컴퓨터보다 빠르고, 복잡하고, 비선형적, 병렬적인 정보 시스템과 같음 - 적응성에 따라 '잘못된 답' -> 뉴런들 사이의 연결 약화, '올바른 답' -> 연결 강화 ​ # 인간의 뇌 모델링 - 뉴런은 가중치가 있는 링크들로 연결 - 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성 ​ # 인공 신경망의 학습 - 신경망: 가중치를 반복적으로 조정하며 학습 - 뉴런 : 링크로 연결, 각 링크 : 수치적인 가..
ADsP 데이터 분석 준전문가 PART 03 - 5장 _1 정형 데이터마이닝 대용량 데이터에서 의미 있는 패턴 파악, 예측 -> 의사결정에 활용하는 방법 ​ # 통계 분석과의 차이점 - 통계 분석 : 가설이나 가정에 따른 분석이나 검증 - 데이터마이닝 : 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 찾아내는 방법을 통칭 ​ # 종류 정보를 찾는 방법론에 따른 종류 분석대상, 활용목적, 표현방법에 따른 분류 * 인공지능 의사결정나무 K-평균 군집화 * 연관분석 * 회귀분석 * 로짓 분석 * 최근접 이웃 * 시각화 분석 * 분류 * 군집화 * 포케스팅 # 데이터 마이닝의 최근 환경 - 데이터 마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능 - 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움 없음 - ..
ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석 - 시간의 흐름에 따라 관찰된 값들 - 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악 - 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것 - 시계열 데이터의 모델링 : 탐색목적, 예측목적 - 짧은 기간동안의 주기적인 패턴 -> 계절변동 - 잡음: 무작위한 변동, 원인 알려지지 X ​ # 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료 ​ * 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화 * 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화 * 공분산..

반응형