ADsP/3장 8

ADsP 데이터 분석 준전문가 PART 03 - 5장 _3 정형 데이터마이닝

- 각 객체의 유사성을 측정 -> 유사성이 높은 대상 집단을 분류 -> 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성 규명하는 분석 방법 - 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 - 결과는 구체적인 군집분석 방법에 따라 차이남 - 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도 - 마케팅 조사에서 소비자들의 상품 구매행동이나 life style에 따른 소비자군을 분류하여 시장 전략 수립 등에 활용 ​ # 특징 1) 요인 분석과의 차이점 - 요인분석 : 유사한 변수를 함께 묶어주는 것 ​ 2) 판별분석과의 차이점 - 판별분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당하는 ..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 5장 _2 정형 데이터마이닝

- 인간 뇌를 기반으로 한 추론 모델 - 뉴런 : 기본적인 정보 처리 단위 # 역전파 알고리즘 : 비선형성의 한계점 발생 -XOR 문제를 풀지 못하는 한계 극복! ​ # 인간 뇌의 특징 - 100억 개의 뉴런, 6조 개의 시냅스의 결합체 - 인간의 뇌 : 현존하는 어떤 컴퓨터보다 빠르고, 복잡하고, 비선형적, 병렬적인 정보 시스템과 같음 - 적응성에 따라 '잘못된 답' -> 뉴런들 사이의 연결 약화, '올바른 답' -> 연결 강화 ​ # 인간의 뇌 모델링 - 뉴런은 가중치가 있는 링크들로 연결 - 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성 ​ # 인공 신경망의 학습 - 신경망: 가중치를 반복적으로 조정하며 학습 - 뉴런 : 링크로 연결, 각 링크 : 수치적인 가..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 5장 _1 정형 데이터마이닝

대용량 데이터에서 의미 있는 패턴 파악, 예측 -> 의사결정에 활용하는 방법 ​ # 통계 분석과의 차이점 - 통계 분석 : 가설이나 가정에 따른 분석이나 검증 - 데이터마이닝 : 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 찾아내는 방법을 통칭 ​ # 종류 정보를 찾는 방법론에 따른 종류 분석대상, 활용목적, 표현방법에 따른 분류 * 인공지능 의사결정나무 K-평균 군집화 * 연관분석 * 회귀분석 * 로짓 분석 * 최근접 이웃 * 시각화 분석 * 분류 * 군집화 * 포케스팅 # 데이터 마이닝의 최근 환경 - 데이터 마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능 - 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움 없음 - ..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석

- 시간의 흐름에 따라 관찰된 값들 - 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악 - 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것 - 시계열 데이터의 모델링 : 탐색목적, 예측목적 - 짧은 기간동안의 주기적인 패턴 -> 계절변동 - 잡음: 무작위한 변동, 원인 알려지지 X ​ # 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료 ​ * 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화 * 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화 * 공분산..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석

- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 변수들 사이의 인과관계 밝히고 관심 있는 변수 예측, 추론하기 위한 분석 방법 ​ * 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수 * 영향을 주는 변수 x : 설명변수, 독립변수, 예측 변수 ​ # 선형 회귀분석의 가정 1) 선형성 : 입력 변수와 출력 변수의 관계가 선형 2) 등분 산성 : 오차의 분산(잔차) --> 입력 변수와 무관하게 일정 3) 독립성 : 입력변수와 오차는 관련 X 4) 비상 관성 : 오차들끼리 상관이 없음 5) 정상성(정규성)​​ : 오차의 분포가 정규분포를 따름 [Q-Q plot, Kolmogolov-Smirnov 검정, Sharprio-Wilk 검정 활용] ​ ​..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석

# 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등 ​ # 총 조사/전수조사 - 대상 집단 모두를 조사 -> 많은 비용과 시간 소요 - 특별한 경우를 제외하고는 사용 X ex) 인구 주택 총 조사 ​ # 표본 조사 - 대부분의 설문조사: 표본조사로 진행 - 모집단에서 샘플을 추출하여 진행하는 조사 모집단 : 조사하고자 하는 대상 집단 전체 원소 : 모집단을 구성하는 체계 표본 : 조사하기 위해 추출한 모집단의 일부 원소 모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보 ​ # 표본 추출 방법 - 표본 조사 : 모집단을 대표할 수..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트

- 데이터 웨어하우스와 사용자 사이의 중간층에 위치 - 데이터마트 내 데이터는 대부분 데이터웨어하우스에서 복제. 자체적으로 수집될 수 있고, 관계형 DB, 다차원 DB를 이용하여 구축할 수도 - 고객 데이터 마트 구축 : CRM(고객관계 관리) 관련 업무 중에서 핵심 - 동일한 데이터 셋 사용할 경우 최신 분석 기법을 이용하면 분석가의 역량 무의미 -> 데이터마트를 어떻게 구축하느냐에 따라 분석 효과 크게 차이 ​ # 요약변수 - 수집된 정보를 분석에 맞게 종합한 변수 - 총 구매 금액, 금액, 횟수, 구매 여부 등 데이터 분석을 위해 만들어지는 변수 - 재활용성 ↑ - 단점 : 얼마 이상이면 구매하더라도 기준값의 의미 해석 애매 --> 연속형 변수를 그룹핑해 사용 [ 위클리 쇼퍼, 상..

ADsP/3장 2021.03.27

ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초

# R의 탄생 R : 오픈소스 프로그램. 통계, 데이터 마이닝과 그래프를 위한 언어 - 다양한 최신 통계 분석과 마이닝 기능 제공 ​ # R의 특징 - 세계적으로 많은 사용자들이 다양한 예제 공유 - 많은 패키지 수시로 업데이트 - 상용 프로그램과 대등하거나 월등함 - 각 세션마다 시스템 데이터 셋 저장 -> 매번 데이터 로딩할 필요 X, 명령어 스토리 저장 가능 - 윈도우, 맥, 리눅스 운영체제에서 사용 가능 - S 통계 언어를 기반으로 구현 - 객체지향언어, 함수형 언어 (병렬 프로그래밍) - 래틀(Rattle) : 업그레이드가 제대로 되지 않으면 통합성에 문제 발생 ​ print - 출력 ls, ls.str - 변수 목록 보기 rm - 변수 삭제 c ..

ADsP/3장 2021.03.27