본문 바로가기

프로그래밍

(18)
ADsP 데이터 분석 준전문가 PART 03 - 4장_3 통계 분석 - 시간의 흐름에 따라 관찰된 값들 - 시계열 데이터의 분석을 통해 미래의 값 예측 -> 경향, 주기, 계절성 파악 - 목적: 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것 - 시계열 데이터의 모델링 : 탐색목적, 예측목적 - 짧은 기간동안의 주기적인 패턴 -> 계절변동 - 잡음: 무작위한 변동, 원인 알려지지 X ​ # 비정상 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료 ​ * 평균이 일정할 경우 : 모든 시점에 대해 일정한 평균 ! => 그렇지 않은 경우 차분(difference)을 통해 정상화 * 분산이 일정 : 시점에 의존하지 않고 일정 ! => 그렇지 않을 경우 변환(Transformaion)을 통해 정상화 * 공분산..
ADsP 데이터 분석 준전문가 PART 03 - 4장_2 통계 분석 - 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 변수들 사이의 인과관계 밝히고 관심 있는 변수 예측, 추론하기 위한 분석 방법 ​ * 영향을 받는 변수 y : 반응변수, 종속변수, 결과변수 * 영향을 주는 변수 x : 설명변수, 독립변수, 예측 변수 ​ # 선형 회귀분석의 가정 1) 선형성 : 입력 변수와 출력 변수의 관계가 선형 2) 등분 산성 : 오차의 분산(잔차) --> 입력 변수와 무관하게 일정 3) 독립성 : 입력변수와 오차는 관련 X 4) 비상 관성 : 오차들끼리 상관이 없음 5) 정상성(정규성)​​ : 오차의 분포가 정규분포를 따름 [Q-Q plot, Kolmogolov-Smirnov 검정, Sharprio-Wilk 검정 활용] ​ ​..
ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석 # 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등 ​ # 총 조사/전수조사 - 대상 집단 모두를 조사 -> 많은 비용과 시간 소요 - 특별한 경우를 제외하고는 사용 X ex) 인구 주택 총 조사 ​ # 표본 조사 - 대부분의 설문조사: 표본조사로 진행 - 모집단에서 샘플을 추출하여 진행하는 조사 모집단 : 조사하고자 하는 대상 집단 전체 원소 : 모집단을 구성하는 체계 표본 : 조사하기 위해 추출한 모집단의 일부 원소 모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보 ​ # 표본 추출 방법 - 표본 조사 : 모집단을 대표할 수..
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트 - 데이터 웨어하우스와 사용자 사이의 중간층에 위치 - 데이터마트 내 데이터는 대부분 데이터웨어하우스에서 복제. 자체적으로 수집될 수 있고, 관계형 DB, 다차원 DB를 이용하여 구축할 수도 - 고객 데이터 마트 구축 : CRM(고객관계 관리) 관련 업무 중에서 핵심 - 동일한 데이터 셋 사용할 경우 최신 분석 기법을 이용하면 분석가의 역량 무의미 -> 데이터마트를 어떻게 구축하느냐에 따라 분석 효과 크게 차이 ​ # 요약변수 - 수집된 정보를 분석에 맞게 종합한 변수 - 총 구매 금액, 금액, 횟수, 구매 여부 등 데이터 분석을 위해 만들어지는 변수 - 재활용성 ↑ - 단점 : 얼마 이상이면 구매하더라도 기준값의 의미 해석 애매 --> 연속형 변수를 그룹핑해 사용 [ 위클리 쇼퍼, 상..
ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초 # R의 탄생 R : 오픈소스 프로그램. 통계, 데이터 마이닝과 그래프를 위한 언어 - 다양한 최신 통계 분석과 마이닝 기능 제공 ​ # R의 특징 - 세계적으로 많은 사용자들이 다양한 예제 공유 - 많은 패키지 수시로 업데이트 - 상용 프로그램과 대등하거나 월등함 - 각 세션마다 시스템 데이터 셋 저장 -> 매번 데이터 로딩할 필요 X, 명령어 스토리 저장 가능 - 윈도우, 맥, 리눅스 운영체제에서 사용 가능 - S 통계 언어를 기반으로 구현 - 객체지향언어, 함수형 언어 (병렬 프로그래밍) - 래틀(Rattle) : 업그레이드가 제대로 되지 않으면 통합성에 문제 발생 ​ print - 출력 ls, ls.str - 변수 목록 보기 rm - 변수 삭제 c ..
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜 - 일반적인 ISP 방법론 활용 : 분석 과제 빠짐없이 도출 -> 과제의 우선순위 결정 -> 단기 및 중. 장기로 나눠 계획 수립 ​ # 수행 과제 도출 및 우선순위 평가 [ 분석 과제 도출 -> 우선 순위 평가 -> 우선순위 정련 ] - 업무별 도출된 분석 과제를 우선순위 평가 기준에 따라 평가한 뒤, 과제 수행의 선. 후행 관계를 고려하여 순위 조정 -> 최종 확정 ​ # IT 프로젝트 우선순위 평가 예시 1. 전략적 중요도 - 전략적 필요성 - 시급성 2. 실행용이성 - 투자 용이성 - 기술 용이성 ​ # ROI 관점에서 빅데이터의 핵심 특징 - 3V : 빨리 처리하여 결과를 도출하는지에 초점 => 난이도, 투자비용 요소 - 4V : 가치를 창출한다는 의미 => 시급성, 비즈..
ADsP 데이터 분석 준전문가 PART 02 - 1장_2 데이터 분석 기획의 이해 # 빅데이터 분석의 계층적 프로세스 1) 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성됨 2) 태스크 : 각 단계는 여러 개의 태스크로 구성됨 3) 스탭 : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력 잘로 구성된 단위 프로세스 ​ # 빅데이터 분석 방법론 [ 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개 ] 1) 분석기획 - 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획을 수립하는 단계 - 비즈니스 이해 및 범위 설정 > 프로젝트 정의 및 계획 수립(프로젝트 범위 정의서 SOW) > 프로젝트 위험 계획 수립(회피, 전이, 완화, 수용) 2) 데이터 준비 - 비즈니스 요구사항과 데이터 분석..
ADsP 데이터 분석 준전문가 PART 02 - 1장_1 데이터 분석 기획의 이해 # 분석 기획 : 실제 분석을 수행하기에 앞서 분석을 수행할 과제 정의, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 작업 ​ 분석의 대상 (What) known Un- known 최적화 통찰 known 분석의 방법 해결 발견 Un- known (How) # 과제 중심적인 접근 방식 1차 목표 : Speed&Test 과제의 유형 : Quick&Win 접근 방식 : Problem Solving ​ # 장기적인 마스터플랜 방식 1차 목표 : Accurary&Deploy 과제의 유형 : Long Term View 접근 방식 : Problem Definition ​ * 의미있는 분석을 위해서는 분석 기술, ..

반응형