ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석
·
ADsP
# 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 ex) 일기예보, 물가/실업률/GNP, 정당 지지도, 의식조사와 사회조사 분석 통계, 임상실험 등​# 총 조사/전수조사- 대상 집단 모두를 조사 -> 많은 비용과 시간 소요- 특별한 경우를 제외하고는 사용 X ex) 인구 주택 총 조사​# 표본 조사- 대부분의 설문조사: 표본조사로 진행- 모집단에서 샘플을 추출하여 진행하는 조사모집단 : 조사하고자 하는 대상 집단 전체원소 : 모집단을 구성하는 체계표본 : 조사하기 위해 추출한 모집단의 일부 원소모수 : 표본 관측에 의해 구하고자 하는 모집단의 정보​# 표본 추출 방법- 표본 조사 : 모집단을 대표할 수 있는 표본 추출 --> 표본 추출 방법에 따라 분석 결..
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트
·
ADsP
- 데이터 웨어하우스와 사용자 사이의 중간층에 위치- 데이터마트 내 데이터는 대부분 데이터웨어하우스에서 복제. 자체적으로 수집될 수 있고, 관계형 DB, 다차원 DB를 이용하여 구축할 수도- 고객 데이터 마트 구축 : CRM(고객관계 관리) 관련 업무 중에서 핵심- 동일한 데이터 셋 사용할 경우 최신 분석 기법을 이용하면 분석가의 역량 무의미 -> 데이터마트를 어떻게 구축하느냐에 따라 분석 효과 크게 차이​# 요약변수- 수집된 정보를 분석에 맞게 종합한 변수- 총 구매 금액, 금액, 횟수, 구매 여부 등 데이터 분석을 위해 만들어지는 변수- 재활용성 ↑- 단점 : 얼마 이상이면 구매하더라도 기준값의 의미 해석 애매 --> 연속형 변수를 그룹핑해 사용[ 위클리 쇼퍼, 상품별 구매 순서, 단어 빈도, 초기 ..
ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초
·
ADsP
# R의 탄생R : 오픈소스 프로그램. 통계, 데이터 마이닝과 그래프를 위한 언어- 다양한 최신 통계 분석과 마이닝 기능 제공​# R의 특징- 세계적으로 많은 사용자들이 다양한 예제 공유- 많은 패키지 수시로 업데이트- 상용 프로그램과 대등하거나 월등함- 각 세션마다 시스템 데이터 셋 저장 -> 매번 데이터 로딩할 필요 X, 명령어 스토리 저장 가능- 윈도우, 맥, 리눅스 운영체제에서 사용 가능- S 통계 언어를 기반으로 구현- 객체지향언어, 함수형 언어 (병렬 프로그래밍)- 래틀(Rattle) : 업그레이드가 제대로 되지 않으면 통합성에 문제 발생​print - 출력ls, ls.str - 변수 목록 보기rm - 변수 삭제c - 변수 생성function - 함수 정의rep - 반복paste - 문자 붙이..
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜
·
ADsP
- 일반적인 ISP 방법론 활용 : 분석 과제 빠짐없이 도출 -> 과제의 우선순위 결정 -> 단기 및 중. 장기로 나눠 계획 수립​# 수행 과제 도출 및 우선순위 평가[ 분석 과제 도출 -> 우선 순위 평가 -> 우선순위 정련 ]- 업무별 도출된 분석 과제를 우선순위 평가 기준에 따라 평가한 뒤, 과제 수행의 선. 후행 관계를 고려하여 순위 조정 -> 최종 확정​# IT 프로젝트 우선순위 평가 예시1. 전략적 중요도 - 전략적 필요성- 시급성2. 실행용이성- 투자 용이성- 기술 용이성​# ROI 관점에서 빅데이터의 핵심 특징- 3V : 빨리 처리하여 결과를 도출하는지에 초점 => 난이도, 투자비용 요소- 4V : 가치를 창출한다는 의미 => 시급성, 비즈니스 효과​# 포트폴리오 사분면 분석을 통한 과제 ..
ADsP 데이터 분석 준전문가 PART 02 - 1장_2 데이터 분석 기획의 이해
·
ADsP
# 빅데이터 분석의 계층적 프로세스1) 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성됨2) 태스크 : 각 단계는 여러 개의 태스크로 구성됨3) 스탭 : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력 잘로 구성된 단위 프로세스​# 빅데이터 분석 방법론[ 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개 ]1) 분석기획- 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획을 수립하는 단계- 비즈니스 이해 및 범위 설정 > 프로젝트 정의 및 계획 수립(프로젝트 범위 정의서 SOW) > 프로젝트 위험 계획 수립(회피, 전이, 완화, 수용)2) 데이터 준비- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터 정의하고 준비하는 단계- ..
ADsP 데이터 분석 준전문가 PART 02 - 1장_1 데이터 분석 기획의 이해
·
ADsP
# 분석 기획 : 실제 분석을 수행하기에 앞서 분석을 수행할 과제 정의, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 작업​     분석의 대상 (What)  known      Un- known    최적화           통찰                known            분석의 방법      해결              발견            Un- known          (How)  # 과제 중심적인 접근 방식1차 목표 : Speed&Test과제의 유형 : Quick&Win접근 방식 : Problem Solving​# 장기적인 마스터플랜 방식1차 목표 : Accurary&Deploy과제의 유형 : Long Term View접근 방식 : ..
ADsP 데이터 분석 준전문가 PART 01 - 기타
·
ADsP
# DBMS : Data Base Management System의 약자: 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어: 데이터베이스를 구축하는 틀 제공, 효율적인 데이터 검색, 저장 기능 제공ex) 오라클, 인포믹스, 액세스​# 관계형 DBMS: 데이터를 컬럼과 로우를 이루는 하나 이상의 테이블로 정리# 객제지향 DBMS: 정보를 '객체' 형태로 표현하는 데이터베이스 모델# 네트워크 DBMS: 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델# 계층형 DBMS: 트리 구조를 기반으로 하는 계층 데이터베이스 모델​# SQL: Structured Query Language의 약자: 데이터베이스..
ADsP 데이터 분석 준전문가 PART 01 - 3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트
·
ADsP
- 투자 효과를 거두지 못했던 부정적 학습 효과 -> 과거의 고객관계관리(CRM): 과거의 CRM의 부정적 학습 효과 > 도입만 하면 모든 문제를 한번에 해소할 것 처럼 강조 어떻게 활용, 어떻게 가치를 뽑아내야 할지 난감해함- 빅데이터 성공 사례가 기존 분석 프로젝트를 포함해 놓은 것이 많음​금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임 분석, 고객 수익성 분석제조업 : 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석 병원 : 가격 책정, 고객 로열티, 수익 관리에너지 : 트레이딩, 공급/수요 예측정부 : 사기탐지, 사례 관리, 범죄 방지, 수익 최적화​전략적 통찰력 창출에 포커스를 뒀을 때 분석은 해당 사업에 중요한 기회 발굴, 주요 경영진의 지원 얻어낼 수 ..
ADsP 데이터 분석 준전문가 PART 01 - 2장 데이터의 가치와 미래
·
ADsP
3V 4V 양(Volume) 가치(Value)다양성(Variety) + 시각화(Visualization) 속도(Velocity) 정확성(Veracity)​데이터의 변화(3V) -> 기술 변화(데이터 처리, 분석 기술 및 아키텍처) -> 인재, 조직의 변화(데이터사이언티스트와 같은 새로운 인재 필요)==> 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도​1) 산업계 - 고객 데이터 축적: 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴, 새로운 성장동력원으로의 기술 확보(미국 테스코, 액시엄)2) 학계 - 거대 데이터 활용, 과학 확산: 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍쳐 및 통계 도구 발전(인간 게..
ADsP 데이터 분석 준전문가 PART 01 - 1장 데이터의 이해
·
ADsP
데이터 : 1646년 영국 문헌에 처음 등장, 라틴어닌 dare(주다)의 과거 분사형으로 '주어진 것'이라는 의미 : 관념적이고 추상적인 개념 --> 기술적이고 사실적인 의미 : 추론과 추정의 근거를 이루는 사실 : 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것1) 존재적 특성 - 객관적 사실2) 당위적 특성 - 추론, 예측, 전망, 추정을 위한 근거​* 정성적 데이터 - 비정형 데이터, 주관적 내용, 통계 분석이 어려움- [형태] 언어, 문자 - [예] 회사 매출이 증가함 등 - [특징] 저장, 검색, 분석이 많은 비용이 소모됨​* 정량적 데이터 - 정형 데이터, 객관적 내용, 통계분석이 용이함- [형태] 수치, 도형, 기호- [예] 나이, 몸무게, 주가 등- [특징]..