# 분석 기획
: 실제 분석을 수행하기에 앞서 분석을 수행할 과제 정의, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 작업
< 분석 대상과 방법 >
분석의 대상 (What)
known Un- known
최적화 통찰 known 분석의 방법
해결 발견 Un- known (How)
< 목표 시점 별 분석 기획 방안 >
# 과제 중심적인 접근 방식
1차 목표 : Speed&Test
과제의 유형 : Quick&Win
접근 방식 : Problem Solving
# 장기적인 마스터플랜 방식
1차 목표 : Accurary&Deploy
과제의 유형 : Long Term View
접근 방식 : Problem Definition
* 의미있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요
* 분석 대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터플랜 단위로 도출할 수 있어야 함
< 분석 기획시 고려사항 >
1. 가용데이터의 고려 필요
: 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이뤄저야 함
2. 적절한 활용 방안과 유즈 케이스
: 기존에 잘 구현되어 활용되어 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
3. 장애요소들에 대한 사전계획 수립
: 일회성 분석에 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리가 고려되어야 함
< 분석 방법론 >
# 분석 방법론
: 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적
: 개인의 역량이나 조직의 우연한 성공에 기인해서는 안되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함
: 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함
# 데이터 기반 의사결정의 필요성
: 고정관념, 프레이밍 효과, 편향된 생각
1) 폭포수 모델
: 단계를 순차적으로 진행하는 방법, 문제 발견 시 피드백 과정 수행
2) 프로토타입 모델
: 폭포수 모델의 단점 보완하기 위해 점진적으로 시스템을 개발해나가는 접근 방식
: 일부분을 우선 개발 -> 사용자에게 제공 -> 시험 사용 후 사용자의 요구 분석 및 평가 -> 그 결과를 통한 개선 작업
3) 나선형 모델
: 반복을 통해 점증적으로 개발하는 방법
: 처음 시도하는 프로젝트에는 적용 용이, 관리 체계를 효과적으로 갖추지 못한 경우 프로젝트 진행 어려움
# 방법론의 구성
[단계] : 최상위 계층, 완성된 단계별 산출물 생성 --> 단계별 완료 보고서
[태스크] : 단계를 구성하는 단위 활동 --> 보고서
[스탭] : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력자료로 구성 --> 보고서 구성 요소
< KDD 분석 방법론 >
KDD : 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
# KDD 분석 절차
[ 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터마이닝 -> 데이터마이닝 결과 평가 ]
1) 데이터셋 선택
- 분석 대상의 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정
- 데이터 마이닝에 필요한 목표 데이터 구성하여 분석에 활용
2) 데이터 전처리
- 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 필요시 제거, 의미 있는 데이터로 재처리 -> 데이터 셋 정제하는 단계
- 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행
3) 데이터 변환
- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수 생성, 선택 -> 데이터의 차원을 축소하여 데이터 마이닝을 할 수 있도록 데이터 변경하는 단계
- 학습용 데이터와 검증용 데이터로 데이터 분리하는 단계
4) 데이터 마이닝
- 데이터마이닝 기법 선택, 알고리즘 적용하여 데이터마이닝 작업 실행
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행
5) 데이터마이닝 결과 평가
- 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
- 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계
< CRISP-DM 분석 방법론 >
CRISP-DM: 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작, 주요한 5개의 업체들이 주도, 계층적 프로세스 모델
# CRISP-DM의 4 레벨 구조
[단계]
[일반화 태스크] : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
[세분화 태스크]
[프로세스 실행] : 데이터 마이닝을 위한 구체적인 실행을 포함
# CRISP-DM의 프로세스
[ 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 ] * 단방향 구성 X, 단계 간 피드백
1) 업무 이해
- 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경, 초기 프로젝트 계획 수립
2) 데이터 이해
- 데이터를 수집, 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트 발견하는 단계
3) 데이터 준비
- 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계
ex) 분석용 데이터 셋 선택, 데이터 정제
4) 모델링
- 모델링 기법과 알고리즘 선택, 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인
ex) 모델링 기법 선택 모델 평가
5) 평가
- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 다네
ex) 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
6) 전개
- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
- 모니터링과 모델의 유지보수 계획 마련
* 데이터셋 선택 + 데이터 전처리 --> 데이터의 이해
'ADsP > 2장' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 02 - 1장_2 데이터 분석 기획의 이해 (0) | 2021.03.27 |