본문 바로가기

ADsP/2장

ADsP 데이터 분석 준전문가 PART 02 - 1장_1 데이터 분석 기획의 이해

반응형

# 분석 기획

: 실제 분석을 수행하기에 앞서 분석을 수행할 과제 정의, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 작업

< 분석 대상과 방법 >

     분석의 대상 (What)

  known      Un- known

    최적화           통찰                known            분석의 방법

      해결              발견            Un- known          (How)

 

 

< 목표 시점 별 분석 기획 방안 >

# 과제 중심적인 접근 방식

1차 목표 : Speed&Test

과제의 유형 : Quick&Win

접근 방식 : Problem Solving

# 장기적인 마스터플랜 방식

1차 목표 : Accurary&Deploy

과제의 유형 : Long Term View

접근 방식 : Problem Definition

* 의미있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요

* 분석 대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터플랜 단위로 도출할 수 있어야 함

< 분석 기획시 고려사항 >

1. 가용데이터의 고려 필요

: 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이뤄저야 함

2. 적절한 활용 방안과 유즈 케이스

: 기존에 잘 구현되어 활용되어 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요

3. 장애요소들에 대한 사전계획 수립

: 일회성 분석에 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리가 고려되어야 함

< 분석 방법론 >

# 분석 방법론

: 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적

: 개인의 역량이나 조직의 우연한 성공에 기인해서는 안되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함

: 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함

# 데이터 기반 의사결정의 필요성

: 고정관념, 프레이밍 효과, 편향된 생각

1) 폭포수 모델

: 단계를 순차적으로 진행하는 방법, 문제 발견 시 피드백 과정 수행

2) 프로토타입 모델

: 폭포수 모델의 단점 보완하기 위해 점진적으로 시스템을 개발해나가는 접근 방식

: 일부분을 우선 개발 -> 사용자에게 제공 -> 시험 사용 후 사용자의 요구 분석 및 평가 -> 그 결과를 통한 개선 작업

3) 나선형 모델

: 반복을 통해 점증적으로 개발하는 방법

: 처음 시도하는 프로젝트에는 적용 용이, 관리 체계를 효과적으로 갖추지 못한 경우 프로젝트 진행 어려움

# 방법론의 구성

[단계] : 최상위 계층, 완성된 단계별 산출물 생성 --> 단계별 완료 보고서

[태스크] : 단계를 구성하는 단위 활동 --> 보고서

[스탭] : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력자료로 구성 --> 보고서 구성 요소

< KDD 분석 방법론 >

KDD : 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

# KDD 분석 절차

[ 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터마이닝 -> 데이터마이닝 결과 평가 ]

1) 데이터셋 선택

- 분석 대상의 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정

- 데이터 마이닝에 필요한 목표 데이터 구성하여 분석에 활용

2) 데이터 전처리

- 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 필요시 제거, 의미 있는 데이터로 재처리 -> 데이터 셋 정제하는 단계

- 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행

3) 데이터 변환

- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수 생성, 선택 -> 데이터의 차원을 축소하여 데이터 마이닝을 할 수 있도록 데이터 변경하는 단계

- 학습용 데이터와 검증용 데이터로 데이터 분리하는 단계

4) 데이터 마이닝

- 데이터마이닝 기법 선택, 알고리즘 적용하여 데이터마이닝 작업 실행

- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행

5) 데이터마이닝 결과 평가

- 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인

- 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계

< CRISP-DM 분석 방법론 >

CRISP-DM: 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작, 주요한 5개의 업체들이 주도, 계층적 프로세스 모델

# CRISP-DM의 4 레벨 구조

[단계]

[일반화 태스크] : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위

[세분화 태스크]

[프로세스 실행] : 데이터 마이닝을 위한 구체적인 실행을 포함

# CRISP-DM의 프로세스

[ 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 ] * 단방향 구성 X, 단계 간 피드백

1) 업무 이해

- 프로젝트의 목적과 요구사항을 이해하기 위한 단계

- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경, 초기 프로젝트 계획 수립

2) 데이터 이해

- 데이터를 수집, 데이터 속성을 이해하기 위한 단계

- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트 발견하는 단계

3) 데이터 준비

- 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계

ex) 분석용 데이터 셋 선택, 데이터 정제

4) 모델링

- 모델링 기법과 알고리즘 선택, 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계

- 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인

ex) 모델링 기법 선택 모델 평가

5) 평가

- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 다네

ex) 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

6) 전개

- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계

- 모니터링과 모델의 유지보수 계획 마련

* 데이터셋 선택 + 데이터 전처리 --> 데이터의 이해

 

반응형