< 빅데이터 분석 방법론 >
# 빅데이터 분석의 계층적 프로세스
1) 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성됨
2) 태스크 : 각 단계는 여러 개의 태스크로 구성됨
3) 스탭 : WBS의 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력 잘로 구성된 단위 프로세스
# 빅데이터 분석 방법론
[ 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개 ]
1) 분석기획
- 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획을 수립하는 단계
- 비즈니스 이해 및 범위 설정 > 프로젝트 정의 및 계획 수립(프로젝트 범위 정의서 SOW) > 프로젝트 위험 계획 수립(회피, 전이, 완화, 수용)
2) 데이터 준비
- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터 정의하고 준비하는 단계
- 필요 데이터 정의 > 데이터 스토어 설계 > 데이터 수집 및 정합성 점검
3) 데이터 분석
- 원천 데이터를 분석용 데이터 셋으로 편성, 분석 기법과 알고리즘을 이용하여 데이터 분석하는 단계
- 분석용 데이터 준비 > 텍스트 분석 > 탐색적 분석 >
* 데이터 준비단계 <-> 데이터 분석 단계
4) 시스템 구현
- 분석 기획에 맞는 모델 도출, 프로토타입 시스템 구현
- 설계 및 구현 > 시스템 테스트 및 운영
5) 평가 및 전개
- 모델 발전 계획 수립 > 프로젝트 평가 및 보고
< 분석 과제 발굴 방법론 >
# 하향식 접근법
: 전통적 분석과제 방식 - 문제를 알고 해결하는 방식
[ 문제 탐색 -> 문제 정의 -> 해결 방안 탐색 -> 타당성 검토 ]
1. 문제 탐색
- 빠짐없이 문제 도출, 식별하는 것이 중요
- 세부적인 구현 및 솔루션에 초점을 맞추는 것이 아니라, 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요
- 비즈니스 모델 컨버스는 문제 탐색 도구로 활용
- 현재의 비즈니스 모델 및 유사, 동종 사례 탐색 --> 분석 유즈 케이스로 표기하는 것이 중요
1) 비즈니스 모델 기반 문제 탐색
: 비즈니스 모델 캔버시의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제 발굴
--> 이를 관리하는 두가지의 영역인 규제와 감사 영역과 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업 수행
2) 분석 기회 발굴의 범위 확장
(1) 거시적 관점 - 사회, 기술, 경제, 환경, 정치
(2) 경쟁자 확대 관점 - 대체재, 경쟁자, 신규 진입자
(3) 시장의 니즈 탐색 관점 - 고객, 채널, 영향자
(4) 역량의 재해석 관점 - 내부역량, 파트너와 네트워크
3) 외부참조 모델 기반 문제 탐색
교통, 안전, 행정, 의료, 유통, 금융, 농축수산, 문화관광
4) 분석 유즈 케이스
- 현재의 비즈니스 모델 및 유사, 동종 사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유즈케이스로 표기하는 것이 필요
- 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시해야 함
2. 문제 정의
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종사용자 관점에서 이뤄져야 함
- 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있음
3. 해결방안 탐색
- 데이터 분석 문제를 해결하기 위한 다양한 방안 모색
- 기존 정보 시스템의 단순한 보완으로 분석이 가능한지, 엑셀 등의 간단한 도구로 분석이 가능한지, 하둡 등 분산 병렬 처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안 고려
- 분석 역량 기존에 가지고 있는지 여부 파악 if 보유하고 있지 않다면 -> 교육이나 전문 인력 채용을 통한 역량 확보, 분석 전문 업체 활용 --> 과제를 해결하는 방안에 대해 사전 검토 수행
4. 타당성 검토
- 다각적 타당성 검토 필요
- 전체 문제 고려. 분석 가능한 데이터로
1) 경제적 타당성
: 비용 대비 편익 분석 관점의 접근 필요
2) 데이터 및 기술적 타당성
: 역량 확보 방안을 사전에 수립, 비즈니스 지식과 기술적 지식 요구
# 상향식 접근법
: 비지도 학습 방법에 의해 수행
: 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 WHAT의 관점
: 인과관계에서 상관관계 분석으로 이동
: 데이터 분석 -> 통찰력, 지식을 얻음
[ 빅데이터 -> 분석 -> 문제 (가치) ]
1. 비지도 학습과 지도 학습
1) 비지도 학습
- 상향식 접근 방식의 데이터 분석
- 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것 X
-> 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태 표현
* 해석이 용이하진 않지만 새로운 유형의 인사이트를 도출하기에 유용한 방식
ex) 장바구니 분석, 군집 분석, 기술 통계 및 프로토파일링 등
2) 지도 학습
- 명확한 목적 하에 데이터 분석을 실시하는 것
- 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석 실시, 지식을 도출하는 것이 목적
+ 통계적 분석 1) 가설 설정 2) 표본 추출 3) 가설검정 4) 문제 해결
+ 빅데이터 환경 - 인과+상관+연관 분석 "왜 발생했는지 역으로 추적"
2. 시행 착오를 통한 문제 해결
1) 프로토타이핑 접근법
: 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
: 하향식 접근 방법과 비교하여 완전하진 못하더라도 신속하게 해결책이나 모형을 제시함 -> 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방법
- 프로토타이핑 접근법의 기본적인 프로세스
-> 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인
2) 프로토타이핑의 필요성
(1) 문제에 대한 인식 수준
(2) 필요 데이터 존재 여부의 불확실성 : 문제 해결을 위해 필요한 데이터 집합이 모두 존재하지 않을 경우 사용자와 분석가간의 반복적이고 순환적인 협의 과정 필요
(3) 데이터 사용 목적의 가변성 : 기존의 데이터를 재검토하여 데이터의 사용 목적과 범위 확대할 수 있을 것
3. 분석 과제 정의
- 분석 과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너십, 상세 분석 과정 등을 정의
- 분석 데이터 소스는 내.외부의 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위 확장하고 분석 방법 또한 상세하게 정의
< 분석 과제 관리 >
# 데이터 사이즈
: 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립 필요
# 데이터 복잡성
: 초기 데이터의 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델 선정 등에 대한 사전 고려 필요
# 속도
: 분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도 고려
: 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함
# 분석 복잡성
: 분석 모델이 복잡할 수록 정확도는 올라가지만 해석이 어려워진다는 단점이 존재
: 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾는 방안을 사전에 모색해야 함
# 정확도&일관성
< 분석 프로젝트의 특성 >
- 분석가의 목표 : 분석의 정확도를 높이는 것이지만 프로젝트의 관점에서는 도출된 분석 과제를 잘 구현하여 원하는 결과를 얻고 사용자가 원활하게 활용할 수 있도록 전체적인 과정을 고려해야 하기 때문에 개별적인 분석 업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요.
- 분석가의 입장 [ 분석 + 조정 + 관리 ]
: 데이터 영역과 결과를 활용한 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할이 핵심
- 분석 프로젝트 : 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분 -> 프로토타이핑 방식의 어자일 프로젝트 관리 방식
- 데이터 영역, 비즈니스 영역에 대한 이해 + 프로젝트 관리 방안 수립
- 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 특징
< 분석 프로젝트의 관리 방안 >
# 범위 : 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨
# 시간 : 초기에 의도했던 결과가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간 소요될 수 있음
# 원가 : 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용 -> 사전에 충분한 조사 필요, 상용 버전의 Tool 필요할 수도
# 품질 : 품질 목표를 사전에 수립하여 확정
# 통합 : 통합적으로 운영될 수 있도록 관리해야 함
# 조달 : 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음
# 자원 : 인력의 공급이 부족함으로 프로젝트 수행 전 전문가 확보에 대한 검토 필요
# 리스크 : 분석에 필요한 데이터 미확보로 진행이 어려울 수도 -> 위험 식별하고 대응 방안 사전에 수립해야 함
# 의사소통 : 모든 프로젝트 이해관계자가 공유할 수 있도록, 다양한 의사소통 체계 마련
# 이해관계자 : 이해관계자의 식별과 관리 필요
'ADsP > 2장' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 02 - 1장_1 데이터 분석 기획의 이해 (0) | 2021.03.27 |