ADsP/1장

ADsP 데이터 분석 준전문가 PART 01 - 1장 데이터의 이해

sujii 2021. 3. 27. 17:49
반응형

< 데이터의 정의와 특성 >

데이터 : 1646년 영국 문헌에 처음 등장, 라틴어닌 dare(주다)의 과거 분사형으로 '주어진 것'이라는 의미

: 관념적이고 추상적인 개념 --> 기술적이고 사실적인 의미

: 추론과 추정의 근거를 이루는 사실

: 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것

1) 존재적 특성 - 객관적 사실

2) 당위적 특성 - 추론, 예측, 전망, 추정을 위한 근거

< 데이터의 유형 >

* 정성적 데이터 - 비정형 데이터, 주관적 내용, 통계 분석이 어려움

- [형태] 언어, 문자

- [예] 회사 매출이 증가함 등

- [특징] 저장, 검색, 분석이 많은 비용이 소모됨

* 정량적 데이터 - 정형 데이터, 객관적 내용, 통계분석이 용이함

- [형태] 수치, 도형, 기호

- [예] 나이, 몸무게, 주가 등

- [특징] 정형화가 된 데이터로 비용 소모가 적음

< 지식 경영의 핵심 유형 >

* 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움

- 상호작용 : 공통화, 내면화 (개인에게 축적된 내면화된 지식 -> 조직의 지식으로 공통화)

* 형식지 : 문서나 매뉴얼처럼 형상화된 지식

- 전달과 공유가 용이함

- 상호작용: 연결화, 표출화 (언어, 기호, 숫자로 표출화된 지식 -> 개인의 지식으로 연결화)

< 데이터와 정보의 관계 >

1. DIKW의 정의

데이터(Data) : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실

정보(Information) : 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것

지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내제화된 것

정보(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적인 산물

2. DIKW 피라미드

지혜 - A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단

지식 - 상대적으로 저렴한 A마트에서 연필을 사야겠다

정보 - A마트의 연필이 더 싸다

데이터 - A마트는 100원, B마트는 200원에 연필 판매

< 데이터베이스 용어의 연혁 >

1950년대 - 미국에서 군대의 군비 상황을 집중 관리하기 위하여 컴퓨터 도서관을 설립하면서 데이터의 기지라는 뜻으로 데이터베이스 탄생

1963년 - 미국 'SDC'가 개최한 심포지엄에서 데이터베이스 용어 사정

1975년 - 미국의 CAC가 KORSTIC을 통해 서비스되면서 우리나라에서 데이터베이스 이용이 이루어짐

1980년대 중반 - 국내의 데이터베이스 관련 기술의 연구, 개발

< 데이터베이스의 정의 >

- 1차 개념 확대 : 정형 데이터 관리

EU -> 국내 저작권법

- 2차 개념 확대 : 빅데이터의 출현으로 비정형데이터 포함

국내 컴퓨터 용어 사전 -> 국내 Wikipedia -> 국내 데이터분석 전문가 가이드

< 데이터베이스의 특징>

1. 일반적인 특징

통합된 데이터(integrated data) : 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미

저장된 데이터 (stored data) : 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미

공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미

변화되는 데이터(changable data) : 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄, 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함

2. 다양한 측면에서의 특징

정보의 축적 및 전달 측면 : 기계 가독성 검색가독성, 원격조작성

정보 이용 측면 : 이용자의 정보 요구에 따라 다양한 정보 신속하게 획득, 탐색

정보 관리 측면 : 정보를 정리, 저장, 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신이 용이

정보기술 발전 측면 : 데이터베이스는 네트워크 기술의 발전을 견인할 수 있음

경제 산업 측면 : 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라로서 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서의 의미를 가짐

< 기업 내부 데이터베이스 >

OLAP - 다차원의 데이터를 대화식으로 분석하기 위한 기술

OLTP - 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태 (주문입력시스템, 재고관리시스템)

BI - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

BA - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

CRM - 고객관계관리

SCM - 공급망 관리