ADsP/3장

ADsP 데이터 분석 준전문가 PART 03 - 2장 R 프로그래밍 기초

sujii 2021. 3. 27. 21:40
반응형

< 데이터 분석 도구의 현황 >

# R의 탄생

R : 오픈소스 프로그램. 통계, 데이터 마이닝과 그래프를 위한 언어

- 다양한 최신 통계 분석과 마이닝 기능 제공

# R의 특징

- 세계적으로 많은 사용자들이 다양한 예제 공유

- 많은 패키지 수시로 업데이트

- 상용 프로그램과 대등하거나 월등함

- 각 세션마다 시스템 데이터 셋 저장 -> 매번 데이터 로딩할 필요 X, 명령어 스토리 저장 가능

- 윈도우, 맥, 리눅스 운영체제에서 사용 가능

- S 통계 언어를 기반으로 구현

- 객체지향언어, 함수형 언어 (병렬 프로그래밍)

- 래틀(Rattle) : 업그레이드가 제대로 되지 않으면 통합성에 문제 발생

< R 기초 >

print - 출력

ls, ls.str - 변수 목록 보기

rm - 변수 삭제

c - 변수 생성

function - 함수 정의

rep - 반복

paste - 문자 붙이기

substr - 문자열 추출

< 백터의 기초 통계 >

평균 : mean()

합계 : sum()

중앙값 : median()

로그 : log()

분산 : var()

표준편차 : sd()

공분산 : cov()

상관관계 : cor()

변수의 길이값 : length()

< 데이터 분석 과정 >

[ INPUT -> ANALYSIS -> OUTPUT ]

- 분석가가 분석 목적에 맞는 적절한 분석 방법론 선택 -> 정확한 분석 -> 결과를 통찰력을 가지고 해석

- 데이터 핸들링 : 입력된 데이터를 다양한 전처리 작업을 거쳐 분석이 가능한 형태로 재정리하는 과정

- 출력된 결과는 보고서의 형태로 정리 -> 최종 의사결정자와 고객에게 전달

< 백터 > < 리스트 > < 배열 >

- 1차원 - 1차원 - 행렬에 3~n 차원까지 확장된 형태

- 동질적 - 이질적 - 동질적

< 행렬 > < 데이터 프레임 >

- 2차원 - 2차원

- 동질적 - 이질적

- SAS 데이터셋 모방

- 원소 : 벡터 또는 요인

< 데이터 프레임 >

데이터 프레임 생성 : data.frame()

데이터셋 행 결합 : rbind()

데이터셋 열 결합 : cbind()

데이터셋 조회 : subset()

데이터 병합 : merge()

데이터셋 요약 : summary()

** 외우기

summary 함수 : 데이터셋 요약 함수, 데이터 분포 파악할 수 있게

apply 함수 : 행렬의 행 또는 열 방향으로 특정 함수 적용 (1: 행, 2: 열 )

ddply 함수 : 데이터프레임을 데이터 프레임을 입력받아 데이터 프레임을 내보내는 함수

lapply 함수 : input으로 array가 아닌 vector, list 가능

cast 함수 : 결과로 얻고자 하는 데이터 타입에 따라 dcast(), acast()

aggregate 함수 : 데이터 특정 컬럼 기준으로 통계량 구해주는 함수

is.na() : NA(결측치)를 확인하는 함수 -> 결괏값은 논리 값으로 출력

complete.cases() : 결측치가 없으면 TRUE, 있으면 FALSE를 반환

na.rm = T : 결측값이 존재하면 제외하고 계산해라

nchar() - 문자열 길이

length() - 변수길이의 값

paste() - 공백없이 출력

sqldf() : SQL을 활용하거나 SAS에서 porc ssql로 작업하던 사용자들에게 R 프로그램에서 지원해주는 패키지

install.package("패키 지명") -> library(패키 지명)