< 데이터 분석 도구의 현황 >
# R의 탄생
R : 오픈소스 프로그램. 통계, 데이터 마이닝과 그래프를 위한 언어
- 다양한 최신 통계 분석과 마이닝 기능 제공
# R의 특징
- 세계적으로 많은 사용자들이 다양한 예제 공유
- 많은 패키지 수시로 업데이트
- 상용 프로그램과 대등하거나 월등함
- 각 세션마다 시스템 데이터 셋 저장 -> 매번 데이터 로딩할 필요 X, 명령어 스토리 저장 가능
- 윈도우, 맥, 리눅스 운영체제에서 사용 가능
- S 통계 언어를 기반으로 구현
- 객체지향언어, 함수형 언어 (병렬 프로그래밍)
- 래틀(Rattle) : 업그레이드가 제대로 되지 않으면 통합성에 문제 발생
< R 기초 >
print - 출력
ls, ls.str - 변수 목록 보기
rm - 변수 삭제
c - 변수 생성
function - 함수 정의
rep - 반복
paste - 문자 붙이기
substr - 문자열 추출
< 백터의 기초 통계 >
평균 : mean()
합계 : sum()
중앙값 : median()
로그 : log()
분산 : var()
표준편차 : sd()
공분산 : cov()
상관관계 : cor()
변수의 길이값 : length()
< 데이터 분석 과정 >
[ INPUT -> ANALYSIS -> OUTPUT ]
- 분석가가 분석 목적에 맞는 적절한 분석 방법론 선택 -> 정확한 분석 -> 결과를 통찰력을 가지고 해석
- 데이터 핸들링 : 입력된 데이터를 다양한 전처리 작업을 거쳐 분석이 가능한 형태로 재정리하는 과정
- 출력된 결과는 보고서의 형태로 정리 -> 최종 의사결정자와 고객에게 전달
< 백터 > < 리스트 > < 배열 >
- 1차원 - 1차원 - 행렬에 3~n 차원까지 확장된 형태
- 동질적 - 이질적 - 동질적
< 행렬 > < 데이터 프레임 >
- 2차원 - 2차원
- 동질적 - 이질적
- SAS 데이터셋 모방
- 원소 : 벡터 또는 요인
< 데이터 프레임 >
데이터 프레임 생성 : data.frame()
데이터셋 행 결합 : rbind()
데이터셋 열 결합 : cbind()
데이터셋 조회 : subset()
데이터 병합 : merge()
데이터셋 요약 : summary()
** 외우기
summary 함수 : 데이터셋 요약 함수, 데이터 분포 파악할 수 있게
apply 함수 : 행렬의 행 또는 열 방향으로 특정 함수 적용 (1: 행, 2: 열 )
ddply 함수 : 데이터프레임을 데이터 프레임을 입력받아 데이터 프레임을 내보내는 함수
lapply 함수 : input으로 array가 아닌 vector, list 가능
cast 함수 : 결과로 얻고자 하는 데이터 타입에 따라 dcast(), acast()
aggregate 함수 : 데이터 특정 컬럼 기준으로 통계량 구해주는 함수
is.na() : NA(결측치)를 확인하는 함수 -> 결괏값은 논리 값으로 출력
complete.cases() : 결측치가 없으면 TRUE, 있으면 FALSE를 반환
na.rm = T : 결측값이 존재하면 제외하고 계산해라
nchar() - 문자열 길이
length() - 변수길이의 값
paste() - 공백없이 출력
sqldf() : SQL을 활용하거나 SAS에서 porc ssql로 작업하던 사용자들에게 R 프로그램에서 지원해주는 패키지
install.package("패키 지명") -> library(패키 지명)
'ADsP' 카테고리의 다른 글
ADsP 데이터 분석 준전문가 PART 03 - 4장_1 통계 분석 (0) | 2021.03.27 |
---|---|
ADsP 데이터 분석 준전문가 PART 03 - 3장 데이터마트 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 02 - 2장 분석 마스터 플랜 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 02 - 1장_2 데이터 분석 기획의 이해 (0) | 2021.03.27 |
ADsP 데이터 분석 준전문가 PART 02 - 1장_1 데이터 분석 기획의 이해 (0) | 2021.03.27 |