반응형
R이란?
데이터 분석을 위한 프로그래밍 언어로,
다양한 기능을 지원하는 오픈소스 소프트웨어
R의 특징
- 데이터 분석 도구, 프로그래밍 언어
- 뉴질랜드 통계학 교수 (Ross Ihaka, Robert Gentleman) 개발
- 1990년 초반 개발
- 2000년 정식 version 1.0 발표
- 무료로 사용할 수 있는 오픈 소스
- 설치 메모리 용량 적게 소요
- 32, 64 bit 지원
- OS free: window, linux, mac
- help fuction: 학습하는데 많은 도움이 됨
R의 기능
R의 대표적인 기능은 통계 분석이다.
- 기초 통계 분석부터 가설 검정에 사용되는 고급 통계 분석 기법
- 상관계수 r (-1 < r < 1)
- 양의 상관관계: 같은 방향으로 증가하거나 감소 (0 < r < 1)
- 음의 상관관계 : 반대 방향으로 증가하거나 감소 (-1 < r < 0)
- 상관계수를 통해 알 수 있는 것
1) 방향
2) 강도(크기) = 1 또는 -1에 얼마나 가까운지 - 변수가 여러 개 있을 때 여러 개의 상관계수가 계산됨. *상관계수의 수 = k(k-1)/2 (k는 변수의 개수)
- 이를 효과적으로 표현하기 위해 correlation matrix (상관 행렬) 사용 *색이 진할수록 상관계수가 1 또는 -1에 가까움 = 상관관계가 큼
R의 장점
- 데이터 전처리, 통계분석, 데이터 시각화, 데이터마이닝, 빅데이터, 인공지능 등 다양한 기능
- 뛰어난 데이터 시각화 도구(ggplot2 등)
- 효율적 데이터 전처리(data wranging) 도구(idlyr, dplyr 등) - 다양한 전공 분야에서 사용
- 오픈 소스 생태계
- 패키지 추가 기능: 현재 18,000개 이상
- 패키지: 특정 문제 해결하기 위해 개발된 함수들의 모음
- CRAN (Comprehensive R Archive Network) 서버에서 설치 가능
- 설치 후 로딩하여 사용 가능 - 함수, 예제 데이터, 예제 프로그램, 도움말 등
- 빠르게 개발, 배포되어 유용함
- 다양한 교육 재료
- 사용자가 많은 만큼 책, 온라인 강의, 온라인 문서 등 다양한 교육 콘텐츠가 있음 - 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식
- 명령어를 직접 입력하는(코딩) 프로그래밍 방식
- 코드를 한 줄 한 줄 입력하기 때문에 오류가 발생하는 줄에 가서 수정이 가능하며, 코드 리뷰가 가능함
- 코드 기반으로 재현이 가능함
- 코드를 다른 사람과 공유하여 공동 작업을 할 수 있음
R의 사용
연구자들이 사용하는 R
- 구글 스칼라에 등록된 학술 논문에서 어떤 데이터 분석 도구를 사용했는지 보면, 유료 프로그램 SPSS, SAS는 점점 줄어들고 있고, 무료 프로그램인 R은 지속적으로 증가하고 있음
- 증가 속도는 2015년부터 SAS를 앞지르기 시작함
- 석박사 학생들이 R을 사용해 연구를 진행하기 때문에 졸업하고 기업에 들어가면 R로 데이터 분석 업무를 하게 됨
- R을 이용한 연구가 늘어나면서 기업도 이런 흐름에 따라가고 있음
세계적 기업들이 사용하는 R
- 데이터 분석 기술 분야를 선도하고 있는 구글, 페이스북, 마이크로소프트 등
데이터 분석 대회 참가자들이 사용하는 R
- 캐글: 온라인 데이터 분석 대회 (주어진 과제에 대한 가장 성능이 좋은 답(알고리즘)을 제출하면 거액의 상금, 명성, 회사 입장에서는 좋은 알고리즘을 얻게 됨
- 캐글 창립자 & CEO, 앤서니 골드 블룸 발표 자료에 의하면, 캐글에 참가하는 사람들이 가장 많이 사용하는 도구는 R이라고 발표함.
R을 사용하는 기업이 늘고 있는 한국
- 데이터 관련 업무가 많은 SK, KT, 넥슨, 엔씨소프트 등
- 채용 공고에 보면 데이터 분석 포지션에 R 사용 경험을 중요시함
반응형
'빅데이터 > R | 만만한 통계 (R 활용)' 카테고리의 다른 글
통계 | 변수란? (연속형 vs 범주형 / 양적 vs 질적 / 독립 vs 종속) / 기술 통계와 추론 통계 (0) | 2023.03.05 |
---|---|
R vs Python | R과 파이썬의 차이점: R과 파이썬은 어떻게 다른가 (0) | 2023.02.01 |