빅데이터/R | 만만한 통계 (R 활용)

R이란? | R의 특징 / 기능 / 장점 / 사용

KimKelly 2023. 1. 31. 22:55
반응형

R이란?

데이터 분석을 위한 프로그래밍 언어로,
다양한 기능을 지원하는 오픈소스 소프트웨어

 

R의 특징

  • 데이터 분석 도구, 프로그래밍 언어
  • 뉴질랜드 통계학 교수 (Ross Ihaka, Robert Gentleman) 개발
  • 1990년 초반 개발
  • 2000년 정식 version 1.0 발표
  • 무료로 사용할 수 있는 오픈 소스
  • 설치 메모리 용량 적게 소요
  • 32, 64 bit 지원
  • OS free: window, linux, mac
  • help fuction: 학습하는데 많은 도움이 됨


R의 기능

R의 대표적인 기능은 통계 분석이다.

  • 기초 통계 분석부터 가설 검정에 사용되는 고급 통계 분석 기법
  • 상관계수 r (-1 < r < 1)
    • 양의 상관관계: 같은 방향으로 증가하거나 감소 (0 < r < 1)
    • 음의 상관관계 : 반대 방향으로 증가하거나 감소 (-1 < r < 0)
    • 상관계수를 통해 알 수 있는 것
      1) 방향
      2) 강도(크기) = 1 또는 -1에 얼마나 가까운지
    • 변수가 여러 개 있을 때 여러 개의 상관계수가 계산됨. *상관계수의 수 = k(k-1)/2 (k는 변수의 개수)
    • 이를 효과적으로 표현하기 위해 correlation matrix (상관 행렬) 사용 *색이 진할수록 상관계수가 1 또는 -1에 가까움 = 상관관계가 큼

 

 

R의 장점

  • 데이터 전처리, 통계분석, 데이터 시각화, 데이터마이닝, 빅데이터, 인공지능 등 다양한 기능
    - 뛰어난 데이터 시각화 도구(ggplot2 등)
    - 효율적 데이터 전처리(data wranging) 도구(idlyr, dplyr 등)
  • 다양한 전공 분야에서 사용
  • 오픈 소스 생태계
    - 패키지 추가 기능: 현재 18,000개 이상
    - 패키지: 특정 문제 해결하기 위해 개발된 함수들의 모음
    - CRAN (Comprehensive R Archive Network) 서버에서 설치 가능
    - 설치 후 로딩하여 사용 가능
  • 함수, 예제 데이터, 예제 프로그램, 도움말 등
  • 빠르게 개발, 배포되어 유용함
  • 다양한 교육 재료
    - 사용자가 많은 만큼 책, 온라인 강의, 온라인 문서 등 다양한 교육 콘텐츠가 있음
  • 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식
    - 명령어를 직접 입력하는(코딩) 프로그래밍 방식
    - 코드를 한 줄 한 줄 입력하기 때문에 오류가 발생하는 줄에 가서 수정이 가능하며, 코드 리뷰가 가능함
    - 코드 기반으로 재현이 가능함
    - 코드를 다른 사람과 공유하여 공동 작업을 할 수 있음

 

R의 사용

연구자들이 사용하는 R

  • 구글 스칼라에 등록된 학술 논문에서 어떤 데이터 분석 도구를 사용했는지 보면, 유료 프로그램 SPSS, SAS는 점점 줄어들고 있고, 무료 프로그램인 R은 지속적으로 증가하고 있음
  • 증가 속도는 2015년부터 SAS를 앞지르기 시작함
  • 석박사 학생들이 R을 사용해 연구를 진행하기 때문에 졸업하고 기업에 들어가면 R로 데이터 분석 업무를 하게 됨
  • R을 이용한 연구가 늘어나면서 기업도 이런 흐름에 따라가고 있음

 

세계적 기업들이 사용하는 R

  • 데이터 분석 기술 분야를 선도하고 있는 구글, 페이스북, 마이크로소프트 등

데이터 분석 대회 참가자들이 사용하는 R

  • 캐글: 온라인 데이터 분석 대회 (주어진 과제에 대한 가장 성능이 좋은 답(알고리즘)을 제출하면 거액의 상금, 명성, 회사 입장에서는 좋은 알고리즘을 얻게 됨
  • 캐글 창립자 & CEO, 앤서니 골드 블룸 발표 자료에 의하면, 캐글에 참가하는 사람들이 가장 많이 사용하는 도구는 R이라고 발표함.

R을 사용하는 기업이 늘고 있는 한국

  • 데이터 관련 업무가 많은 SK, KT, 넥슨, 엔씨소프트 등
  • 채용 공고에 보면 데이터 분석 포지션에 R 사용 경험을 중요시함
반응형