빅데이터분석, 통계학


빅데이터분석을 하면 통계학이 필수적으로 등장한다.
그 이유는 빅데이터 분석의 궁극적인 이유와 연관된다.
빅데이터 분석은 나에게 주어진 데이터로 현재는 알 수 없는 무언가를 예측을 하고자한다.
빅데이터가 아무리 커다란 데이터라도 그것은 내가 알고자하는 내용이 포함되지 않은것이다.
즉 내가 알고자하는 미지의 영역(모집단)의 일부 샘플(표본)인것이다.
나는 내가 갖고있는 데이터로 현재를 모르는 영역을 예측해야한다.
표본으로 모집단을 추정하는 부분은 통계학에서 계속 연구한부분이다.
핵심은 바로 중심극한의정리. 모집단이 어떠한 분포를 지니든 간에 표본의 크기가 커질수록 정규분포를 이룬다는 법칙이다.
결국 빅데이터를 통해 모집단을 몰라도 데이터가 정규분포를 따른다고 가정하여 미지의 정보를 예측할수있다.
머신러닝도 마찬가지로, machine이 아직 모르는 미지의 영역을 다룰때 계속 이 예측값(estimator)를 사용한다.
결국 빅데이터분석의 핵심은 통계학이다.
Data Sciencist에게 CS보다 통계학 지식이 더 중요하다고 생각하는 이유를 정리해보았다.
CS는 Data Sciencist에게 수단일뿐이다.




© 2020. by berrrrr

Powered by berrrrr