본문 바로가기

Major Study/25-1 확률과 통계

[확률과 통계] 1장. 통계학과 빅데이터

Data Information Knowledge Wisdom Pyramid

- Data Information Knowledge Wisdom으로 이루어진 계층도

- 문헌 정보관리, 정보 시스템, 지식 관리 영역에서 흔히 인용된다.

 

단계 설명 관련 시스템
지혜 (Wisdom) - 지식에 유연성을 더하고, 상황이나 맥락에 맞게 규칙을 적용한 것
- 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
비즈니스 인텔리전스 (BI)
지식 (Knowledge) - 정보를 일반화하고 체계화하여 즉시 적용 및 활용 가능한 형태
- 상호 연결된 정보 패턴을 이해하여 토대로 예측한 결과물
지식 관리 시스템 (KMS), 전사적 지식 포탈 (EKP)
정보 (Information) - 데이터 중 사용자가 필요로 하는 데이터
- 사용자의 필요에 의해 정제 및 가공된 데이터
데이터 웨어하우스, OLAP
데이터 (Data) 관찰, 측정을 통해서 수집된 사실이나 값, 수치, 문자 등 가공되지 않은 원본 데이터 데이터베이스, OLTP, CDC, ETL, 데이터 레이크

 

01. 통계학의 정의와 역사

통계학의 정의

- 통계란 자료로부터 산출된 각종 지표 또는 그 값을 지칭한 것이다.

- 통계를 기반으로 하는 학문을 통계학이라 한다.

- 통계학은 자료를 연구하는 학문, 데이터를 분석하는 학문이라고 불린다.

 

통계학의 역사

- 통계학의 어원은 state(국가)

- 고대 이집트, 그리스, 로마 등에서 인구, 농지 등 수량적 조사나 여러 가지 국가경영정보를 제공했다.

 

통계학의 유형

- 기술통계학 (descriptive statistics), 추론통계학 (inferantial statistics)로 분류한다.

- 기술통계학 : 데이터의 수집, 요약, 정리 등을 다루는 분야 ex) 평균, 분산

- 추론통계학 : 모집단의 특성에 대한 추론을 다루는 학문분야

 

모집단과 표본

- 모집단(polulation) : 관심대상 전체집합
- 모집단의 크기는 유한할 수도 있고 무한할 수도 있다.

- 표본 (sample) : 모집단의 일부

- 표본추출이란 모집단의 일부를 선택하는 것이다.

 

전수조사와 표본조사

- 전수조사(polulation survey) : 모집단의 모든 대상을 빠짐없이 조사

- 전수조사는 시간과 비용이 많이 든다.

- 표본조사 (sample survey) : 표본을 추출하여 조사

 

조사의 목적

- 조사 대상의 특성을 파악하는데 목적을 둔다.

- 전수조사는 특성을 나타내는 수치를 정확한 값으로 도출하고 표본조사는 특성을 나타내는 수치를 가늠한다.

- 가늠하는 행위를 추정이라 한다.

 

모수 (parameter)

- 모집단의 특성을 나타내는 수치 (모평균, 모분산, 모비율, 모표준편차)

- 전수조사로 모수의 정확한 값을 도출한다.

- 표본조사는 모수의 값을 추정하거나 가정에 대하여 논리적으로 결과를 도출한다. 이를 통계적 추론 (statistical inference)라 한다.

 

통계분석과정

 

02. 데이터의 축약과 변동

데이터의 요약 및 정리

- 관측된 데이터로부터 중심경향성과 변동성 등을 값으로 산출한다.

- 데이터의 유형에 따라 표나 그래프로 시각화를 한다.

-> 데이터를 단순화해서 의사결정에 도움이 되지만 데이터의 축약은 정보의 손실이 일어난다.

 

데이터의 변동 (Variation)

- 수치형의 데이터일 경우, 관측값들의 퍼짐성을 나타낸다.

- 변동성의 측도를 산포도라고 한다.

- 변동성이 작을 수록 더 정밀하다고 볼 수 있다.

 

03 빅데이터의 정의와 역사

빅데이터의 정의

- 대량의 정형데이터나 데이터베이스 형태가 아닌 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

- 초기 빅데이터의 특징 : 규모(Volume), 다양성(Variety), 속도(Velocity)

- 빅데이터의 가치 창출이 중요해지면서 정확성(Veracity)와 가치(Value)를 추가한다.

 

빅데이터의 역사 및 발전배경

- 빅데이터 용어는 1999년 Byron의 논문에서 처음 등장했다.

- 2000년대 빅데이터의 연구가 비즈니스 분석학, 바이오정보학 등에서 활발하게 진행됐다.

 

빅데이터 분석 흐름도

 

04 빅데이터의 유형

빅데이터의 형태별 분류

- 정형 데이터 : 형태가 있으며 연산이 가능하다. ex) 관계형 데이터베이스, 스프레드시트, CSV

- 반정형 데이터 : 형태가 있으며 연산이 불가능하다 ex) XML, HTML, JSON, 로그

- 비정형 데이터 : 형태가 없으며 연산이 불가능하다. ex) 소셜 데이터, 영상, 이미지

 

데이터 형태 저장 형태 예시 활용 처리 난이도
정형 데이터 NoSQL, File Excel 관계형 데이터베이스의 데이터처럼 Excel 형식으로 저장된다.
반정형 데이터 File, DBMS, NoSQL XML, HTML XML, HTML 파일과 같은 형식으로 일반적으로 파일 형태로 저장된다.
비정형 데이터 File, NoSQL 이미지, 동영상, SNS, TXT 언어 분석이 가능한 기사, SNS 등 텍스트 데이터, 이미지, 동영상으로 저장된다.

 

정형 데이터의 분류

  • 양적 자료
    • 연속형 : 비율척도 (체중, 키) , 등간척도 (온도, 시간)
    • 이산형 : 비율척도 (사고건수, 성공횟수)
  • 질적 자료
    • 범주형 : 서열척도 (선호도, 우선순위)
    • 범주형 또는 이진형 : 명목척도 (지역, 직업)

빅데이터의 속성 변천

구분 내용
크기(Volume) 대량의 데이터
다양성(Variety) 정형 데이터 + 반정형 데이터 + 비정형데이터
속도(Velocity) 실시간으로 생성되는 데이터
진실성(Veracity) 데이터가 가지고 있는 사실성, 의사결정 연관성
시각화(Visualization) 정보 이용자에게 쉽게 보여줄 수 있는 시각화
가치(Value) 조직에 제공되는 실질적 가치

 

05 빅데이터 수집 방법

빅데이터의 수집

- 데이터 소스로부터 필요로 하는 데이터를 검색해서 수동 또는 자동으로 수집하는 단계를 말한다.

- 수집된 데이터를 저장, 분석, 변환 하는 단계도 데이터 수집이라 할 수 있다.

- 대표적인 방법으로 Crawling, FTP, Streaming 등이 있다.

 

Crawling

- 대표적인 비정형 데이터 수집 방식 및 기술이다.

- 웹 페이지의 내용 전체를 수집하고 저장하고자 하는 수집 대상을 추출해서 데이터화 하는 것이다.

- 프로그래밍 언어를 이용하거나 크롤링을 위해 개발된 어플리케이션을 이용하는 방법이 있다.

 

FTP

- 대표적인 정형 데이터 수집 방식 및 기술이다.

- 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델이다.

- 파일을 송수신하는 응용계층 통신 프로토콜이다.

 

Streaming

- 대표적인 반정형 데이터 수집 방식 및 기술이다.

- 스트리밍이란 온라인상에서 음성, 오디오, 비디오 등을 실시간으로 보여주는 것을 의미한다.

 

빅데이터 유형별 수집 기술

데이터 형태 데이터 수집 기술 데이터 종류
정형 데이터 OPEN API 위에 표 참고
반정형 데이터 OPEN API, FTP 로그, 신호, 센서
비정형 데이터 OPEN API, 웹크롤링, 스트리밍, FTP 소리, 영상, 텍스트