Data Information Knowledge Wisdom Pyramid
- Data Information Knowledge Wisdom으로 이루어진 계층도
- 문헌 정보관리, 정보 시스템, 지식 관리 영역에서 흔히 인용된다.
단계 | 설명 | 관련 시스템 |
지혜 (Wisdom) | - 지식에 유연성을 더하고, 상황이나 맥락에 맞게 규칙을 적용한 것 - 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 |
비즈니스 인텔리전스 (BI) |
지식 (Knowledge) | - 정보를 일반화하고 체계화하여 즉시 적용 및 활용 가능한 형태 - 상호 연결된 정보 패턴을 이해하여 토대로 예측한 결과물 |
지식 관리 시스템 (KMS), 전사적 지식 포탈 (EKP) |
정보 (Information) | - 데이터 중 사용자가 필요로 하는 데이터 - 사용자의 필요에 의해 정제 및 가공된 데이터 |
데이터 웨어하우스, OLAP |
데이터 (Data) | 관찰, 측정을 통해서 수집된 사실이나 값, 수치, 문자 등 가공되지 않은 원본 데이터 | 데이터베이스, OLTP, CDC, ETL, 데이터 레이크 |
01. 통계학의 정의와 역사
통계학의 정의
- 통계란 자료로부터 산출된 각종 지표 또는 그 값을 지칭한 것이다.
- 통계를 기반으로 하는 학문을 통계학이라 한다.
- 통계학은 자료를 연구하는 학문, 데이터를 분석하는 학문이라고 불린다.
통계학의 역사
- 통계학의 어원은 state(국가)
- 고대 이집트, 그리스, 로마 등에서 인구, 농지 등 수량적 조사나 여러 가지 국가경영정보를 제공했다.
통계학의 유형
- 기술통계학 (descriptive statistics), 추론통계학 (inferantial statistics)로 분류한다.
- 기술통계학 : 데이터의 수집, 요약, 정리 등을 다루는 분야 ex) 평균, 분산
- 추론통계학 : 모집단의 특성에 대한 추론을 다루는 학문분야
모집단과 표본
- 모집단(polulation) : 관심대상 전체집합
- 모집단의 크기는 유한할 수도 있고 무한할 수도 있다.
- 표본 (sample) : 모집단의 일부
- 표본추출이란 모집단의 일부를 선택하는 것이다.
전수조사와 표본조사
- 전수조사(polulation survey) : 모집단의 모든 대상을 빠짐없이 조사
- 전수조사는 시간과 비용이 많이 든다.
- 표본조사 (sample survey) : 표본을 추출하여 조사
조사의 목적
- 조사 대상의 특성을 파악하는데 목적을 둔다.
- 전수조사는 특성을 나타내는 수치를 정확한 값으로 도출하고 표본조사는 특성을 나타내는 수치를 가늠한다.
- 가늠하는 행위를 추정이라 한다.
모수 (parameter)
- 모집단의 특성을 나타내는 수치 (모평균, 모분산, 모비율, 모표준편차)
- 전수조사로 모수의 정확한 값을 도출한다.
- 표본조사는 모수의 값을 추정하거나 가정에 대하여 논리적으로 결과를 도출한다. 이를 통계적 추론 (statistical inference)라 한다.
통계분석과정
02. 데이터의 축약과 변동
데이터의 요약 및 정리
- 관측된 데이터로부터 중심경향성과 변동성 등을 값으로 산출한다.
- 데이터의 유형에 따라 표나 그래프로 시각화를 한다.
-> 데이터를 단순화해서 의사결정에 도움이 되지만 데이터의 축약은 정보의 손실이 일어난다.
데이터의 변동 (Variation)
- 수치형의 데이터일 경우, 관측값들의 퍼짐성을 나타낸다.
- 변동성의 측도를 산포도라고 한다.
- 변동성이 작을 수록 더 정밀하다고 볼 수 있다.
03 빅데이터의 정의와 역사
빅데이터의 정의
- 대량의 정형데이터나 데이터베이스 형태가 아닌 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
- 초기 빅데이터의 특징 : 규모(Volume), 다양성(Variety), 속도(Velocity)
- 빅데이터의 가치 창출이 중요해지면서 정확성(Veracity)와 가치(Value)를 추가한다.
빅데이터의 역사 및 발전배경
- 빅데이터 용어는 1999년 Byron의 논문에서 처음 등장했다.
- 2000년대 빅데이터의 연구가 비즈니스 분석학, 바이오정보학 등에서 활발하게 진행됐다.
빅데이터 분석 흐름도
04 빅데이터의 유형
빅데이터의 형태별 분류
- 정형 데이터 : 형태가 있으며 연산이 가능하다. ex) 관계형 데이터베이스, 스프레드시트, CSV
- 반정형 데이터 : 형태가 있으며 연산이 불가능하다 ex) XML, HTML, JSON, 로그
- 비정형 데이터 : 형태가 없으며 연산이 불가능하다. ex) 소셜 데이터, 영상, 이미지
데이터 형태 | 저장 형태 | 예시 | 활용 | 처리 난이도 |
정형 데이터 | NoSQL, File | Excel | 관계형 데이터베이스의 데이터처럼 Excel 형식으로 저장된다. | 하 |
반정형 데이터 | File, DBMS, NoSQL | XML, HTML | XML, HTML 파일과 같은 형식으로 일반적으로 파일 형태로 저장된다. | 중 |
비정형 데이터 | File, NoSQL | 이미지, 동영상, SNS, TXT | 언어 분석이 가능한 기사, SNS 등 텍스트 데이터, 이미지, 동영상으로 저장된다. | 상 |
정형 데이터의 분류
- 양적 자료
- 연속형 : 비율척도 (체중, 키) , 등간척도 (온도, 시간)
- 이산형 : 비율척도 (사고건수, 성공횟수)
- 질적 자료
- 범주형 : 서열척도 (선호도, 우선순위)
- 범주형 또는 이진형 : 명목척도 (지역, 직업)
빅데이터의 속성 변천
구분 | 내용 |
크기(Volume) | 대량의 데이터 |
다양성(Variety) | 정형 데이터 + 반정형 데이터 + 비정형데이터 |
속도(Velocity) | 실시간으로 생성되는 데이터 |
진실성(Veracity) | 데이터가 가지고 있는 사실성, 의사결정 연관성 |
시각화(Visualization) | 정보 이용자에게 쉽게 보여줄 수 있는 시각화 |
가치(Value) | 조직에 제공되는 실질적 가치 |
05 빅데이터 수집 방법
빅데이터의 수집
- 데이터 소스로부터 필요로 하는 데이터를 검색해서 수동 또는 자동으로 수집하는 단계를 말한다.
- 수집된 데이터를 저장, 분석, 변환 하는 단계도 데이터 수집이라 할 수 있다.
- 대표적인 방법으로 Crawling, FTP, Streaming 등이 있다.
Crawling
- 대표적인 비정형 데이터 수집 방식 및 기술이다.
- 웹 페이지의 내용 전체를 수집하고 저장하고자 하는 수집 대상을 추출해서 데이터화 하는 것이다.
- 프로그래밍 언어를 이용하거나 크롤링을 위해 개발된 어플리케이션을 이용하는 방법이 있다.
FTP
- 대표적인 정형 데이터 수집 방식 및 기술이다.
- 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델이다.
- 파일을 송수신하는 응용계층 통신 프로토콜이다.
Streaming
- 대표적인 반정형 데이터 수집 방식 및 기술이다.
- 스트리밍이란 온라인상에서 음성, 오디오, 비디오 등을 실시간으로 보여주는 것을 의미한다.
빅데이터 유형별 수집 기술
데이터 형태 | 데이터 수집 기술 | 데이터 종류 |
정형 데이터 | OPEN API | 위에 표 참고 |
반정형 데이터 | OPEN API, FTP | 로그, 신호, 센서 |
비정형 데이터 | OPEN API, 웹크롤링, 스트리밍, FTP | 소리, 영상, 텍스트 |
'Major Study > 25-1 확률과 통계' 카테고리의 다른 글
[확률과 통계] 5장. 추정 (0) | 2025.05.27 |
---|---|
[확률과 통계] 4장. 모집단과 표본 (0) | 2025.04.15 |
[확률과 통계] 3장. 확률과 확률변수 2 (0) | 2025.04.06 |
[확률과 통계] 3장. 확률과 변수 (0) | 2025.04.02 |
[확률과 통계] 2장. 정형자료 분포지표와 시각화 (0) | 2025.04.01 |