본문 바로가기

분류 전체보기

(47)
[Database] 05 관계형 데이터 모델 01 데이터베이스 구축과 설계데이터베이스 설계- 현실의 시스템을 데이터베이스화하기 위한 과정- 개념적 모델링, 논리적 모델링, 물리적 모델링으로 구현한다. 관계 데이터베이스 설계 모델 개념적 모델링- 요구사항을 수집하고 분석한 결과를 토대로 업무의 핵심적인 개념을 구분하고 전체적인 뼈대를 만드는 과정이다.- 개체(entity)를 추출하고 각 개체들의 관계를 정의해서 ERD을 만드는 과정이다. 논리적 모델링- 개념적 모델링에서 만든 ERD을 사용하려는 DBMS에 맞게 매핑하여 실제 데이터베이스로 구현하기 위한 모델을 만드는 과정이다. - 논리적 모델링 과정 : 1. 개념적 모델링에서 추출하지 않았던 상세 속성들을 모두 추출한다. 2. 정규화 수행 ..
[Database] 04 관계형 데이터 모델과 릴레이션 01 릴레이션 용어테이블- 정형 데이터를 보관하는 직관적이고 효과적인 데이터 구조이다.ex) 회원 테이블 : 회원들의 데이터를 보관- 두 종류의 질적 정보 (구조 정보, 값 정보)로 구성된다. 테이블의 2가지 구성 정보- 구조정보 : 테이블의 구조에 대한 정보이다.ex) 이름, 출생년도, 주소 - 최초 테이블이 정의될 때 내재된다. (정적특성) -> 내포(intention)이라 부른다. - 값정보 : 구체적인 값 정보이다.ex) (“강호동”, 1970, “대전”), (“유재석“, 1972, “경북“), (“신동엽“, 1971, “광주“)- 최초 테이블이 정의된 이후 바깥의 데이터에 의해 확장된다. (동적특성) -> 외연(extension)이라 부른다. 구조 정보의 구성- 이름 정보 : 데이터의 대상을 표..
[Database] 03 데이터베이스 설계 01 데이터베이스 구축과 설계데이터베이스 모델- 데이터베이스의 성능을 향상시키기 위해 제안된 체계화된 구조이다.- 2010년대에 들어서는 관계 데이터 모델(Oracle, DB2), 객체-관계 데이터 모델(UniSQL) 등이 많이 사용되고 있다. 데이터베이스 구축- 현실 세계의 시스템을 컴퓨터 세계의 데이터베이스로 옮기는 변환 작업이다. 현실 세계의 시스템- 시스템(system): 개체(entity)들이 서로 관계(relationship)를 맺으며 복잡하게 상호작용하는 것이다.- 단순 시스템 : 개체들 간에 관계 X- 복합 시스템 : 개체들 간의 관계 O 데이터베이스 구축 단계* 데이터베이스 구축 의뢰 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 데이터베이스 입력 * 데이터베이스 구축 단계-..
[Machine Learning] chapter 4. 다양한 분류 알고리즘 1. 로지스틱 회귀데이터 준비import pandas as pdfish = pd.read_csv('http://bit.ly/fish_csv_data')fish.head() 위 데이터프레임에서 Species 열을 타깃으로 만들고 나머지 5개 열을 입력 데이터로 사용하겠다.print(pd.unique(fish['Species']))>>> ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']fish_input = fish[['Weight','Length','Diagonal','Width']].to_numpy()print(fish_target[:5])>>> [[242. 25.4 30. 4.02 ] [290. 26..
[확률과 통계] 4장. 모집단과 표본 01 모집단과 표본모집단 (population)- 연구나 조사의 관심 대상 전체의 모임이다.- 때로는 관심대상 전체 측정값들의 집합을 모집단으로 간주한다. 표본 (sample)- 모집단의 부분집합- 모집단을 잘 설명하기 위해서는 대표성을 갖춰야 한다. 전수조사- 모집단 전체를 조사하는 것이다. 표본조사- 추출된 표본에 의하여 조사하는 것이다.- 모집단의 특성을 추정을 할 때 사용한다.- 표본추출에서 선택편향이 발생하면 알맞은 조사방법이라고 볼 수 없다. 통계량- 모수의 추정을 위해 사용되는 표본들의 함수이다. (추정량)통계치- 통계량의 값이다. (추정치)모집단의 분포 ex) 베르누이 분포 X ~ Bernoulli(p) 이항분포 X ~ B(n,p) ..
[Machine Learning] chapter3 - 회귀 알고리즘과 모델 규제 1. K-Nearest Neighbors Regression지도 학습 알고리즘은 크게 분류와 회귀(regression)으로 나뉜다.회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 숫자를 예측하는 문제로 정해진 클래스가 없고 수치를 출력한다. k-최근접 이웃 회귀도 분류와 똑같이 예측하려는 샘플에 가장 가까운 k개를 선택한다.하지만 회귀이기 때문에 샘플의 타깃은 클래스가 아니고 임의의 수치이다.이웃 샘플의 수치를 사용해 x를 예측하려면 이 수치들의 평균을 구하면 된다. 데이터 준비데이터를 준비하고 산점도를 그려보면,import numpy as npimport matplotlib.pyplot as pltperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18..
[Database] 02 데이터 수집과 구조 01 데이터 수집과 전처리데이터 수집- 관찰과 측정으로 원시 데이터(raw data)를 생성한다. 데이터 전처리 (data pre-processing)- 데이터베이스에 보관 불가능한 원시 데이터를 데이터베이스에 보관/관리/검색이 가능한 가공데이터로 바꾼다. 데이터 전처리 진행에 따른 데이터 분류원시데이터 (raw data)- 최초의 현실에서 얻어진 데이터이다.- 데이터베이스에 보관이 불가능하다.ex) 영수증, 이미지, 영상 ... 중간데이터(intermediate data)- 원시데이터를 데이터베이스에 보관이 가능하게 만드는 과정의 중간데이터이다. - 하지만 여전히 보관은 안 된다.ex) 종이영수증을 스캔해서 얻은 jpg파일 가공데이터(processed data)- 원시데이터를 가공해서 데이터베이스 보관..
[Database] 01 데이터베이스 시스템 01 데이터베이스 개괄데이터과학데이터과학이란 데이터로부터 결과물을 만들어내는 것이다.가능한 결과물에는 2종류가 있다. 1) 데이터로부터 '분석'을 통해서 과학적/산업적 의사결정 근거를 산출한다.2) 데이터로부터 '모델링'을 통해서 인공지능 제품을 산출한다. 데이터과학 과정 (풀스택 4단계)1. 데이터수집 : 통계조사, 센서 개발/측정, 웹 크롤링2. 데이터 가공 및 보관 : 라벨링, 구조화, 데이터베이스3. 분석 및 모델링 : 통계 분석, 시각화, 기계학습, 인공지능4. 제품화 : 웹/앱 개발, 시스템 구축 데이터과학과 데이터베이스의 관계- 데이터과학 :1) 데이터로부터 '분석'을 통해서 과학적/산업적 의사결정 근거를 산출한다.2) 데이터로부터 '모델링'을 통해서 인공지능 제품을 산출한다. - 데이터베이..