Machine learning/Education 3

생활코딩 Machine learning - 하

1_ 비지도 학습의 군집화(Clustering) 군집화란 비슷한 것들을 찾아서 그룹을 만드는 것을 말한다. (흔히 공학에서 비슷한 것들을 묶는 그룹핑과 같은 개념) 군집화는 비지도 학습이며, 지도 학습에 분류라는 학습 방법이 있다. 이는 비슷하면서도 분명한 차이 점이 존재하는데, 군집화란 비슷한 것들을 모아서 지정하는 것이 목적이고, 분류란 무언가를 어떤 그룹에 위치 시키는 것이 목적이다. 아래의 그림과 같이 비슷한 행을 묶는 것이 Clustering이라 부른다. 2. 비지도 학습의 연관 규칙 학습(Association rull learning) 일명 장바구니 학습이라 불리며 이전의 "추천"이라는 키워드가 붙은 기능들은 대부분 연관 규칙 학습을 사용하였다. 데이터의 관측치를 그룹핑 해주는 것이 군집화라면..

생활코딩 Machine learning - 중

지도학습은 역사와 비슷하다. 원인을 알면 결과를 예측할 수 있다. [ 과거의 데이터를 학습하여 결과를 예측하는 방식 ] 아래의 레몬레이드 판매에 대한 표를 살펴볼 때 ,머신러닝의 지도학습이 이용될 수 있다. > 충분히 많은 데이터를 확보해야 하며, 이것을 독립변수와 종립변수로 분리 해야 한다. > 컴퓨터는 그 관계를 설명할 수 있는 공식을 만든다. = Model(modeling) 과거에는 이를 만들기 위해 고도의 실험과 수학이 필요로 했으나, 지금은 머신러닝이 등장하면 과거와는 비교도 할 수 없을 정도의 적은 노력과 지식으로 만들 수 있다. 공학은 극단적인 상황을 위해서 존재한다. 예를 들면 아래와 같이 단순한 한 가지의 일이 셀 수 없는 행위로 증폭 될 수 있다. 지도학습에서 회귀(regression)..

생활코딩 Machine learning - 상

현실을 수치화 시켜서 데이터로 만들고, 이를 이용하는 것이 데이터 공학이다. 데이터 과학은 데이터를 자체를 다룬다면 데이터 공학은 데이터를 다루는 것을 도와주는 공학이다. 데이터 산업에서는 행과 열을 복잡하고 어려운 표현을 사용한다. 행 = 개체(instance), 관측치(observed), 기록(record), 사례(example), 경우(case) 열 = 특성(feature), 속성(attribute), 변수(variable), filed 독립변수(Independent variable) 와 종속변수(Dependent variable)을 이해해야 한다. 독립변수 = 원인 / 종속변수 = 독립변수로 인해 발생한 결과 영향, 이상, 패턴 등을 파악하여 상관관계를 밝히는 것이 무엇보다 중요하며, [ 상관관계..