현실을 수치화 시켜서 데이터로 만들고, 이를 이용하는 것이 데이터 공학이다.
데이터 과학은 데이터를 자체를 다룬다면 데이터 공학은 데이터를 다루는 것을 도와주는 공학이다.
데이터 산업에서는 행과 열을 복잡하고 어려운 표현을 사용한다.
행 = 개체(instance), 관측치(observed), 기록(record), 사례(example), 경우(case)
열 = 특성(feature), 속성(attribute), 변수(variable), filed
독립변수(Independent variable) 와 종속변수(Dependent variable)을 이해해야 한다.
독립변수 = 원인 / 종속변수 = 독립변수로 인해 발생한 결과
영향, 이상, 패턴 등을 파악하여 상관관계를 밝히는 것이 무엇보다 중요하며,
[ 상관관계 > 인과관계 ] 특성들 간의 관계를 파악하는 것은 무척이나 어려운 일이다.
아래의 예로 무엇을 독립 변수나 종속 변수로 설정할 수 있는지 알 수 있다.
머신러닝의 분류는 아래 처럼 나타낼 수 있다.
> 지도학습 (supervised learning)
데이터로 컴퓨터를 학습시키는 방식.
> 비지도학습 (unsupervised learning)
기계에서 데이터에 대한 통찰력을 부여하는 방식.
누가 정답을 알려주지 않아도 관찰을 통해(데이터의 성격을 파악하거나 정리를 함으로) 새로운 의미나 관계를 파악 함.
> 강화학습 (reinforcement learning)
학습을 통해서 능력을 향상시키는 점에서 지도학습과 비슷하나 차이점은 지도학습은 정답을 알려주지만 강화학습은 어떤 것이 더 좋은 학습이 있는지 훈련을 한다.
각각의 쓰임새를 아래와 같이 정리 가능하다.
해당 본문은 아래의 생활코딩의 Machine learning 을 공부하며 정리한 내용임을 밝힙니다.
모든 이미지와 글은 아래의 유투브 영상에서 캡쳐하였습니다.
www.youtube.com/watch?v=LPqmPfhnR1o&list=PLuHgQVnccGMDy5oF7G5WYxLF3NCYhB9H9&index=1
'Machine learning > Education' 카테고리의 다른 글
생활코딩 Machine learning - 하 (0) | 2020.12.14 |
---|---|
생활코딩 Machine learning - 중 (0) | 2020.12.13 |