기타/공부노트

지도학습과 비지도학습

코드아키택트 2021. 1. 15. 14:52
반응형

※edx: IBM ML0101EN : Machine Learning with Python: A Practical Introduction 내용을 기반으로 작성하였습니다.

지도학습과 비지도학습 (https://www.researchgate.net/figure/Examples-of-Supervised-Learning-Linear-Regression-and-Unsupervised-Learning_fig3_336642133)


 

 

지도학습

우리는 모델을 가르침으로써 이것을 합니다. 즉, 모델에 지식을 적재하여 향후 사례를 예측하도록 하는 것입니다.

 

 

정확히 모델을 어떻게 학습시키는가?

우리는 라벨링된 데이터 세트의 일부를 사용하여 모델을 교육합니다.

라벨링된 데이터 예시 - 암 데이터세트. 빨간색은 라벨 종류. 

 환자들의 진단기록을 볼 수 있으며, 우리는 이미 각 행의 Class(benign:양성, malignant:음성)을 알고 있습니다.

각 데이터에 대한 정의는 다음과 같습니다.


 

 

지도학습의 종류 : Classification 과 Regression

지도학습은 두 종류 : 분류와 회귀분석
분류는 이산형 클래스 레이블 또는 범주를 예측하는 프로세스입니다.

 즉 데이터들이 어느 범주에 속하는지 예측하는 것이 분류.

 

회귀 분석은 연속되는 값을 예측하는 과정.

 위의 데이터엔 엔진크기, 실린더 갯수, 연료 소비량, 탄소 배출량이 포함되어 있다. 위 데이터로 부터 회귀 분석이 가능하다. 엔진크기, 실린더 갯수, 연료 소비량 등으로 부터 새로운 자동차의 탄소 배출량을 예측할 수 있다.(위의 표 중 ? 부분)


 

 

 

비지도학습이란?

우리가 모델을 지도하지 않고 모델이 사람눈에는 보이지 않는 정보를 알아서 찾도록 한다. 즉, 비지도학습 알고리즘은 데이터셋을 학습하고 라벨링 되지 않은 데이터에 대해 결론을 내린다.

 

 일반적으로 우리는 데이터나 예측되는 결과에 대한 정보를 거의 모르기 때문에 비지도학습은 지도학습에 비해 더 어려운 알고리즘을 가진다. 다음과 같은 비지도학습 기술들이 많이 사용된다.

  • 차원축소
  • 밀도추정
  • 장바구니 분석
  • 클러스터링(군집화)

차원축소feature selection은 중복되는 값을 줄임으로 큰 역할을 한다

 

장바구니 분석은 이론에 근거한 모델링 방법이다. 그 이론은 만약 당신이 특정 그룹의 물건들을 산다면, 다른 그룹의 물건들을 살 가능성이 높다는 것이다.

 

밀도 추정은 데이터 안의 구조를 찾기위해 대부분 사용되는 간단한 컨셉이다.

 

 

클러스터링이란?

클러스터링(군집화)는 데이터 포인트나 어찌되었든 유사한 객체들을 군집화 하는데 사용되는 가장 인기있는 방법 중 하나이다. 은행이 고객들을 특정 성격에 따라 분류하거나, 개개인이 좋아하는 음악을 그룹으로 정리하는 것 등이 예시이다.


 

 

 

요약

  지도학습 비지도학습
종류 Classification(분류) / Regression(회귀분석) Clustering(군집화)
특징1 비지도학습에 비해 평가 방법이 많음 지도학습에 비해 평가 방법이 적음
특징2 통제된 환경 덜 통제된 환경

 지도 학습은 데이터의 라벨이 이미 지정되어 있고, 어떤 독립변인으로 어떤 종속변인이 변한느지 알고자하는게 이미 지시되어 있어 통제된 환경이라고 보면 되고, 반대로 비지도학습은 기계가 알아서 의미를 찾아내기때문에 덜 통제된 환경이라 표현한 것 같다.

반응형