Day to_day

머신러닝의 유형? 알고 넘어가기! 본문

Machine Learning

머신러닝의 유형? 알고 넘어가기!

m_inglet 2023. 1. 18. 01:04
728x90
반응형

❗들어가기 전에 이 포스팅은 "파이썬 머신러닝" 서적을 읽고 개인적인 정리를 목적으로 작성했음을 알립니다. 

 

머신러닝의 세가지 유형

  • 지도학습 (Supervised Learning)
  • 비지도학습 (Unsupervised Learning)
  • 강화학습 (Reinforcement Learning)

 

지도학습

레이블이 있는 훈련 데이터로 모델을 학습하여 경험하지 못한 데이터나 미래의 데이터에 관한 예측을 만들어 내는 것이다.

 

 

 

지도학습에는 어떤 것을 예측할 지에 따라 두 가지로 나뉜다.

  1. 분류 모델 (classification)
  2. 회귀 분석 (regression)

 

1. 분류 모델

지도 학습의 영역으로 과거 관측치에 기반하여 새로운 인스턴스들의 분류 레이블을 예측하는 것을 목표로 한다. 이러한 분류 레이블은 이산적이고 순위가 없는 특징의 값(범주형)들로 각 인스턴스가 그룹에 속하는지에 관한 것이라고 할 수 있다.

예) 스팸 메일인지 아닌지 구분하기

 

 

 

2. 회귀분석

연속형 결과를 예측하는 것으로 회귀분석으로 불리기도 한다. 회귀 분석에서는 복수 개의 예측(설명) 변수들과 하나의 연속형 반응 변수(결과)가 주어진다. 그리고 이러한 변수들 간의 관계를 찾아서 결과를 예측하게 된다.

예) ‘시험 공부에 투자하는 시간’이 데이터라고 하면 미래 시험 점수를 예측

주어진 예측 변수 x가 있고, 하나의 반응 변수 y가 있다고 할 때, 우리는 샘플 점들과 피팅될 선 간의 거리(일반적으로는 평균 제곱 거리)를 최소화하는 하나의 직선을 피팅할 수 있다. 즉 오차를 최소화하는 선을 만든다는 말이다.

 

 

 

비지도 학습

비지도 학습에서는 레이블이 없는 데이터를 다루거나 구조를 모르는 데이터를 다룬다. 비지도 학습 기법을 이용하면 알려진 결과변수나 보상함수의 도움을 받지 않고서도 데이터 구조를 탐색하여 의미 있는 정보를 추출할 수 있다.

 

 

비지도 학습을 이용한 기법

 

1. 군집분석을 활용하여 서브 그룹찾기

각각의 군집은 특정 수준의 유사도는 공유하나, 다른 군집들 내의 오브젝트와는 훨씬 덜 비슷한 차이를 갖는다. 군집분석은 정보를 구조화하고 데이터 간 의미 있는 관계를 파생하는 데 아주 좋은 기법이다.
군집분석은 그룹 요소에 대한 어떤 사전 지식 없이도 정보의 더미를 의미있는 서브 그룹(군집)으로 구조화할 수 있게 해주는 탐색적 데이터 분석 기법이다.

 


2. 데이터압축을 위한 차원축소

비지도학습의 또 다른 영역은 차원 축소이다. 우리는 종종 고차원의 데이터로 작업하는데 이 데이터들은 제한된 스토리지 공간과 머신러닝 알고리즘의 계산 성능에 대해 어려움이 있을 수 있다.

그렇기 때문에 비지도 차원축소는 데이터의 잡음을 제거하기 위해 피처를 사전 처리 할 때 일반적으로 사용하는 방법이다. 이는 특정 알고리즘의 예측 성능을 떨어뜨릴 수 있으며 관계 정보의 대부분은 유지한 채 데이터를 하위 차원의 부분 공간으로 압축한다.

 

 

 

 

 

강화학습

강화학습의 목표는 환경과 상호작용을 기반으로 하여 자신의 성능을 개선하는 시스템(에이전트)를 개발하는 것이다. 일반적으로 환경의 현재 상태에 대한 정보는 보상 신호라고 하는 것 역시 포함하기 때문에 강화학습은 지도 학습과 관계된 분야라고 할 수 있다.

강화학습에서 피드백은 절대적으로 옳은 레이블이나 값이 아니고, 행위를 보상 함수로 잘 측정할 수 있는 측정 기준에 관한 것이다.

환경과 상호작용을 통한 강화학습을 사용해서 에이전트는 실험적 시행착오 방법이나 심도 있는 계획을 통해 보상을 최대화할 수 있는 연속된 움직임을 학습하게 된다.

 

 

단순히 이론적으로는 와닿지가 않아서 예시를 하나 찾아보았다.

간단한 모션 캡처의 데이터만 주었을 뿐인데 에어전트가 스스로 실패와 보상을 반복하며 학습해 나아가는 영상이다.

 

 

(편집본) 점점 진화하고 있는 딥마인드의 강화학습 AI

 

 

 

요약


지도 학습이 두 가지 중요한 하위 분야로 구성된다. (분류 모델, 회귀분석)

분류 모델이 오브젝트를 알 수 있는 분류로 범주화하게 해주는 반면, 회귀는 목표변수의 연속형 결과를 예측하는 데 사용할 수 있다.

비지도 학습은 레이블이 없는 데이터에서 구조를 발견하는데 유용한 기법을 제공하고, 피처의 전처리 단계에서 데이터를 압축하는 데에도 유용하다.

728x90
반응형
BIG
Comments