비지도 학습은 학습 벡터에 목표값 (target value)이 없을 때, 학습 데이터의 관계를 추론하여 학습을 진행하는 방식이다. 예를 들어, 비지도 학습에서는 고양이라는 것을 알려주지 않고 아래의 그림을 보여준다. 비지도 학습의 목표는 머신러닝 알고리즘이 아래의 [그림 1]을 보고 '네 마리의 동물은 고양이다'라고 학습하는 것이 아니라, '네 마리의 동물은 서로 같은 종'이라는 사실을 추론하는 것이다.
[그림 1] 서로 연관이 있는 학습 데이터들
비지도 학습은 통계학의 밀도 추정 (density estimation)과 깊은 연관이 있으며, 머신러닝 및 데이터 마이닝 분야에서는 클러스터링 (clustering)에 많이 이용된다. 비지도 학습 또는 생성 학습 (generative learning)이라고 불리는 머신러닝 알고리즘으로는 아래와 같은 알고리즘들이 있다.
Deep neural network (DNN)
Self-organizing map (SOM)
Adaptive resonance theory (ART)
Deep autoencoder
Deep belief network (DBN)
Boltzmann machine (BM), Restricted Boltzmann machine (RBM)
K-means algorithm
지도 학습은 학습 데이터 (learning data)와 그 데이터에 대한 목표값 (target value)으로 구성된 학습 벡터를 이용하여 머신러닝 알고리즘이 모든 학습 벡터에 대해 원하는 목표값을 출력하도록 학습을 수행하는 방법이다. 학습 데이터만을 포함하는 비지도 학습의 학습 벡터와 다르게, 지도 학습에 이용되는 학습 벡터는 학습 데이터와 그 학습 데이터에 해당하는 목표값을 포함한다. 예를 들어, 지도 학습에 이용되는 학습 벡터는 아래의 [표 1]처럼 표현될 수 있다. 각 행은 하나의 학습 벡터를 나타내며, [표 1]에서는 총 4개의 학습 벡터를 나타내고 있다.
[표 1] 지도 학습에 이용되는 학습 벡터의 예시
지도 학습을 이용하는 대표적인 알고리즘으로는 아래와 같은 알고리즘들이 있다.
- Hidden Markov model (HMM)
- Perceptron
- Convolutional neural network (CNN)
- Support vector machine (SVM)
- Naive Bayes classifier (NBC)
기존의 비지도 학습과 지도 학습은 인공신경망이 연구되었던 시기부터 이용되어왔던 학습 모델이다. 그러나 비지도 학습과 지도 학습에는 아래와 같은 주요한 문제가 있다.
- 일반적으로 학습 데이터는 단순히 측정된 데이터일 뿐, 데이터에 포함된 오차나 각 데이터 간의 관련성을 포함하지 않는다.
- 비지도 학습과 지도 학습은 임의의 지점에서 학습을 시작하며, 학습 시작점에 따라 학습의 효율이 변동한다.
이러한 문제는 학습 데이터의 오차 보정 및 정규화, 초기화 방법 등에 대한 많은 연구를 통해 조금씩 해결되어 왔다. 하이브리드 학습 모델 또한 이러한 문제를 해결하기 위한 방법론 중 하나로써, 비지도 학습 모델의 알고리즘을 이용하여 학습 데이터를 1차적으로 튜닝 (tuning)하고, 이 데이터를 이용하여 지도 학습 모델의 알고리즘을 학습하는 방법이다.
[그림 2] 하이브리드 학습 모델의 구조
하이브리드 학습 모델은 기존의 오차 보정 및 정규화, 초기화 방법 등의 기법보다 월등히 높은 학습 성능상의 향상을 보여주었다. 하이브리드 학습 모델을 바탕으로 다양한 머신러닝 알고리즘을 중첩하여 학습의 정확도를 비약적으로 향상시킨 것이 바로 딥 러닝 (deep learning)이다.
[1] Li Deng, Dong Yu. 2014. Deep Learning: Methods and Applications. Foundations and Trends in Signal Processing, Vol. 7, Issue 3-4, 2014, pp. 197-387.
[2] D. Erhan, Y. Bengio, A. Courvelle, P.Manzagol, P. Vencent, and S. Bengio. 2010. Why Does Unsupervised Pre-training Help Deep Learning?, Journal on Machine Learning Research, 2010, pp. 201-208.