대규모 언어 모델이 등장하면서 머신러닝에서 라벨이 지정되지 않은 데이터의 중요성이 급격히 증가했습니다. 이 모델을 약한 지도 학습 또는 준지도 학습이라고 합니다. 그 핵심은 훈련을 위해 사람이 라벨을 붙인 소량의 데이터와 라벨이 붙지 않은 대량의 데이터를 결합하는 것입니다. 즉, 데이터의 출력 값 중 일부에만 레이블이 지정되고 나머지 데이터에는 레이블이 없거나 부정확하게 레이블이 지정됩니다. 이 접근 방식은 라벨링에 많은 비용과 시간이 소요될 때 라벨이 지정되지 않은 풍부한 데이터를 최대한 활용할 수 있는 효율적인 솔루션을 제공합니다.
현대 머신러닝 분야에서는 주석이 달린 데이터를 얻는 데 드는 비용이 매우 높기 때문에 주석이 달린 완전한 대규모 데이터 세트를 보유하는 것이 비현실적입니다.
데이터 라벨링과 관련하여 많은 학자와 엔지니어는 라벨링 프로세스에 드는 높은 비용을 즉시 생각합니다. 이 프로세스에는 특정 현상을 식별하기 위해 오디오 클립을 복사하거나 물리적 실험을 수행하는 등 전문 인력이 필요할 수 있습니다. 따라서 준지도 학습은 이론적으로 흥미로울 뿐만 아니라 실제로 다양한 문제에 대한 실현 가능한 솔루션을 제공합니다. 이는 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 연결하는 강력한 도구가 됩니다.
반지도 학습 기술은 특정 상관관계를 가정하므로 라벨이 지정되지 않은 대량의 데이터를 활용하여 분류 성능을 크게 향상시킬 수 있습니다.
반지도 학습 기술은 데이터의 기본 분포에서 의미 있는 정보를 추출하는 능력을 가정합니다. 이러한 기술에는 연속성 가정, 클러스터링 가정 및 다양체 가정이 포함됩니다. 이러한 가정은 레이블이 지정되지 않은 데이터에서 구조를 학습하는 데 도움이 됩니다. 예를 들어 데이터 요소가 서로 가까우면 동일한 레이블을 가질 가능성이 더 높습니다. 또한 데이터는 종종 개별 클러스터를 형성하므로 동일한 클러스터 내의 포인트가 레이블을 공유할 수 있습니다. 이러한 가정 하에서 준지도 학습은 데이터의 본질적인 특성을 보다 효율적으로 학습할 수 있습니다.
매니폴드 가설은 데이터가 종종 저차원 다양체에 위치한다고 명시합니다. 이 관점을 통해 학습 과정에서 차원의 저주를 피할 수 있습니다.
반지도 학습의 역사는 1960년대 자가 학습 방법으로 거슬러 올라갑니다. 이후 1970년대에 Vladimir Vapnik은 전도성 학습의 프레임워크를 공식적으로 도입하고 생성 모델을 사용하여 유도 학습을 탐구하기 시작했습니다. 이러한 방법은 이론 연구에서 핫스팟이 되고 기계 학습의 발전을 촉진하기 시작했습니다.
실제 적용에서는 다양한 방법이 얽혀 상대적으로 복잡한 생태계를 형성합니다. 생성 모델은 먼저 다양한 카테고리에 따른 데이터 분포를 추정하므로, 주석이 달린 데이터가 부족한 경우에도 모델이 효과적으로 학습할 수 있습니다. 마찬가지로, 저밀도 분리 방법은 데이터 포인트가 희박한 영역에 경계를 그려 레이블이 지정된 데이터와 레이블이 없는 데이터를 분리하는 목적을 달성합니다.
이 일련의 기술에서 라플라시안 정규화는 그래프 표현을 사용하여 데이터 학습을 수행합니다. 이러한 그래프는 유사성을 통해 레이블이 지정된 샘플과 레이블이 지정되지 않은 각 샘플을 연결하고, 그래프의 구조를 통해 데이터의 내부 연결을 강조하며, 나아가 레이블이 지정되지 않은 데이터를 사용하여 학습 프로세스를 추진합니다.
<블록인용>이론적으로 준지도 학습은 인간의 학습 과정을 시뮬레이션하는 모델로 매력적이고 실용적입니다.
요약하자면 약한 지도 학습의 등장은 바로 레이블이 지정된 데이터의 부족 문제를 해결하고 레이블이 지정되지 않은 데이터의 엄청난 잠재력을 보여주기 위한 것입니다. 데이터의 급속한 성장과 기계 학습 기술의 지속적인 발전으로 인해 우리는 향후 연구에서 레이블이 지정되지 않은 데이터의 잠재력을 어떻게 더 잘 활용해야 하는지 다시 생각해야 할 수도 있습니다.