정보 이론에서 "복잡성"은 이산 확률 분포 샘플의 불확실성을 측정하는 기준입니다. 간단히 말해서, 혼란이 클수록 관찰자가 분포에서 도출된 값을 예측하기가 더 어려워집니다. 이 개념은 1977년 음성 인식 성능을 개선하고 언어 모델에 대한 심층 연구를 수행하기 위해 연구자 그룹이 처음 제안했습니다.
퍼플렉시티(PP)는 랜덤 변수 집합의 엔트로피를 측정하여 정의됩니다. 엔트로피가 높을수록 퍼플렉시티가 커집니다. 즉, 특정 결과를 예측하는 것이 더 어려워진다는 의미입니다. 구체적으로, 가능한 결과가 k개인 공정한 k면 주사위의 경우 복잡도는 정확히 k입니다.
"당혹스러움은 단순한 숫자가 아니라 미래의 결과를 예측하는 우리의 능력을 반영합니다."
알려지지 않은 확률 모델을 평가하기 위해 우리는 일반적으로 샘플 집합을 기반으로 추론을 수행합니다. 모델의 복잡도는 테스트 샘플에 대한 예측 능력을 정의하며, 값이 낮은 모델일수록 샘플의 결과를 더 잘 예측할 수 있음을 의미합니다.
"더 낮은 복잡도는 더 낮은 예측 놀라움을 의미하며, 이는 모델의 데이터 숙달도와 밀접한 관련이 있습니다."
자연어 처리(NLP)에서 복잡도는 종종 텍스트 처리에서 언어 모델의 효율성을 평가하는 데 사용됩니다. 정규화된 복잡도는 사용자가 다양한 텍스트나 모델을 더욱 명확하게 비교할 수 있게 하므로 실제 응용 분야에서 특히 중요합니다. 모델의 복잡도가 낮을수록 복잡한 언어 구조를 처리하는 데 더 능숙합니다.
2007년 이후, 딥 러닝 기술의 등장으로 언어 모델링에 혁명이 일어났습니다. 새로운 복잡도 측정법은 모델의 예측 능력을 향상시킬 뿐만 아니라, 이러한 기술을 이해하고 사용하는 방식도 변화시킵니다. 그러나 과잉적합과 일반화의 문제는 여전히 존재하며, 이로 인해 복잡도를 맹목적으로 최적화하는 관행에 대한 의문이 제기됩니다.
결론"혼란도는 중요한 지표이지만, 실제 세계에서 모델이 어떻게 수행되는지 항상 정확하게 반영하지는 않습니다."
복잡성은 학문적 연구와 실제 응용 프로그램 모두에서 무시할 수 없을 만큼 중요한 매혹적이고 복잡한 지표입니다. 복잡성을 이해하면 확률적 모델의 행동을 더 잘 예측할 수 있을 뿐만 아니라 미래 기술의 잠재력을 더욱 깊이 탐구할 수도 있습니다. 그러면 모델의 효과에 대한 보다 포괄적인 관점을 얻기 위해 복잡성 최적화와 다른 성능 지표의 균형을 어떻게 맞출 수 있을까요?