隨著機器學習技術的迅猛發展,許多研究者開始注意到一個新出現的現象:模型崩潰。這個現象描述了機器學習模型在使用未經整理的合成數據進行訓練時,逐漸流失信息和性能的過程。根據Shumailov等人所提出的定義,模型崩潰分為早期模型崩潰和晚期模型崩潰兩個階段。
在早期模型崩潰中,模型開始喪失關於數據分佈尾部的信息,這主要影響了少數數據的準確度。
當我們使用合成數據來訓練模型時,潛在的問題便會浮出水面,這包括功能近似錯誤、抽樣錯誤和學習錯誤。即便是在最簡單的模型上,這些問題也有可能發生,尤其是在複雜模型中,錯誤更加容易累積,從而使模型崩潰加速。這使得早期崩潰難以察覺,因為整體性能可能看似有所提升,而對於少數數據的性能卻是下降的。
晚期模型崩潰則會導致模型性能的重大損失,錯誤混淆概念,並失去大部分變異性。
模型崩潰的根本原因可以概括為三方面,一是功能近似錯誤,二是抽樣錯誤,三是學習錯誤。這些問題的累積會導致模型的整體表現下降。尤其是在資料的互聯網共享中,AI生成的數據會進入未來的訓練數據集中,造成惡性循環。
許多研究者對此現象表示擔憂,認為模型崩潰將會對未來的生成式AI發展形成根本性的威脅。然而,最近有一些研究員對此提出了不同的觀點。他們認為,只要合成數據與人類生成的數據一起累積,則模型崩潰是可以避免的。他們的研究指出,數據隨時間累積的模式更符合現實,而不只是每年刪除所有數據。
現實世界的影響可能不像人們想像的那麼悲觀。
除了以上討論,另一派文獻則研究了機器學習檢測器和水印技術的使用,以識別模型生成的數據並過濾掉這類數據。這些方法為處理模型崩潰提供了新的思路。
在2024年,研究者首次嘗試使用簡單的1D高斯模型來展示崩潰現象。該模型採用基於原始數據的不偏估計器計算均值和方差。儘管這種簡單模型的結果不能充分反映出現實中的複雜性,但它為進一步的研究提供了基礎。
隨著模型的演進,即便是第一代後,完整的分佈已不再呈現常態,反而會轉變為方差-伽瑪分佈。
這一探索雖然看似理論性,但其意義在於提供了一種工具,以幫助理解和評估不同世代之間的變化。透過這些模型,研究者能夠計算出在每一代中預期的均值和方差,從而更佳地掌握模型崩潰的動態過程。
在面對機器學習模型逐漸芬芳的現實中,我們應該進一步思考:未來的生成式AI是否能夠成功應對模型崩潰的挑戰,還是會在不知不覺中陷入更深的困境呢?