随着机器学习技术的迅猛发展,许多研究者开始注意到一个新出现的现象:模型崩溃。这个现象描述了机器学习模型在使用未经整理的合成数据进行训练时,逐渐流失信息和性能的过程。根据Shumailov等人所提出的定义,模型崩溃分为早期模型崩溃和晚期模型崩溃两个阶段。
在早期模型崩溃中,模型开始丧失关于数据分布尾部的信息,这主要影响了少数数据的准确度。
当我们使用合成数据来训练模型时,潜在的问题便会浮出水面,这包括功能近似错误、抽样错误和学习错误。即便是在最简单的模型上,这些问题也有可能发生,尤其是在复杂模型中,错误更加容易累积,从而使模型崩溃加速。这使得早期崩溃难以察觉,因为整体性能可能看似有所提升,而对于少数数据的性能却是下降的。
晚期模型崩溃则会导致模型性能的重大损失,错误混淆概念,并失去大部分变异性。
模型崩溃的根本原因可以概括为三方面,一是功能近似错误,二是抽样错误,三是学习错误。这些问题的累积会导致模型的整体表现下降。尤其是在资料的互联网共享中,AI生成的数据会进入未来的训练数据集中,造成恶性循环。
许多研究者对此现象表示担忧,认为模型崩溃将会对未来的生成式AI发展形成根本性的威胁。然而,最近有一些研究员对此提出了不同的观点。他们认为,只要合成数据与人类生成的数据一起累积,则模型崩溃是可以避免的。他们的研究指出,数据随时间累积的模式更符合现实,而不只是每年删除所有数据。
现实世界的影响可能不像人们想像的那么悲观。
除了以上讨论,另一派文献则研究了机器学习检测器和水印技术的使用,以识别模型生成的数据并过滤掉这类数据。这些方法为处理模型崩溃提供了新的思路。
在2024年,研究者首次尝试使用简单的1D高斯模型来展示崩溃现象。该模型采用基于原始数据的不偏估计器计算均值和方差。尽管这种简单模型的结果不能充分反映出现实中的复杂性,但它为进一步的研究提供了基础。
随着模型的演进,即便是第一代后,完整的分布已不再呈现常态,反而会转变为方差-伽玛分布。
这一探索虽然看似理论性,但其意义在于提供了一种工具,以帮助理解和评估不同世代之间的变化。透过这些模型,研究者能够计算出在每一代中预期的均值和方差,从而更佳地掌握模型崩溃的动态过程。
在面对机器学习模型逐渐芬芳的现实中,我们应该进一步思考:未来的生成式AI是否能够成功应对模型崩溃的挑战,还是会在不知不觉中陷入更深的困境呢?