第307章 模型崩溃(4506)

    第307章 模型崩溃(4506) (第2/3页)

下看了看显示器,不由得皱了皱眉。

    “训练十轮后,使用了原始数据的模型2未出现性能下滑,过拟合的现象可以通过正则以及数据清洗来进行过调整。”

    “而使用橘子大模型生成图片进行训练的模型1,出现了明显的过拟合,老板,你看一下,十轮之后,生成的图片开始出现趋同性。”

    “而使用模型1每一轮生成数据进行训练的模型3……”

    杜长庚脸上闪过一丝忧色:“到了第5轮,模型3的过拟合就已经超过了经过十轮训练的模型1,而到了第九轮,整个模型已经濒临崩溃,几乎已经无法输出有意义的数据。”

    “这个结果让我们很惊讶,于是用不同模型生成的数据来训练一个新的3B子模型,命名为模型4,最终训练后的性能与模型1非常类似,并没有什么改善。”

    “在最初,我们认为是数据质量的问题,橘子大模型图片类数据中可能存在一定的失真,因此又采用文字进行了重复训练。”

    “橘子大模型生成的文字数据错误率远比模型2使用的原始数据错误率更低,但最终采用橘子大模型生成的文字数据进行训练的模型1,仍旧出现了性能下降,多轮训练后的过拟合现象比模型2高出近五倍。”

    “而在这种情况下,模型3同样在八到九轮之后,也出现了模型崩溃。”

    “也就是说,无论AI生成的数据质量高低,只要采用AI生成的数据训练大模型,就会造成大模型性能下降,这……这简直不可思议!”

    “简直就像……”

    “近亲繁殖?”陆嘉言好奇的接了一句。

    “对!近亲繁殖!没错!”杜长庚一拍巴掌,惊讶的看了一眼陆嘉言,没想到这个小老板娘明明是个外行,理解力还真不错。

    方豫摸着下巴若有所思。

    对这个结果,他自己早就有所猜测,否则也不会提出做对比实验的办法。

    杨子龙和杜长庚所发现的问题,粗看上去确实有点诡异,相同的数据,被AI处理过一遍,再用来训练另一个AI,效果居然比不上质量更差的人工清洗的数据。

    而再用这个训练后的AI生成的数据继续训练AI,无论是训练哪个AI,又会造成性能进一步下降。

    这个问题看上去诡异,但实际上,只要稍稍思考一下也就能明白,应该还是数据多样性和复杂性不断被AI简化所造成的问题。

    不用说橘子大模型,即使是柚子,生成的数据也不可能是百分之百完全正确的,虽然这些错误可能比人工数据要少,但错误的方式却缺乏多样性和复杂性。

    说白了,就是AI聪明的千篇一律,但人类却愚蠢的千奇百怪。

    但在种族传承的角度上来说,愚蠢的千奇百怪的人类,却比自己创造出比人类更聪明的AI具备更强的种族传承能力。

    窝草?这么一想,孟广康那种傻x,对人类文明的传承贡献还不小?

    差点把我的厌蠢症都治好了?

    重复使用这种数据进行训练,类似的错误会被大模型认为是真实,从而变成“思想钢印”,继续产出错误更多的内容。

    再用这些内容进行训练,就会产生“偏差-方差权衡”,也就是说,越大概率的内容被进一步强化,小概率的内容被不断忽视。

    越是下一代模型,损失的数据反而会越多。

    同时,因为大模型的特性,又会产生“函数近似误差”,大模型会把学的错误的东西也保留下来,一代代的积累,最终变成全部都是错误,从而丧失纠错能力。

    这种情况,确实和近亲繁殖所导致的近交衰退非常类似。

    从这个角度上看,AI大模型其实已经具备了一定的生物性。

    只不过这种生物种群过于单一,造成了近亲繁殖。

    这个问题目前还不算太紧迫,毕竟互联网上可以使用的原始数据非常多,无非就是加大数据组的投入,获取更多的原始数据,增加数据预处理人手和方式就能够解决。

    但从长远来看,不,不用太长远,AI的爆发一定是指数级的。可能两到三年后,互联网上可能超过百分之七十的数据就都是AI所生成的,而人类几乎无法区分这究竟是AI生成的数据还是真实的人工数据。

    那时候,AI大模型不管参数有多庞大,可能都会面临由于训练数据被AI生成数据污染,而造成性能下降或崩溃。

    “三十万亿。”方豫快速的估算出了一个数字。

    ???

    几个组长都是一脸问号。

    

    (本章未完,请点击下一页继续阅读)