清华大学孙茂松教授探讨大模型机理,构建AI新理论

2025-05-01 21:20:42 股票分析 facai888

大模型机理的探索之路:孙茂松教授的深刻见解

孙茂松教授,清华大学人工智能研究院的学者,近期在讨论大模型机理时,提出了许多独特的观点。他认为,只有深入理解大模型的机理,才有可能突破现有局限性,构建下一代AI理论和模型。

ChatGPT的“知其然,不知其所以然”与工业革命类比

孙茂松指出,目前人工智能领域的大公司和机构都在积极追求大模型效果的优化,而忽略了对其机理的深入思考。这种状况让他联想到工业革命时期,虽然蒸汽机带来了革命,但其机理的真正解释却需要100年时间。ChatGPT虽然已出现,但其背后机理的探究尚未深入。

语言能力的崛起与5000年未有之变局

语言是人类独有的能力,而ChatGPT的出现使机器也具备了语言对话的能力。孙茂松认为,这是5000年来前所未有的变化,将会催生一系列新的应用。

语料利用的粗放阶段与长文写作的挑战

目前,大模型的语料利用还处于粗放阶段,只是从互联网上抓取语料,还未涉及到网页中的超链接、图片处理、文本结构的识别和利用等。这也导致了大模型在写长文和短篇小说方面的不足,难以保持逻辑的流畅和人物角色的连贯。

清华大学孙茂松教授探讨大模型机理,构建AI新理论

通用大模型与“跟跑”的状态

孙茂松表示,国内在通用大模型方面处于“跟跑”状态,与领跑者的差距明显。尽管在某些方面有所缩小,但关键性能上仍有差距。而深入研究大模型的机理,或许能让我们在竞争中占据优势。

语料质量的重要性与“水至清则无鱼”

孙茂松强调,在构建大模型时,对语料质量要保持足够的关注。剔除不通顺、计算机生成的语料,利用质量好的语料。只是,过于纯净的语料可能导致多样性损失,因此需要根据应用场景判断什么样的语料是好语料。

算力与人才:人工智能发展的两翼

孙茂松认为,无论是模型还是应用,都离不开硬件厂商或云服务商的支持。而算力作为稀缺资源,对新兴行业的发展至关重要。但从长远来看,人才对人工智能的未来影响更大。

人工智能浪潮与“百模大战”

自2010年起,人工智能领域掀起了一波浪潮。孙茂松表示,国内的“百模大战”并非贬义,而是实力的象征。未来,通用大模型将支撑垂直模型的开发,从业者将更多关注行业应用。

孙茂松认为,理解类大模型不存在“幻觉”,而生成类的大模型,如ChatGPT,则需要与事实对齐。这对于大模型的发展提出了挑战,也是目前研究的重点。

大模型涉及到的数学问题与经典数学完全不同,为理解大模型机理带来了挑战。孙茂松表示,数学家从未解过如此大的方程组,这也使得大模型机理的探索更加困难。


在解决了清华大学孙茂松教授探讨大模型机理,构建AI新理论的问题后,我们可以安心推进孙茂松教授:AI大模型应用与未来趋势。

语言的力量:从人类到机器的对话革命

搜索
最近发表
标签列表