瓦特发明蒸汽机后大约100年,热力学三定律才阐明其机理。眼下,ChatGPT等大模型所表现出来的智能涌现,需要多少年才能被解释清楚?在今天举行的浦江基础科学发展论坛上,清华大学人工智能研究院教授孙茂松表示,现在的AI(人工智能)绝对不会再给我们100年,理解大模型需要基础数学的加入,而一旦破解其背后的机理,就有机会超越现有大模型,建立下一代AI的理论和模型。
然而,大模型的参数规模已达到万亿级,如此庞大的数据量给应用数学家提出了极大挑战——他们从未解过如此大规模的方程组。尽管目前世界上敢于“迎战”的数学家还为数不多,但孙茂松仍坚信,不出三五年,大模型智能涌现的机理研究一定会有突破。
智能涌现挑战全球数学家
只需输入几个例子,ChatGPT就能生成一个令人基本满意的答案。这种大大超出人们预期的结果,究竟是如何产生的?这连OpenAI团队也没弄明白。
目前,学界将ChatGPT的表现归为智能“涌现”。所谓涌现,通俗而言是指当一个个孤立的能力以某种方式组织起来,在达到一定规模后,突然爆发出非常强大的能力。人脑就是一种智能涌现的产物。孙茂松说,科学家至今无法理解,为何从微观层面测到的无数简单的电化学信号,会在宏观层面表现出如此复杂的行为和深邃的思想。
对于大模型的智能涌现,在2020年GPT3发布时,就已引起了学界关注。在孙茂松看来,要阐释其背后的机理,需要基础数学的介入,“它需要数学家的深邃理解力,去抽提大模型背后的硬核本质”。对大模型的机理认识一旦突破,人工智能将进入一个全新时代。
然而,目前全球投入到这一挑战中的数学家为数寥寥。孙茂松认为,这是因为由工程驱动的AI神经网络规模已经达到了“无边无际”的程度,数学家从未解过如此庞大的方程组,而且这一问题与经典数学完全不同。
不过,他也强调,哪怕一时不能搞清大模型背后的机制,数学家的加入也能为AI发展提出新视角,创新AI现有体系。
语料耗尽将让大模型发展停滞?
训练自然语言大模型,需要不停“投喂”语料。当人类现有语料耗尽,大模型的发展会否停滞?孙茂松认为,目前大模型对语料的利用仅仅停留在粗放的简单抓取阶段,AI对语料信息的深层解析与应用,还有待进一步开发。
孙茂松举例说,如今ChatGPT能够识别的只是网页上的文本,但对于标题、小标题等代表逻辑的格式信息,还没有能力分辨,这与语言模型目前只能生成较短文本的能力是相匹配的。
下一代自然语言大模型的发展方向是要让机器能“自然而靠谱地说话”。孙茂松说,千万不要小看了“说话”这种能力,正是语言能力的发展,让智人从原始人类中脱颖而出。因此,机器能够像人一样使用语言,“这可以说开创了世界五千年以来未有之格局”。
让机器“靠谱说话”的关键,在于让语言模型的输出结果与现实与事实对齐,避免“一本正经地胡说八道”。孙茂松觉得,这背后需要付出极为艰辛而巨大的努力,“目前,国内外很多初创企业都在致力于这方面的开拓”。
决胜AI未来需要顶尖人才
ChatGPT爆火,国内各大模型纷纷冒头,呈现出“百模大战”之势。孙茂松认为,这是我国在AI领域实力的体现。尽管最后不少模型都会在竞争中淘汰,但仍有相当数量的大模型会在垂直领域中找到应用场景,推动AI技术的落地与发展。
在清华人工智能研究院,孙茂松带领团队在语言模型的垂直细分领域进行了不少示范性尝试。比如,开发生成古诗的“九歌”小程序、国内首款汉语反向词典wantword,以及与清华中文系合作开发古文大模型等。
“尽管大模型背后的机理尚未搞清,但这并不妨碍其在实际应用中的迅速发展。”在孙茂松看来,未来要在自然语言大模型领域占据先机,就必须培养出真正的世界顶尖人才,“最前沿之争就是顶尖高手之争,人才厚度决定了技术高度,而应用决定了AI的广度”。
他表示,与所有科技领域一样,决胜AI未来,离不开坚定而执着的理想、不计功利的投入,以及对前沿领域的洞察和远见。
作者:许琦敏
图片:主办方提供
责任编辑:任荃