【导读】第163期文汇讲堂“数字强国”系列将于6月20日下午开启,报名火热进行中(详见文末链接),第一期《AIGC驱动生产力跃升与良好未来塑造》将聚焦大模型及其未来十年。今经授权,摘要刊发预热稿1,由著名经济学家朱嘉明为《大模型时代:ChatGPT开启通用人工智能浪潮》所作长篇序文。
近日,业界频繁举行大模型和通用人工智能关联论坛。5月底,小蛮腰科技大会暨AIGC人工智能峰会上,成立了AGI(通用人工智能)50人论坛;6月11日,由《通用人工智能》(中译出版社2023年7月出版)新书发布暨《迈向通用人工智能新时代》研讨会举办。而6月9日至10,由智源研究院主办、定位于“AI内行顶级盛会”的“北京智源大会”同样聚焦大模型发展。163-1期主讲嘉宾即为北京智源人工智能研究院副院长兼总工程师林咏华女士。
《大模型时代》,龙志勇、黄雯著 中译出版社2023年7月出版
“尝试找到如何让机器使用语言、形成抽象和概念、解决现在人类还不能解决的问题、提升自己,等等。对于当下的人工智能来说首要问题是让机器像人类一样能够表现出智能。”
——达特茅斯会议对人工智能(AI)的定义
ChatGPT是人类科技史上的里程碑事件,在短短几个月席卷全球,速度超过人类最狂野的想象。ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。大模型是大语言模型(Large Language Model,LLM),也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的质变。现在,与其说人类开始进入人工智能时代,不如说人类进入的是大模型时代。我们不仅目睹,也身在其中,体验生成式大模型如何开始生成一个全新时代。
何谓大模型?从数据中找出规律和模式并预测未来
人工智能的模型,是以数学和统计学作为算法基础的,可以用来描述一个系统或者一个数据集。在机器学习中,模型是核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种形式。模型的本质就是对这个函数映射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有效的函数映射。模型的目的是为了从数据中找出一些规律和模式,并用这些规律和模式来预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。
人工智能大模型的“大”,是指模型参数至少达到1亿以上。但是这个标准一直在升级,目前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。
除了大模型之外,还有所谓的“超大模型”,通常拥有数万亿到数十万亿个参数,被用于解决更为复杂的任务,如自然语言处理中的问答和机器翻译、计算机视觉中的目标检测和图像生成等。所以,超大模型的训练和调整需要极其巨大的计算资源和大量数据,更加复杂的算法和技术,大规模的投入和协作。
如果从人工智能的生成角度定义大模型,与传统的机器学习算法不同,生成模型可以根据文本提示生成代码,还可以解释代码,甚至在某些情况下调试代码。在这样的过程中,不仅可以实现文本、图像、音频、视频的生成,构建多模态,而且还可以在更为广泛的领域生成新的设计,生成新的知识和思想,甚至实现广义的艺术和科学的再创造。
近几年,比较有影响的AI大模型主要来自谷歌、Meta和OpenAI。除了OpenAI GPT之外,2017和2018年,谷歌发布LaMDA、BERT和PaLM-E。2023年,Facebook的母公司Meta退出LLaMA,并在博客上免费公开LLM——“OPT-175B”。在中国,AI大模型主要代表是百度的文心一言、阿里的通义千问和华为的盘古。
这些模型的共同特征是:需要在大规模数据集上进行训练,基于大量的计算资源进行优化和调整。
因为AI大模型的出现和发展所显示的涌现性,扩展性和复合性,长期以来人们讨论的所谓“弱人工智能”“强人工智能”和“超人工智能”的界限不复存在,这样划分的意义也自然消失。
突变和涌现:机器学习-深度学习-AIGC大模型,赋予AI思维能力
如果从1956年达特茅斯学院的人工智能会议算起,人工智能历史已经接近70年。其三个基本派别符号主义、连接主义、行为主义都要以算法、算力和数据作为核心要素。在20世纪80年代末之后的AI发展史中,有三个重要的里程碑。
第一个里程碑:机器学习(machine learning,ML)。
机器学习理论的提出,可以追溯到图灵写于1950年的一篇论文《计算机器与智能》(Computing machinery and intelligence)和图灵测试。1952年,IBM的亚瑟·塞缪尔(Arthur Lee Samuel,1901—1990)开发了一个西洋棋的程序。该程序能够通过棋子的位置学习一个隐式模型,为下一步棋提供比较好的走法。塞缪尔用这个程序驳倒了机器无法超越书面代码,并像人类一样学习模式的论断。他创造并定义了“机器学习”。
之后,机器学习成为一个能使计算机不用显示编程就能获得能力的研究领域。1980年,美国卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器学习开始得到了大量的应用。到了20世纪80年代中叶,机器学习进入最新阶段,成为新的学科,综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等形成了机器学习理论基础。1995年,瓦普尼克(Vladimir Naumovich Vapnik,1936— )和科琳娜·科茨(Corinna Cortes,1961— )提出的支持向量机(网络)(Support Vector Machine,SVM),实现机器学习领域最重要突破,具有非常强的理论论证和实证结果。
机器学习是一种基于算法和模型的自动化过程,包括监督学习和无监督学习两种形式。
第二个里程碑:深度学习(deep learning,DL)。
深度学习是机器学习的一个分支。所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。因为大数据和深度学习爆发并得以高速发展,最终成就了深度学习理论和实践。2006年,辛顿(Geoffrey Everest Hinton,1947— )正式提出深度学习概念, 该年由此成为了“深度学习元年”。
在辛顿深度学习的背后,是对“如果不了解大脑,就永远无法理解人类”这一认识的坚信。所谓深度学习可以伴随着突触的增强或减弱而发生。一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习。所以,需要用生物学途径,或者关于神经网络途径替代模拟硬件途径,形成基于100万亿个神经元之间的连接变化的深度学习理论。
深度学习是建立在计算机神经网络理论和机器学习理论上的科学。2012年,辛顿和克里泽夫斯基(Alex Krizhevsky,1978— )设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别分类,成为新一轮人工智能发展的起点。这类系统可以处理大量数据,可以发现人类通常无法发现的关系和模式。
第三个里程碑:人工智能内容生成大模型。
从2018年开始大模型迅速流行,预训练语言模型(Pre-trained Language Model,PLM)及其“预训练-微调”方法已成为自然语言处理(Natural Language Processing,NLP)任务的主流范式。大模型利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调(instruction tuning)模型参数,实现下游任务的适配。
2018年至2023年,OpenAI实现大模型的五次迭代。同时,OpenAI也提供了API接口,使得开发者可以利用大模型进行自然语言处理的应用开发。
总之,大模型是基于包括数学、统计学、计算机科学、物理学、工程学、神经学、语言学、哲学、人工智能学融合础上的一次突变,并导致了一种“涌现”(emergence)。大模型也因此称得上一场革命。
更为重要的是,大模型赋予AI以思维能力,一种与人类近似,又有很不相同的思维能力。
知识革命:大模型具有神经智力、经验智力和反省智力主要成分
基于大数据与Transformer的大模型,实现了对知识体系的一系列的改变。
(1)改变知识生产的主体。即从人类垄断知识生成转变为AI生产知识,以及人和AI混合生产知识。(2)改变知识谱系。从本质上来看,知识图谱是语义网络的知识库;从实际应用的角度来看,可以将知识图谱简化理解成多关系图。
(3)改变知识的维度。知识可分为简单知识和复杂知识、独有知识和共有知识、具体知识和抽象知识、显性知识和隐性知识等。而人工智能正易于把握这一隐性维度。
(4)改变知识获取途径。
(5)改变推理和判断方式。人类的常识基于推理和判断,而机器常识则是基于逻辑和算法的。人类可以根据自己的经验和判断力做出决策,而机器则需要依赖程序和算法。
(6)改变知识创新方式和加速知识更新速度。不仅知识更新可以通过AI实现内容生成,而且AI大模型具有不断生成新知识的天然优势。人类知识处理的范式将发生转换。人类知识的边界有机会更快速地扩展。
(7)改变知识处理方式。人类对知识的处理(knowledge processing)有六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中,都能发挥一定的作用,为人类大脑提供辅助。
简言之,如果大模型与外部知识源(例如搜索引擎)和工具(例如编程语言)结合,将丰富知识体系并提高知识的获取效率。万物皆可AI,因为大模型引发知识革命,形成人类自然智慧和人工智能智慧并存的局面。
知识需要学习。赫布理论是一个神经科学理论,描述了在学习过程中的脑中的神经元所发生的变化,从而解释了记忆印痕如何形成。即突触前神经元向突触后神经元持续重复的刺激,可以导致突触传递效能的增加。以深度学习为核心的大模型的重要特征就是以人工智能神经网络作为基础。所以,大模型是充分实践赫布理论的重要工具。
1966年,美国哈佛大学心理学家戴维·珀金斯(David N. Perkins,1942— )提出“真智力”(true intelligence),并提出智商包括三种主要成分或维度:(1)神经智力(neural intelligence),神经智力具有“非用即失”(use it or lose it)的特点;(2)经验智力(experiential intelligence),是指个人积累的不同领域的知识和经验,丰富的学习环境能够促进经验智力;(3)反省智力(reflective intelligence),类似于元认知(metacognition)和认知监视(cognitive monitoring)等概念,有助于有效地运用神经智力和经验智力的控制系统。大模型恰恰具备上述三种主要成分或维度。所以,AI大模型不仅有智慧,而且还是具有高智商的一种新载体。
GTP-4可利用思维链推理和逐步思考,大模型会导致“人的工具化”?
虽然AI大模型所实现智能的途径和人类大脑并不一样,但最近约翰斯·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,有效证明了其心智理论性能。在一些测试中,人类的水平大概是87%,而GPT-4已经达到100%。此外,在适当的提示下,所有经过RLHF训练的模型都可以实现超过80%的准确率。
现在,人类面临的AI大模型挑战,并且这一挑战不仅仅是职场动荡、失去工作、增加失业的问题。人类面对的是更为严酷的现实课题:人是否或早或晚的成为大模型的工具人?不仅如此,如果AI出现推理能力,并在无人知道原因的情况下越过界限后,AI是否会对人类造成威胁?最近,网上有这样的消息:有人利用最新的AutoGPT开发出ChaosGPT,下达毁灭人类指令,AI自动搜索核武器资料,并招募其他AI辅助。
正是在这样的背景下,2023年的3月29日,埃隆·马斯克(Elon Reeve Musk,1971— )联名千余科技领袖,呼吁暂停开发AI。进入4月,身在多伦多的图灵奖得主辛顿向Google提出了辞职。辛顿离职的原因,是为了能够“自由地谈论人工智能的风险”,他对自己毕生的工作感到后悔,“我用一个正常的理由安慰自己:如果我没做,也会有别人这么做的。”辛顿最大的担忧是:AI很可能比人类更聪明。这样的未来不再久远。而对比GPT-4刚发布时,辛顿还对其赞誉有加:“毛虫吸取了足够的养分,就能化茧成蝶,GPT-4就是人类的蝴蝶”。
仅仅一个多月的时间,辛顿的立场发生如此逆转。这不免让人们想到爱因斯坦和奥本海默,他们在二战后都明确表达了为参与核武器研发和建议感到后悔,更为核武器成为冷战筹码和政治威胁的工具感到强烈不满。
事实上,控制论之父维纳(Norbert Wiener,1894—1964)在《人有人的用处》(The Human Use of Human Beings)一书中做出了一个耸人听闻的结论:“这些机器的趋势是要在所有层面上取代人类,而非只是用机器能源和力量取代人类的能源和力量。很显然,这种新的取代将对我们的生活产生深远影响。”同样,霍金(Stephen Hawking,1942—2018)生前也曾多次表达他对人工智能可能导致人类毁灭的担忧。
在现实生活中,AI大模型的冲击正在被积聚。例如,作为一种基于大规模文本数据的生成模型,GPT已经对语言学、符号学、人类学、哲学、心理学、伦理学和教育学等广义思想文化领域造成冲击,并将进一步对自然科学技术、经济形态和运行、社会结构,以及国际关系产生进一步的全方位冲击。
AI大模型是人工智能历史的分水岭,甚至是工业革命以来人类文明史的分水岭。此前,人们所更多关注和讨论的是人如何适应机器,探讨人与机器人的合作,实现“艾西莫夫定律”;而现在,人类则进入如何理解大模型、预知人工智能的重要节点,人工智能被恶意利用、彻底失控的威胁也隐隐出现。特别是由于AI幻象(hallucinations)的存在,对人类决策和行为的误导也更容易发生。
《机械姬》有这样的苍凉台词:“将来有一天,人工智能回顾我们,就像我们回顾非洲平原的化石一样,直立猿人住在尘土里,使用粗糙的语言和工具,最后全部灭绝。”
最近还有一个消息:来自洛桑联邦理工学院的研究团队提出了一种全新的方法,可以用AI从大脑信号中提取视频画面,迈出了“读脑术”的第一步,相关论文也已登《自然》(Nature)杂志。虽然这篇论文受到很多质疑,但可以肯定的是,除了试图改善人类生活的科学家、工程师和企业家外,还将存在阴暗和邪恶力量,人们对AI的不安也随之与日俱增。AI是人类的又一个潘多拉盒子,且很可能在无人能将其关上。
在人类命运的巨变趋势面前,人类的选择在减少,不可放弃让人回归人的价值,需要留下“种子”——火星迁徙至少具有这样的超前意识。
5月底小蛮腰科技大会上的朱嘉明(左三)
在人工智能2.0时代,大模型的分工越来越明确。日益增多的大模型,特别是开源大模型实现不同的组合,将大模型乐高(Lego)化,构成大模型集群。这不仅会推动人类的社会空间、物理空间和信息空间日益紧密融合,而且还将促成一个由大模型主导的世界。
在这样的历史时刻,生成主义(enactivism)需要被重新认识。一方面,生成认知否认外部世界的预先给予性,强调世界是依赖于外在的知觉者的;另一方面,生成认知也不赞同观念论对于心智实在性的否定,强调具身性是心智和认知的最为根本的特征。”人工智能的生成大模型,确实包括生成主义的要素。人工智能将给生成主义注入新的生命力。
朱嘉明
2023年5月9日
写于上海
李念编摘自《大模型时代》代序,原题为《AI大模型:当代历史的标志性事件及其意义》原文1.4万
文末链接
作者:朱嘉明 (横琴数链数字金融研究院学术与技术委员会主席)
编辑:李念
责任编辑:李念
综合:《大模型时代》新书、智源研究院、独角兽DIGITALIZATION、Ai创业前沿资讯