今天,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,并在阿里云魔搭社区(ModelScope)开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与InternLM-20B一同继续全面开放。
自今年6月首次发布以来,书生·浦语已经历多轮升级,在开源社区和产业界产生了广泛影响。为进一步推动大模型落地应用,上海AI实验室联合多家机构推出了中量级参数的InternLM-20B大模型,以不足三分之一的参数量,达到了当前被视为开源模型标杆的Llama2-70B的能力水平。
“增强版”:增的不只是量
InternLM-20B是基于2.3Ttoken预训练语料从头训练的中量级语言大模型。1B代表10亿参数。
相比于国内社区之前陆续开源的7B和13B规格的模型,20B量级模型具备更为强大的综合能力,在复杂推理和反思能力上尤为突出,因此可为实际应用带来更有力的性能支持;另一方面,20B量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因而在实际应用中更为便捷。
具体表现为拥有强大的工具调用能力,实现大模型与现实场景的有效连接,并具备代码解释和反思修正能力,为智能体(Agent)的构建提供了良好的技术基础。
支持更长的语境,通过多阶段训练拓展,支持16K语境长度,更有效地支撑长文理解、长文生成和超长对话,并为在InternLM-20B之上打造智能体(Agent)的提供关键技术基础;
具备更安全的价值对齐,书生·浦语团队对InternLM-20B通过基于SFT(监督微调)和RLHF(基于人类反馈的强化学习方式)两阶段价值对齐,以及专家红队的对抗训练,大幅提高其安全性。当面对带有偏见的提问时,模型能够给出正确引导。
架构增强:深结构、长语境
过去一段时间,国内机构陆续开源了多个参数量为7B和13B规格的模型,在评测中也取得了不俗的成绩。但研究人员发现,这些模型在适配下游任务,尤其是对准确性和推理能力要求较高的任务时,还存在局限。为了更好地支持这些任务,业界呼唤一个中量级的开源模型,提供更强的理解、推理以及长文生成能力。
在相对有限的参数规模下,研究人员在架构设计时面临重要的取舍——提高模型的深度还是宽度?通过广泛的对照实验,书生·浦语团队发现,更深的模型层数更有利于复杂推理能力的培养。
推理,尤其是复杂推理,是语言模型目前面临的常见难题,也是模型能否支撑实际应用的关键能力。InternLM-20B在常识推理、数学推理、物理相关推理以及有挑战性的综合推理方面的能力均明显超越主流的13B开源模型的成绩,在WinoGrande、GSM8K和PIQA评测上已非常接近Llama-65B此类重量级模型的推理能力水平。
调用工具能力增强:不会也能学
工具调用是拓展大语言模型能力边界的重要手段,也是OpenAI近期推出大模型的重点特性之一。InternLM-20B对话模型支持了日期、天气、旅行、体育等数十个方向的内容输出及上万个不同的 API。
在清华大学等机构联合发布的大模型工具调用评测集ToolBench 中,InternLM-20B和 ChatGPT 相比,达到了63.5%的胜率,在该榜单上取得了最优结果,表现出强大的工具调用能力。
InternLM-20B模型还展现出一定的零样本泛化能力,对于模型在训练过程中并没有学习过一些工具,InternLM-20B也能根据工具描述和用户提问来调用工具完成任务。例如给模型提供一些AI工具,模型可以自己进行规划和推理,完成用户的问题。
InternLM-20B可自主调用工具完成任务
今年7月,上海AI实验室与商汤科技联合高校在正式发布书生·浦语的同时,在业内率先开源了覆盖数据、预训练、微调、部署和评测的全链条工具体系。历经数月升级,书生·浦语全链条开源工具体系巩固升级,并向全社会提供免费商用。
代码库链接:https://github.com/InternLM/InternLM
魔搭社区链接:https://modelscope.cn/organization/Shanghai_AI_Laboratory
作者:沈湫莎
图片:上海人工智能实验室提供
责任编辑:任荃
*文汇独家稿件,转载请注明出处。