口述者:陈运文(达观数据董事长)
整理:本报记者 占悦
当ChatGPT风靡全球时,对于我们专注于文档智能化处理与大数据挖掘的一家科技公司而言,一场漫长而艰苦的“拉锯战”开始了:我们要做自主研发版的大语言模型。
早在6年前OpenAI就发布了第一代GPT技术,那时除了学术圈,社会大众少有关注。直至去年11月底ChatGPT正式发布,才像一块石头砸入水中,激起浪花无数。短短数年时间,技术迭代以光速般跨越,撬动整个社会与行业的变革。
尽管我们作出了自主研发的决定,首先要做足的是心理建设——从哪里入手才能尽快追赶同行脚步?开弓没有回头箭,咬着牙也得上。
这一路都是“黑夜独行”。海外同行没有公布GPT训练过程的工程细节和参数方法这类核心要素,大模型优异的效果隐藏在诸多技术细节里,为了给团队更多知识补给,我们向复旦大学计算机科学技术学院的教授们请教,翻阅了许多业界顶尖论文和技术报告。每周技术团队都在反复讨论技术方案,开展各种交流研讨,逐字逐句探究“核心指南”。
同时,硬件试验设备也得跟上。由于大语言模型需要消耗大量的算力与海量的数据,我们采购了一批高性能的科学运算GPU(图形处理器)。这确实是相当大的技术投入,但为了加速国产模型的研发还是非常值得的。
除了作为人工智能基础设施的算力平台,大模型的训练还需要巨大规模的训练数据。数据好比智能时代的“石油”。我们投入了非常大精力来积累和提炼文本数据,源源不断地投入模型的训练——这些数据规模比一所大学图书馆所有藏书量都要大得多。
我们的研发团队每天都在绞尽脑汁攻克技术难关。训练过程中,有监督的精调技术十分关键,提示词的设计也有技巧。我们尝试了上百次各种有监督精调技术的试验,与各类数据蒸馏加工的技巧,逐步摸索出了一个有效的大语言模型蒸馏和精调方法。测试效果很好,我们越来越有信心。截至目前,公司申请有国家发明专利200余项,授权国家发明专利42项,拥有8项国际发明专利(PCT),授权软著200余项。
年初至今,我们一直在思考垂直场景下大模型的落地产品。不同于ChatGPT的通用模型,我们选择面向垂直行业的企业客户来开发文档资料处理系统,实现模型的本地化部署,让模型具备更高的可靠性、安全性与准确性,由此更符合市场需求。
就连产品取名也费了些脑筋,大家在90多个候选名字中最终挑选了“曹植”这个独特的名字,因为曹植有“七步成诗”的美名,希望我们的系统也能流畅地创作写作,源源不断生成内容。
我们的目标是:今年6月底发布正式版本。现在团队每天都很紧张,日拱一卒,还有无数技术“鸿沟”等着我们翻越——只有对质量细节“吹毛求疵”才能让产品更精致。
创新创业生涯中这次的挑战很苦很累,但我相信这会带来中国文档智能处理方面的重要突破。我们公司的每一个会议室都是以计算机算法来命名的,等到“曹植”这一产品亮相后,将会用新的核心算法名称挂在会议室门口,以记住这段与时间赛跑的日子。
>>>记者手记:最艰难的挑战永远是下一个
务实求真、通达乐观,这是达观数据的企业信条,也是陈运文创业以来的经验总结。
企业健康发展,就得扎扎实实写好每一行代码、交付好每一个项目,创业长路漫漫,对未来时刻保有信心,才能守得云开见月明。
创业刚起步时,他也曾碰过不少钉子,主动向各行业请教经验,学习新趋势、研究新方法;面对“无人区”,他将其视作机遇,一头扎进文档智能处理研发;如今,飞速迭代的人工智能更燃起他的“征服欲”,要跑得比技术更快一些。
最难的挑战永远都在下一个。如果说创业初期是基于自信,如今陈运文凭借的是实打实的乐观与扎实的技术,更不惧怕失败。创新创业的他,有着青年人最闪耀的样子:立桅扬帆,乘风破浪。
作者:占悦
编辑:范菁
*文汇独家稿件,转载请注明出处。