把文档资料输入到计算机中,让它“理解”数据、表格等,并最终写成金融领域的专业级长文档报告,这可能吗?达观数据创始人兼CEO陈运文给出了肯定的答案。大模型走向应用进行时,它可以帮助金融行业更高效运行。
以“科技,创造可持续发展”为主题的第二届Inclusion·外滩大会将于9月7日起在沪举行,此次大会重点关注大模型技术的产业落地和未来探索。记者日前来到达观数据走访,了解大模型在金融领域等垂直领域的应用前景。
大模型“曹植”能做什么?
今年堪称大模型发展元年,上海一批企业纷纷推出自己的大模型产品,达观数据是其中一家。今年的世界人工智能大会上,达观数据展示了“曹植”大语言模型,最近还推出了“曹植”大模型一体机。
“曹植七步成诗,而他代表作《洛神赋》则是古代文学作品里首屈一指的长文本经典。同样,这也是‘曹植’大模型的专长——做长文档资料智能化的分析写作工作。”陈运文以信贷报告举例说,银行的金融信贷报告经常以40页起步,60多页的报告也是家常便饭,靠员工“埋头苦干”效率太低,而大模型就会自动写报告,“未来员工需要做的就是写提示词、写大纲、核实数字,剩下的都能交给大模型来完成。”
这看起来很神奇,但事实上,从文档资料输入到专业长文档输出,中间要经过很多道工序,有很高的技术门槛,涉及计算机科学、AI、语言学的交叉领域。陈运文介绍,比如机器要首先识别文档种类、进行版面分析、表格等特殊结构处理、印章处理等,这些都考验技术能力,此外,大模型还要“术业有专攻”,掌握金融领域的专业术语和知识点,才能最终完成文档资料写作和分析。
“为提升长文本写作专业性,达观专门训练了多模态AIGC生成能力,可自动生成表格、图表、数据等元素。”陈运文介绍,目前,除了金融领域之外,“曹植”还掌握了撰写白皮书、技术报告以及品牌故事的智能协作本领。
亟需高质量数据和人才
当大模型深入千行百业,它如硬币正反面的“两面性”也越来越明显。一方面是大模型的高效率越来越明显,另一方面,它也开始面临幻觉、偏向性、服务合规性等问题。陈运文认为,金融领域等垂直场景对于真实性、准确性的要求极高,这也是文本智能处理建立护城河的机遇与挑战。
大模型要达到真实、准确,对于高质量的数据语料有着极大需求。陈运文告诉记者,达观数据使用海量训练数据对“曹植”大模型进行预训练,教科书、论文、专业学术报告等都被公认为优质数据,表现在知识密度比较高,但这些数据较为稀缺,以教科书为例,中文教科书数量不到英文总数的十分之一。
此外,人才也是一大需求点。“我们很期待能在外滩大会的科创人才招聘会上寻觅到优质的数据技术人才。”他表示,达观数据将在招聘会上开放多个科技人才岗位的招募,包括自然语言处理、文本智能处理,以及目前大热的大模型领域等相关技术与研发人才。
作者:徐晶卉
编辑:范菁
*文汇独家稿件,转载请注明出处。