▲中华书局“中华经典古籍库”是基于古籍整理成果和规范的海量合法数据,目前已有10亿字、1500种整理本古籍
浩如烟海的典籍文献是中华文明特有的存留。“让书写在古籍里的文字活起来”,实现中华优秀传统文化创造性转化和创新性发展,是当代古籍出版业面临的新挑战。
日前,中华书局总编辑、古联数字传媒科技有限公司董事长顾青在接受本报记者专访时表示,中华书局的数字化战略,将根据国家规划,着力打造中华传统文化大数据中心和国家级古籍整理出版资源平台,使中华书局成为国内领先的优质传统文化数字资源的内容提供商和知识服务商,再造一个“线上中华”。
中华经典古籍库:以最高质量汇聚优秀古籍
“处理古籍,我们要应对的是几千年留下来的各种形体汉字。越是大数据时代,古籍数据来源的可靠性、准确性、规范性就越是重要。这些汉字呈现要准确,而且能够被检索。”2014年,中华书局“中华经典古籍库”发布,4年来已从初期的2亿字扩展至10亿字,从单一的局域网版扩展到在线版和微信版。“我们经过多年积累,建立了11余万字的字库,解决了绝大部分古籍生僻字、异体字和字符集外字等用字难题,满足了古籍文献全文本数字化加工要求。”顾青说。
实际上,早在2003年,中华书局就开始古籍数字化的探索,积累了古籍数字化的基础数据、标准、方法和人才。直到“中华经典古籍库”第一期发布,才标志着中华书局古籍数字化开始产业化。2015年,中华书局成立了古联数字传媒科技有限公司,专门负责古籍数字化业务,至此走上了专业化加速发展之路。
面对目前市面上良莠不齐的古籍资源库,顾青用“自来水”和“纯净水”的差别来比喻其质量的差异。“目前我们在网络上普遍看到的、或者民营公司已做出来的数据库,数量大、版本多,但是存在两个很大的问题,一是没有版权,二是差错率很高,不能被直接引用。中国几千年的文献流传,尤其一些经典文献被历代抄、刻、删改,如不进行认真整理,使用起来就会出很多问题。而中华书局是代表国家做这个项目,我们的数据库必须是以古籍整理为基础的、高质量的,甚至比纸书的错误率更低。因此‘中华经典古籍库’的特点是基于古籍整理成果和规范的海量合法数据,最高质量,可供征引。”
除了质量过硬,“中华经典古籍库”还实现了多功能服务,不仅能浏览,阅读,定制资源,在线编辑、下载、写作,还可以实现全文检索、深度检索以及个性化检索。
“中华经典古籍库”发布后,销售持续增长,国内用户涵盖公共图书馆、大学图书馆、党政机关、新闻出版单位等,同时,在美、日、德、英等国实现了海外销售。2015年销售收入400万元,到2017年升至1500万,而今年的预计收入则可达2800万-3000万元。
顾青表示,在加速发展的同时,也要解决产品面临的“痛点”。“一是版权问题。我们是代表国家形象,就必须严谨,所有书的版权我们都是一家家出版社去签合同,有的谈了3年也没谈下来。二是制作问题。建国以来的很多古籍的数据都是不能用的,有的全是铅排的,没有数字版。比如最近和三秦出版社签了100本书,能提供数据的只有十几种,其他的全要重新录入、制作。因此,数据库只能以每年3亿-4亿字的速度增加,每1亿字意味着500-1000万的资金投入。”
截至2017年底,“中华经典古籍库”共完成10亿字、1500种整理本古籍,汇集了中华书局等10家古籍出版社的优质资源。
“未来还要将建国以来整理好的优秀古籍全部融汇进去,‘十三五’的目标是30亿字,5000种整理本古籍。我经常鼓励员工,我们在上升,当数据量达到一定程度的时候,质量优势就充分体现了。”顾青说。
产业升级,开创古籍整理出版3.0时代
今年4月22日,国家级古籍整理出版资源平台“籍合网”上线,这是一个基于古籍整理与数字化的综合性知识服务平台,由中华书局旗下的古联公司负责建设和运营。
▲“籍合网”充分发挥网络技术和现代新科技的优势推动古籍整理工作
“籍合网”包含了多款专业主题数据库产品,除了为人熟知的“中华经典古籍库”,还推出了“中华善本古籍数据库”“中华文史工具书数据库”“中华古籍书目数据库”“中华文史学术论著库”等一系列全新产品,新的资源涵盖了版刻图像、辞书、古籍书目、学术期刊、学术著作等众多类型。
同时,“籍合网”的一个令人瞩目的功能,是推出了“古籍整理工作与发布平台”这一在线应用系统,可通过发放整理任务、自主申领选择的“众包”形式,实现古籍的线上协作整理。同时,平台还提供校勘、标点、注释、翻译等一系列在线工具,“籍合网”的数据库也可供整理者利用,使古籍整理的质量更有保证。整理工作完成后,成果可直接在“籍合网”上发布,实现全流程数字出版。
“越是大型项目,这一平台越有优势,例如‘中华大藏经续编’多达两亿字规模,利用线上整理和全媒体出版,可减少重复劳动,提升文本整理的质量,使古籍整理的生产能力成倍增加。”顾青说,“古籍整理出版从‘纸—纸’的1.0时代,发展到‘电子—纸’的2.0时代,现在又进入了‘电子—电子’的3.0时代。籍合网是对古籍整理出版产业链进行重组的一次大胆尝试,通过线上线下联动的方式,充分发挥网络技术和现代新科技的优势来推动古籍整理工作,这将彻底改变古籍整理出版的生态。”
建传统文化大数据中心,实现古籍知识服务
古籍与数字化的融合发展,对人才提出了更高要求——既要懂得古籍整理,又要精通计算机技术。“古籍整理是个非常专业的行当,目前我们古联公司的技术编辑基本都是北大、南大等名校的文献学、语言学的硕士和博士,我们通过做项目来逐步培养人才,让数字编辑要参与古籍编纂,同时书局里的古籍编辑也要参与数字工作,逐步融合。”顾青说。
“线上中华”建立后,中华书局的一个目标是线上收入能与线下的收入持平,甚至超出。那么,这是否意味着纸质图书销量将受到古籍数字化的冲击?
顾青对此毫不担忧:“经过几年实践,我们发现,二者只会互相促进,不会互相抵消。因为数据库是用来进行大规模通检,进行数据的利用,而纸书是供仔细研读、深入研究的,它们是完全两个市场,不仅不冲突,数据库反而会促进纸书销量。”
顾青透露,为了实现古籍的知识服务,满足用户个性化知识需求,目前,中华书局正准备做“中华传统文化大数据中心”,将涵盖中国传世古籍的主要品种,基本满足学术界和全社会对优质传统古籍的需要,计划三年时间完成150亿字,2万种古籍的整理工作,包括整理本古籍、图像、普及读物、学术著作与期刊、工具书、音视频内容,也包括用户资源、行为资源、行业资源、授权资源等,其中的50亿字(自有版权)要完成校勘与标点,成为可供阅读引用的标准文献。
“‘中华传统文化大数据中心’的基础是已经过深度标引的知识化结构化的数据,这是中华书局数字古籍的核心竞争力。大数据搜集后,可以很快形成专业主题数据库集群,还可以用来搭建智能开放云平台。随着全社会对传统文化的需求激增,知识服务可能是最具前景的赢利方式,我们深知,这就是中华书局的未来,更是中华优秀传统文化和古籍整理出版的未来。”顾青表示。
作者:本报驻京记者 李扬
图:均中华书局供
责任编辑:叶松亭
*文汇独家稿件,转载请注明出处。