颜真卿《祭侄文稿》错把“刺史”写成了“刾史”?日前,有关颜真卿写错字的消息引发网友热议。究竟是“刺”还是 “刾”?眼下,这个问题可通过华东师范大学推出的智能型中国文字数字平台得到解答。查询者只需打开平台上传图片进行搜索,便可一目了然。原来,在唐代“刺”被写成“刾”,而这个“刾”中的“夹”,就是“朿”的变形,取象于“树木的刺芒”。
今天(5月28日),记者从“华东师范大学‘冷门绝学’专业‘新文科’建设成果发布会”上了解到,华东师范大学中国文字研究与应用中心将图像识别工具与数据库结合,推出智能型中国文字数字平台。目前,该数字平台已实现从殷商甲骨文到明清文字各断代各类型出土实物文字资料的全覆盖,可提供海量古文字的定量性检索查询,堪称电子版“字海”。
数字赋能“冷门绝学”,古文字学习告别苦翻“故纸堆”
2020年,因为“强基计划”的落地,古文字学前所未有地作为华东师范大学中文系本科的专业方向出现。作为研究“冷门绝学”的专业之一,古文字学研究可谓“功夫在字外”,涉及多学科领域,尤其需要跨学科的知识储备。故而,与一般学科相比,古文字学人才成长周期更长,培养难度更大。
华东师范大学中国文字研究与应用中心副主任刘志基告诉记者,他在实际教学中发现,入选“强基计划(古文字学)”的考生,专业积累仅限于高中语文的功底,要在短短四年里完成古文字学的学业,无论对教师还是学生来说不啻一项不小的挑战。而上述困难,很大程度上可以通过数字化手段的应用化解。创建具有问题针对性的助学数字平台是提升教学效率,缩短人才培养周期切实可行的方略。
传统印象里,研究古文字一般都需要枯坐冷板凳,苦翻故纸堆。现代科技辅助古文字的研究,优点显而易见:中国文字数字平台的推出不仅能够减轻研究者查阅资料的负担,提升研究效率,还有可能在古文字识别上凿破鸿蒙。
华东师范大学中国文字研究与应用中心20年来坚持运用数字化、智能化手段开展“冷门绝学”专业的学科交叉研究。刘志基介绍,历代出土实物文字材料的用字,大面积未被国际标准字符集覆盖,约7万个古文献用字存在网络使用障碍。以往的技术仅能识别出某个出土文字图像属于今天哪个楷字的字目,却不能确认图像是哪个古文字材料中的哪个字。过去常见的文字数据库普遍存在集外字无法检索的问题。
新建设的中国文字数字平台,不仅推动古文字图像识别走出“抽象识字”的局限,还消除已有的其他一些古文字数据库的盲点,实现了数字平台中图片载体材料与字符集载体材料的自动数字关联,营造出古文字资料大数据生成和机器识读的环境。目前该数字平台中,殷商甲骨文数据库有7万余片甲骨,110万字;商周金文数据库有1.7万篇器铭,18万字;战国楚简数据库有9种著录,10万字;先秦古玺、古陶、古币和石刻文字数据库有3.7万方,16万字;秦汉简牍数据库有50种简牍,90万字;汉代金石文字数据库有3万方金石,20万字;魏晋至元代石刻文数据库有1.5万种石刻,300万字;唐代写本文字数据库有500篇,60万字;元明刻本文字数据库有四种刻本,24万字;明清手写文字数据库有920片文字,7万字......
为方便学生对古文字的深入学习,平台专门上线了“强基计划智能助学系统”。该系统由不同层次支撑属性的系列数据库构成:“古文字释读工具书检索数据库”是初学者最需要的入门工具;“集释专题数据库”,帮助学习者把握古文字释读史的信息,从而形成古文字学基本积累;“义类专题数据库”,提升一手文献释读的效率;“通假专题数据库”“偏旁专题数据库”,则在深层助学的基础上,具有更多专题研究的导向。
值得一提的是,其中的“古文字智能图像识别”功能打通古文字学习者与古文字数据库之间的人机障碍,营造了古文字智能化研究的环境;“虚拟仿真:走进商周古文字”功能则超越传统教学模式,运用虚拟仿真技术,将文化、历史、思想等多方面知识点融入到商周古文字三维场景的讲解过程中,为学生构建完整的知识体系。
从古文字的演变中读懂中华文化
记者了解到,该数字平台的建设背后跨越了种种技术难关。比如拓片大多背景复杂且文字分布不规律,传统图像分割算法很难准确检测文字位置。再比如提取文字类别众多,仅金文就有8000多个类,石刻文字有5000多个类。华东师范大学数据科学与工程学院高级工程师陈优广是主要技术负责人。陈优广介绍,团队创新拓片检索算法,和古文字智能检测算法,不仅提高了背景噪声较严重的拓片识别准确性,对样本较少的文字类别也取得较好的识别准确率。
耗费如此精力打造冷门绝学的数字化平台,意义何在?在今天的发布会上,华东师范大学中国文字研究与应用中心主任臧克和的一番发言引人深思。他说,古文字是中国文化的重要载体,文化之寻根,传统之溯源,均离不开对古文字的解读和研究。如今人们更多只是将汉字视为日常工具,只考虑汉字最表面的意义,却忽略了它本身富含的文化之美。“只有把文字研究好了,才能研究文化。”臧克和说,该数字平台面向社会公众开放,具有公共性平台属性。“对于社会公众而言,只有了解了汉字产生、变化的过程,理解汉字的真实含义,才能产生对汉字以及中华文化和认同。”
值得一提的是,在中国文字数字平台上,华东师范大学推出了“汉字美育智能资源库”。该资源库面向社会公众可提供两个方面的网络检索服务:一是提供历史汉字中最富美饰性的种类,如殷商族名文字、金文鸟虫书、经典石刻、玺印、封泥、瓦当等材料的检索;二是提供从殷商甲骨文开始的各类文字的字体分类检索。
“汉字是中华文化中具有美学元素的符号,通过该资源库我们希望呼应社会上关于加强美育的呼声。”刘志基介绍,“中国文字智能检索数据库”是目前国内唯一一种可全字符检索的出土文字数据库,较为完整地展现了汉字演变的过程。该资源库将会在汉字文物、艺术品的鉴定以及相关文创产品等提供坚实的资料支持。
“作为讲好中国故事的工具,我们看到,中国书写的影响力正在不断提升。我们希望通过打造中国文字数字平台,让更多人学习了解古文字,坚定文化自信,助力冷门绝学专业走出去,助力中国文化走出去。”臧克和说。
作者:吴金娇
编辑:储舒婷
责任编辑:樊丽萍
图片:华东师范大学供图
*文汇独家稿件,转载请注明出处。