今天下午,延安时期《解放日报》缩印本首发仪式暨2024年度解放日报发行工作座谈会举行。会上,解放日报社、湖南省青苹果数据中心有限公司共同向上海图书馆、复旦大学新闻学院赠送了延安时期《解放日报》缩印本。
延安时期的《解放日报》是中国共产党中央委员会机关报,创刊于1941年5月16日,1947年3月27日中共中央转战陕北时停刊,历时5年10个月又11天,共出版2130期,有着巨大的历史意义和研究价值,是研究中国共产党早期宣传工作及政治理论的重要资料,尤其是毛泽东同志对《解放日报》改版的指导和办报思想的顶层设计,至今仍有较大现实意义。
现存的延安时期《解放日报》仅有1954年人民出版社影印出版合订本,不仅存在纸张老化、发黄霉变、虫蛀破损等问题,而且因当年马兰纸印刷的原报质量差,影印时又缩小一半,所以现今只能看到版面大致全貌,大面积字迹无法清晰辨别。研究人员因辨析困难而不敢征引,限制了珍贵革命历史文献的广泛传播。
1949年上海解放前夕,党中央决定将《解放日报》的报名交给上海,作为中共中央华东局机关报和中共上海市委机关报。因此,上海有责任有义务去修复和保护、推广这一珍贵革命历史文献。2021年,解放日报社与青苹果公司合作启动了“革命文物——延安《解放日报》再造出版项目”。
由于战争年代特殊的印刷环境,报纸印刷质量差、字迹模糊,印刷品大部分无法辨识,文字识别难度大,用现有识别技术将报纸图像转换为可全文检索文本的识别率仅有30%-40%。
延安时期《解放日报》缩印本内页
“本项目的创新技术在于,将卷积神经网络技术与采集文字样本集结合起来。先利用从现代印刷体繁体汉字样本训练中得到的卷积神经网络参数,再辅以从延安时期《解放日报》报纸上收集的实际铅字样本集进行迁移学习,最终得到适用于延安时期《解放日报》的汉字识别模型,用以完成报纸版面的精准识别。”青苹果公司总裁唐五一说,基于上述方法,项目组对延安时期《解放日报》进行版面分析、识别、理解,最后自动精确重构为原式原样的高仿真标准格式电子出版物,平均识别率在原来基础上可提高 36%以上,同时还可识别字体、字号、位置、行距、字距以及其它版面信息。
延安时期《解放日报》版面再造矢量数字报文件
经项目再造的延安时期《解放日报》缩印版由上海三联书店出版发行,版式风范仍如原报,内容完整准确,文字清晰可辨。经检验,文字差错率小于万分之三,达到国家报纸出版的质量要求。项目组同时配套制作了“延安《解放日报》电子版”,保留了扫描的原始图像版面文件和高仿真的数字版面文件,配有数字放大镜,方便读者和研究人员查看;并依据新闻分类国家标准,对延安时期《解放日报》全文数据作了详细标引分类,方便操作使用,检索精准快捷,达到查全率100%、查准率98%。
延安时期《解放日报》电子版数据库界面
延安时期《解放日报》的成功再造,验证了相关技术的可行性,对于创新我国古旧文献的数字化技术,促进珍贵文献资源的开发和利用,具有重要的应用和推广价值。
编辑:孙欣祺
来源:上观新闻
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。