“人类基因组的信息量只相当于一首有30亿个英文字母的诗篇。500万本书籍中的5000亿个单词连接起来,长度是人类基因组的1000倍。如果把它们连续写出来,其长度相当于在地月之间往返10次以上,这还仅是人类文化基因组的小小一段。”
先别急着惊讶。如果读书是向文明致敬的最好方法,在这个坐标里,Y轴是全世界一亿二千九百多万本书,极其高(还仅是谷歌公司在2010年所做的“不完全统计”),但偏偏还存在X轴——人类有限的生命,除了喟叹“吾生也有涯,而知也无涯”外,单单将这些书籍全部数字化就是一项浩瀚的工程。
但是,“魔术师”来了。席卷全球的“大数据”浪潮正努力冲破人文研究发展的局限。由湛卢文化策划的《可视化未来:数据透视下的人文大趋势》中文版近日面世,是两位80后世界顶尖数字人文学家研究发现的重磅之作,他们通过对500多万本电子书的建模研究,追踪了几个世纪里英语语法、词典学、集体记忆、科技使用、名望传播、历史流行病学等一系列文化现象的发展,试图寻找人文在几个世纪来的演进规律。
“大数据在研究历史文化、人类语言、群体记忆等方面的重要作用,其对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。”中国工程院院士李国杰如是形容。
复旦大学历史系教授周兵,正在海外考察数字人文在历史学领域的应用前景,该书英文版早已引起他的重视。“英文版标题为Uncharted,意为‘未知、具有无限可能’,我认为,这个题目也许更能反映数字人文研究的未来,‘可视化’只是其中的一种可能而已。这片领域有着太多的未知之处,等待着去发现、去探索、去开发。”在接受本报记者专访时,周兵这样说道。
一张图浓缩五千亿个单词
建立“人类文化基因组”,这个大胆的想法正来自于本书作者之一、曾获得“美国总统青年科技奖”的科学家艾略兹·埃顿,而他本身的履历也足够说明他的传奇。埃顿本科就读于普林斯顿大学,主修数学、物理学和哲学专业。2007年,身为哈佛大学数学系博士的艾略兹·埃顿,尝试用数学的方法研究基因组学。他说:“我希望证明,利用数据分析解决人文学科问题是可能的。”他将这种方法称作是“文化组学”。文化组学,是一个由“文化”和“基因组学”单词合成的合并词,指的是利用数学方法分析海量文本数据,从而得出人类文化的发展和演变。
埃顿和另一位作者、数据科学公司量化实验室的创始人让-巴蒂斯特·米歇尔,通过与“谷歌图书”项目的合作,有机会“亲近”了500多万本电子书,而成果是一个科学工具——n元词组词频查看器,被称作Ngram。通过这一工具,人们能逐字逐句去追踪、记录各个词的出现频率和常见组合方式,提供给人们一个理解世界的过去、现在和未来可能性的新视角。
为了向世人展示成果,两位“神奇小子”还特意在一次TED演讲上现身,证明该项研究的重大意义——了解人类历史、文化、政治,社会演进的方方面面,就像吃一包薯条那样轻松。
“现在要给你们一些职业发展的建议。”针对书籍中出现的著名政界、学界和演艺界人士的定量研究,米歇尔调侃道,“如果你想早点成名,你就应该当演员。你能等一等,不那么着急,你就能当个作家,像马克·吐温那样成为文坛巨星。如果你想举世闻名,你就不能安于现状,成为一个政治家,需要到60岁左右才能成为现实,并且一直扬名下去。科学家?他们总是在年纪一大把的时候才出名,当然啦,生物学家和物理学家的名声,通常能跟演员的名声媲美。但有一个错误千万不要犯,那就是成为一名数学家。”台下顿时哄笑声一片。
两人还量化分析了“个人对文化历史”的影响,比如对奥地利精神分析学家“西格蒙德·弗洛伊德”和英国生物学家“查尔斯·达尔文”出现频率的分析,揭示出文化智力持续演变的趋势:到2005年,弗洛伊德已经失去阵地,达尔文最终超越了他。除此之外,两人还回答了像“语法的变化速度到底有多快?哪些作家被纳粹审查得最彻底?甜甜圈什么时候改换的拼写?”这些问题。
18世纪热词beft是啥意思
n元词组词频查看器第一次使用在谷歌图书项目中,谷歌公司的几位工程师显得异常兴奋:“这太有意思了,我们得让所有人用上它。”他们编了一个面向公众的NgramViewer版本。人们可以输入任何感兴趣的单词或词组,查看它的“N字格”并阅览所有书籍里出现“N字格”的例句。想不到第一天就被人们使用超过了100万次,统计显示,最高频的搜索词竟然是“Best”(中文意为“最佳、最好”)。
事实上,18世纪的英国人对“best”这种书写形式并不感冒,他们会把其中的“s”写得像“f”,但计算机在做模型运算时并没有注意到这个被排除在外的错词。让-巴蒂斯特·米歇尔说,“这实际上只是一个小提示,尽管很有趣,但你在解读这些图表时仍需非常谨慎,你必须遵循基本的科学准则。”
尽管对数据保存非常有效,但Ngram在解决人文学科问题的研究时还是存在局限性。复旦大学历史学系朱联壁研究员告诉记者,“主要是这个系统对排除干扰的能力较弱,对词的语境是无法呈现的。尤其是,如果扩展到中文书籍,中文的‘词’和英文单词的概念不一样,且一个单字在不同语境下呈现多样、完全不一样的涵义,还有中国文化中非常特殊的文言文。在这么多样性的情况下,设计不可能是一劳永逸的。目前Ngram也仅限于英语研究,但未来可以不断改进,并且均衡语言的收入。”
“基于大数据的研究分析只是数字人文的诸多形式之一,有许多数字人文的研究实践并不需要非常精深的计算机能力,依靠常用的应用程序、网站工具、App、网络平台、电子数据库等也可以实现,有大量的领域还有待于去拓展,许多新的方法可以去尝试。”周兵认为,任何研究当然都有其缺陷,但学术研究本身需要不断地创新和开拓,新的技术革命也要求我们能够适应时代和社会的发展,作为人文领域的研究者应该积极投身和推动人文研究的“数字转向”。
文汇报记者 童薇菁