数据是如何越变越大的?在《自然》创刊周年日之际,Sabina Leonelli评论了过去150年如何塑造了今天的科学体系,并从政治、社会与经济利益方面对此进行了解读。
数据。它是复杂纷呈的研究基石,是科学理解世界的基础,是政治、社会与经济利益较量的避雷针。
插图:Se or Salme
什么是数据?哪些数据最可靠?数据所有者是谁?过去150年里,人们对数据的认识发生了天翻地覆的变化。曾经,数据被视为是稳定的对象,其重要性仅由少数专业人员说了算。而现在,数据却成了可重复利用的商品。数据的价值取决于其在不同背景下能发挥多大的作用,以及能否与其它条件形成合力。随着其体量、种类与价值的不断增长,数据已经可以推动研究发现的根本进程。
数据成为资产的这种明确转变,只有在制度、技术与经济发展相互交织的复杂网络下才能够实现。这个复杂网络的形成历史与结果,不断改变着研究本身和它在社会中的角色。
收集商品
直到19世纪初,对事实和研究对象的收集工作主要由一些远见卓识的个人在进行,他们的背后往往是富裕的赞助商。博物学家环游世界,搜寻着前所未见的生物标本。宫廷天文学家发明出观测宇宙的各种工具。科学家将由此积累的大量数据,用一些简单却强大的模型(如开普勒定律)和分类系统(如植物学家卡尔·林奈提出的分类系统)进行系统化与分析,从而诞生了英雄理论家从混乱的观察中发掘秩序的神话。这种个人主义的观点与数据私有性的观念密切相关,即数据从根本上讲是私有的,其科学价值取决于概念的解读。
19世纪发生了一次重大转变。我们现在所熟悉的数据,被制度化成了社会商品。它们的知识价值、经济价值与政治价值来自于投资,同时离不开规范与监管。巴黎的自然历史博物馆,本来是一处收藏珍奇植物的园林,后经过重新整理,成为了世界领先、向公众开放的科学研究宝库。到了19世纪50年代,柏林、伦敦和纽约的自然历史博物馆也纷纷效法。
食品市场的集中化催生了对生物体进行估值和贸易的标准化方法,例如美国芝加哥贸易委员会制定的农作物度量方法。欧洲的霍乱疫情促使人们大规模地收集有关疾病传播和传染对象的信息。新的可视化技术与分析方法应运而生,比如约翰·斯诺医生曾用那张著名的地图揭示出伦敦市中心的污染水源才是传播霍乱的媒介。
国家级的气象服务部门开始在各地区收集的数据之间建立联系。1853年布鲁塞尔航海气象大会将船舶的航海日志编入了气候科学的第一个准全球性数据记录。在柏林,第一个真正意义上的标准局——帝国技术物理研究所,于1887年成立。物理学家赫尔曼·冯·亥姆霍兹担任第一任所长,并受命生成全社会所需要的数据。同时,美国陆军责成陆军医务部部长办公室图书馆尽其所能地收集疾病病例报告。不到30年,这个图书馆就发展成了全世界最大的医学图书馆。
国家宝藏
进入20世纪,民族国家的崛起和与日俱增的国际贸易需求,促使人们积极地采取更加系统和客观的方式来测量自然与社会。国家信息基础设施促进了区域间的数据共享,标志着新一轮信息全球主义的开始。国际联盟和国际货币基金组织这类国际实体,迫切地希望能够实现多目的、所有科学领域的数据收集与分析的全球化。
例如,国际联盟卫生组织成立了生物标准化常设委员会,从1924年开始监督药物测试和生物测定。早在第二次世界大战爆发之前,共享就业、失业、工资和移民信息的大趋势已经形成。1947年起,新的国际统计委员会开始负责这些数据的收集工作。不断壮大的研究人员、管理人员、商人和政治家群体推动着这类工作的进行。
随之发展还有各种实现量化的复杂方法。统计学变成了一门单独的学科,成为了新兴保险业和公共卫生监测系统的主要信息来源。人们开发出了各种各样的技术,以应对人口普查等高度复杂的社会事务。人口层面的思考也在好(遗传学)坏(优生学)两个方面影响到了生命科学。一种新型的数据收集手段以单一模式物种(如果蝇)的基因突变为焦点。
英国首份关于肺癌和石棉联系的详尽报告中使用的显微镜载玻片
两次世界大战对数据收集和共享造成了严重的短期影响。但是从上世纪40年代开始,对情报和信息技术的巨额军事投入开始把趋势转向机械化计算。太空竞赛或许是冷战对全球化数据系统与实践、特别是卫星技术做出的最大贡献:不仅带来了从太空拍摄的第一个地球影像,还推动了60年代全球民用通信网络Intelsat(国际通信卫星组织)系统的出现。
世界气象组织于1950年成立,负责管理各地区气象部门在一些国际项目中的合作,比如全球大气研究计划等。1957-58年的国际地球物理年标志着地球科学对全球数据交换事业的承诺,也是冷战时期一项外交成就。
全球货品
从1970年代开始,几乎每个科学领域都在建立用于数据共享的全球数字化基础设施。联合国加强了其全球环境监测系统,同时,世界卫生组织也将其在防控传染病扩散方面所做的努力加以系统化。开发新工具成了一种必杀技,比如能够处理空前规模数据的计算机模型。
逐渐地,数据被看作能够重新利用的可共享资产,其价值也随用途而改变。这种看法很大程度上受到了强调模块化和复杂性的控制论运动的影响。再者,国际贸易的增长,以及越来越多的人把研究看作经济发展、军事力量与国际关系的引擎,也推动了数据作用的转变。
同样也是在70年代,大科学项目走上了舞台的中央,比如从事粒子对撞研究的美国洛斯阿拉莫斯国家实验室和欧洲核子研究组织CERN。在这些项目里,数据的产生和交换不再由个体研究人员完成;相反,它们是在大量投资和集体努力下,来自中心化实验设施的产物。在很多领域,这样的中心化是不可行的。例如以观测为主而不是以实验为主的环境、生物和气候科学领域。但即便是这些学科也在抓紧建立自己的信息共享网络,以便将信息输入最新的计算工具。
1963年,英国谢菲尔德一家钢铁厂的霍列瑞斯穿孔制表机。这台机电设备可以帮助工人将存储在穿孔卡上的统计信息制成表格
自80年代以来,便携式计算机、建模和仿真的出现,改变了数据收集、处理和归档的方式。气候科学家开发出了全新的方法,可以使用遗留下来的记录重建全球规模的大气历史。这项工作推动了国际数据的汇集,并最终推动了1992年全球气候观测系统的建立。
在生物学领域,大型遗传测序项目让生物学图谱的绘制水平精确到了分子级别。从最早对秀丽隐杆线虫这类模式生物进行基因组测序,到现在的"人类基因组计划"。测序数据库被重构成全新发现的试验场,通过推动低成本实时共享、可视化和在线分析,让基因组数据的庞大投入转化为有用的知识。
开放时代
随着全球范围内数据基础设施和相关制度的蓬勃发展,维护它们所需的资源也与日俱增。但这些资源与当前的资助、贡献和传播制度却并不兼容。例如,生物数据库的管理员做着非常关键的工作,却不能经常在顶级期刊上发表文章,也不太会被认为是高级研究人员,得不到应有的奖励。类似地,维持数字平台稳健性和适用性也需要大量投资。被迁移和重新利用的数据越多,它们面临未授权使用以及遭到误导性操纵的可能性就越大。
在过去的几十年中,开放科学运动一直呼吁让广泛的数据共享成为更好研究的基础。这也推动了一些变革。首先,由此诞生了一批主要从事数据集出版的期刊。此外,数据基础设施领域得到了投资者的青睐,欧洲开放科学云的建立便是其中一例。而《FAIR指南》的编制也为数据的标记和管理提供了实际方法,使得数据可以重复利用。也有人呼吁提高数据管理人员(如技术员,档案员和管理员)的待遇,让他们的专业地位从支持工作者提升到知识创造者。
当前研究系统面临的大规模危机,其根源在于我们无法对数据的各种社会和科学方面进行妥善的协调,因此,这些改革只能解燃眉之急。这场危机使人想起了20世纪的研究数据被重新配置成了政治和经济资产。数据的所有权可以赋予权力并代表权力,而数据的泄露则会构成安全威胁——比如冷战时期对核试验相关地质数据的保密工作。如今,新技术的诞生也伴随着数据所有权和交易体制的兴起。从本世纪头十年开始,少数的几家公司已经创建了并管理着一种新型数据:数十亿人在网上会面、工作、娱乐、购物和互动时留下的数据。(想想亚马逊和谷歌吧。)
不仅算法的透明度在降低,用于解读数据的技术和工具的透明度和可靠性也在不断下降。数据管理员的地位仍然像是学术界的灰姑娘,而理解并从事数据管理的人已经在产业界扶摇直上。围绕着数据产权的担忧不断增加,尤其是在Facebook和剑桥分析之类的公司滥用个人数据之后。
数据到底是公共产品还是私人财产?诸如此类的紧张关系长期影响着相关实践和技术发展。举个例子,回忆一下90年代关于基因数据的所有权和传播权的激烈辩论。在那次事件中,百慕大规则(Bermuda Rules)的建立宣告了免费共享的胜利。公共资金资助的研究人员之间达成了一项协议,要尽快将自己的测序结果保存在公共数据库中。这项工作大获成功,也为其他领域的开放数据实践铺平了道路。同时,它也让人们意识到,拥有基因组数据可以带来经济上的好处:一些公司迅速发现了这一点,他们为客户进行基因测序,并宣称可以解读测序结果,不过他们通常会保存并使用这些数据。另一个例子则是化学产业为合成生物申请的大量专利。
谷歌在美国的一个数据中心里存放着成排的服务器
附加价值
全球性、全方位、易于获得的数据资源,是大数据成为人工智能系统输入信息的前提。理论上,强大的分析工具与大量的生物数据相结合,可以为个性化医疗和精准农业提供支持。同样,从互联网平台和社交媒体服务中获取的社交数据,也可以引导基于证据的政策制定、商业决策和教育。然而,历史表明,研究数据的迁移并非易事。围绕数据整合与使用的根本技术问题实际上是棘手的社会、道德和语义问题。
如何鼓励不同的研究文化之间展开有效的沟通?如何才能最好地收集、共享和解读来自政府、业界或社交媒体的数据?哪些专家和利益攸关者在数据管理和分析上享有发言权?谁在什么情况下可以用哪种方式使用数据?解决这些问题需要有效的监管,对当前研究领域的长远认识,以及研究具体对象所需的技能、方法和制度。
总之,数据的生成、处理和分析不可避免地掺杂着价值取向。这些活动的科学合理性,取决于这些价值取向在多大程度上受到了公众的监督。确实,迄今为止最好的数据密集型研究案例都制定了相关策略与方法,确保研究充分考虑到了在数据收集、存储、传播和分析中的各种选择过程。
例如,PomBase(用于粟酒裂殖酵母)和FlyBase(用于果蝇)等模式生物数据库可以清楚显示其所存储数据信息的出处,包括创建人、研究目的以及实验的环境等信息。用户也能因此评估数据的质量和重要性。同样,《癌症体细胞突变目录》(COSMIC)也记录了其数据的出处,并对数据管理员在处理过程中做出的决策进行了解释。这有助于临床医生重新评估信息的价值。
大型数字基础设施过滤掉的假设和判断越多,就越容易隐藏或者丢失这些假设和判断,后人也就无法妥当地处置这些数据。数据是一种文化产品,只有在知晓其出处和后续处理过程后,才能明白它的重要意义。
技术发展,尤其是数字化进程,已经彻底改变了科学的生产过程、方法论、传播方式、目标、参与者和所扮演的角色。而同样重要的是科研流程、规则和制度的巨大变化——它们决定了科研活动的参与者及其行为、环境与原因。总而言之一个词:治理。数据是相互关联的对象,不论其意义与解读如何,数据作为证据来源的身份,取决于相关者的利益、目标和动机,还有他们的体制与财务背景。从数据中提取知识绝不是一种中性行为。
将可靠的决策记录融入数据系统,辅以它们明确代表、包含或排除的对象,将极大地增强未来数据使用的责任性。这也把价值取向的问题带入了研究的核心,我们再也不能像生物伦理学曾经发生过的那样,假装这不属于科学研究的范畴。如果想用大数据科学解决21世纪的严峻社会和环境挑战,这将是不可或缺的前提。
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。