“我从2001年开始陆续录制了一些为病人做手术的影像,初衷是希望能为机器人‘学习’提供一些数据。现在,影像已经积累了不少,我却不知道送到哪里去,才能让它们发挥作用。”在日前举行的一次学术会议上,解放军总医院第一医学中心肝胆外二科刘荣教授的一番话,引发了不少学者的共鸣。
迄今为止,刘荣团队机器人肝胆胰手术量成功突破千例,他希望这些数据能为“达芬奇”等手术机器人研究尽些“绵薄之力”。但正如一些业内人士所看到的,当前科学数据共享仍面临不少阻碍:数据存储,存到哪儿?要使用,谁来用?
有人建议:或许可以采取“两条腿走路”的办法,既制定合理、完善的科学数据管理方法,又同时建立跨平台的科学数据存储库,由此让我国科研投入获得更大产出。
存储困境
数据保存期缩短,实验来源追溯有风险
生命科学领域,是产出科学数据的 “大户”。以上海光源为例,一期共有13条线站,每天最大可产生近100TB的数据。据了解,上海光源现有数据存储模式是,用户在实验结束后将实验产生的原始数据复制取走,同时,上海光源保存备份。
“过去,上海光源为客户保存数据的期限一般是3个月,而现在客户数量越来越多,可保存数据的时间已缩减到1个月。”这是上海市研发公共服务平台管理中心副主任朱悦不久前在上海光源调研时获知的。对科研人员来说,这可不是利好。
须知,上海光源的用户主要是从事各类专业领域研究的科研人员,他们中的大部分并不具备专业的数据处理能力,所在机构也大多没有专门的数据存储中心。因此,一旦用户数据发生丢失、损坏等情况,他们的实验就可能无法追溯来源。
和“存储难”一并困扰科研人员的,还有数据的使用问题。对刘荣来说,存储手术影像虽然麻烦,但目前尚能够承受。对于人工智能技术在医疗领域的应用,刘荣十分乐观,他希望机器在“学习”他的开刀手法后能够提高手术效率。或许,在不远的未来,医生只要按下按钮,机器人就能为病人实施手术,一天可做的手术台数将从5台增加到20台。然而刘荣坦言:“数据如果一直存储在家里,谁都看不到,也就用不了。”
跨界困境
亟须建立国家层面科学数据共享平台
在大数据时代,数据也是重要的战略资源。以生命科学为例,在美国国家生物技术信息中心(NCBI)、欧洲生物信息中心(EBI)、日本DNA数据库(DDBJ),科学家不仅可无偿使用存储在这些数据库的数据,且有大批计算机专家和生物学家维护着数据库,免去了科研人员后顾之忧。
近年来,我国亦大力推动科学数据共享。朱悦透露,国务院办公厅去年发布《科学数据管理办法》,明确科学数据共享“以开放为常态,不开放为例外”的理念,至今我国已认定20个国家数据中心,在极地科考等领域建立了较好的数据共享平台。
不过,随着学科交叉融合,条块分割的数据库仍会遇到问题。比如,要满足刘荣的需求,就需要搭建“医工结合”的数据库。
“放眼全球,各国数据库建设正从分散走向集中。”朱悦说。去年11月开放的“欧洲开放科学云”就是个值得借鉴的案例。这一数据共享平台是2016年由欧盟委员会提出建设的,面向170万欧洲科研人员及7000万各领域专业人士提供跨境、跨领域的科研数据存储、管理、分析与再利用服务。也就是说,所有欧洲研究人员都可通过门户网站,轻松访问这里的数据资源。
促进共享
打通条块分割,科学数据共享平台将有“上海构架”
事实上,自我国《科学数据管理办法》颁布后,一线科研人员们就在热切盼望实施细则尽快出台。尤其对上海来说,加快科创中心建设,更是要在顶层设计层面有所布局,把促进科学数据共享当作面向未来的重要工作来抓。
不久前,市科委主任张全透露,上海正在加快建设科技创新资源数据中心,未来将向全球科学机构开放并共享上海的科学仪器和各种科技创新资源。
记者从上海科技创新资源数据中心了解到,它将拥有海量科学数据存储和计算服务的软硬件架构,并维持高水平的研发和服务团队。具体而言,该中心首先具有很大的数据存储能力,将打通不同数据库间的条块分割,实现异地存储和跨云管理。今后,各地科学家无论把数据传输到哪朵“云”上,都可以在该中心实现数据共享。其次,该中心正在参照国际通行的数据FAIR管理规则(即“可被发现、可被访问、可互操作、可被再利用”),打造自己的数据使用和共享准则。
“促进科学数据共享,从来都要用‘两条腿走路’。”朱悦说,在他们的工作计划中,对数据的进一步整合与规范也已纳入考虑。
作者:沈湫莎
编辑:储舒婷
责任编辑:顾军
*文汇独家稿件,转载请注明出处。