“目前我国发表在国际期刊上的文章,几乎一半与生命科学有关。要在顶级期刊发表论文,将研究数据提交给欧美几大生物数据中心,是国际通行的做法。”中科院上海营养与健康研究所研究员、生物医学大数据中心主任李亦学初略估计,多达数千TB的生物学数据目前存储在国外生物数据中心,背后则是成百亿元的国家科技投入。
另一个“怪象”是,通过“出口转内销”,国内同行在国际平台上实现了国内难以实现的数据共享。
“除了缺乏共享平台,我们更缺乏共享文化。”全国人大代表、中科院上海生命科学研究院院长、中科院院士李林在接受采访时呼吁,我国应建立自己的生物医学大数据管治体系。
“我国是名副其实的生物‘数据大国’。”李林告诉记者,自开展人类基因组研究以来,我国已产出大量与人类及医学相关的基因组及其他组学研究数据,仅存贮在国际基因数据库的组学数据中,就有30%以上来自中国。
一方面是最大生物数据输出国,另一方面我国却严重依赖国际数据开展研究。
我国大量生命科学研究的基础计算工作,不仅依赖国外的分析软件,还往往依赖国外数据中心存储的大规模科研数据。2006年,14条海底光缆受地震影响,中美间国际通讯受阻,国内一时不能访问美国国立生物技术信息中心(NCBI)网站,导致严重依赖国外数据资源的我国生命科学研究受到极大影响。
李林说,我国有若干运行较好的数据库,但真正能够整合大量国内数据的公共数据库不多,而且规模有限,基本不具备相互共享、整合并提供大规模数据服务的能力。
国内生物数据共享文化缺乏,被认为是造成“出口转内销”现象的重要原因。海量的生物医学大数据散落于机构甚至个人手中,碎片化或孤岛化严重,状况已持续数十年。
“在生物大数据领域,我国缺乏从国家层面对生物大数据进行有效管理、利用的体制、机制和支撑环境,这已经严重威胁我国生物数字主权。”李亦学在查阅国家已公布的6项与人类遗传资源管理相关的行政处罚决定书后发现,某些机构、企业为了一己眼前利益,漠视国家管理规范,违规将大量基因资源和检测数据输送境外。
“造成上述现象的原因很多,核心问题,是缺乏国家级公益性、规模化、权威性的数据标准管理创新服务技术体系及配套的基础设施。”李林说。
2016年12月,国家发改委联合8部门发布的《国家重大科技基础设施“十三五”规划》,将“国家生物医学大数据基础设施”建设方案列入5个后备项目之一。
“一个人身上大约有300万个单核苷酸多态性(SNP)位点,随着基因检测技术的发展,理论上只需大概75个,换言之,只需要1/40000的SNP位点信息,就可锁定某个人。”李林坦言,生物医学大数据的共享应用与隐私保护相互博弈,面临技术与伦理挑战。“好比‘鸡’和‘蛋’的关系,希望依托平台建设,结合国际经验与我国现状,建立我国生物医学大数据管治体系,从国家层面上抓落实,做到既保证数据安全,又促进共享应用。”
按照设想,李林认为体系包括完善基于数据安全与隐私权益的法律法规与政策标准;加强国家数据相关管理部门与设施技术体系的合作与协同;同时要设置数据安全与伦理委员会及各级单位的信息安全部门,督导、引领并落实国内生物医学大数据的数据安全与隐私保护。
李亦学也希望,通过平台建设,能够慢慢培养国内科研圈的科学数据共享文化。
转自科技日报
编辑:陈熙涵
责任编辑:王磊