您的位置: 首页 >产经 >

数据挖掘应用于学术出版物 以最终揭示地球的生物多样性

2019-10-22 11:44:20 编辑: 来源:
导读 具有讽刺意味的是,根据联合国最近的一份报告,具有讽刺意味的是,在一百万种物种濒临灭绝的时候,我们不知道地球上有多少种物种,我们也没

具有讽刺意味的是,根据联合国最近的一份报告,具有讽刺意味的是,在一百万种物种濒临灭绝的时候,我们不知道地球上有多少种物种,我们也没有记录下来所有我们已经了解的物种。单一清单。实际上,我们甚至不知道我们会把这样的物种列入清单。

包括全球2,000多家自然历史机构在内的联合研究,估计产生了约5亿页的学术出版物以及数以千万计的插图和物种描述,其中包括我们目前所知道的有关生命多样性的所有信息。但是,大多数内容无法通过数字方式访问。即使是数字形式,我们每天的出版系统也无法跟上,因为每天大约有50种被描述为科学新物种,而所有这些都以纯文本和PDF格式发布,而数据却无法被机器开采,从而需要人类将其提取。此外,这些出版物通常会出现在订阅(封闭访问)期刊中。

在生物多样性文学库(BLR)的联合项目Plazi,Pensoft和Zenodo在欧洲核子研究中心,承担挑战,开拓进入被困在科学出版物中的数据,并找出我们有多少种知道到目前为止,是什么它们最重要的特征(也称为描述或分类处理),以及它们在各种图像上的外观。为此,BLR使用高度标准化的格式和术语(这是科学出版物所特有的)从主要供人类消费的文字中发现和提取数据。

通过依靠最先进的数据挖掘算法,BLR可以检测,提取和丰富数据,包括DNA序列,标本收集数据或相关描述,以及提供与数据来源的隐式链接:收集,存储库因此,BLR是世界上最大的生物分类治疗,图像及相关原始出版物的公共领域数据库。

一旦获得数据,便立即将其分发给全球生物多样性平台,例如GBIF(全球生物多样性信息基金)。截至目前,大约有42,000种,其原始科学描述只能通过BLR获得。

科学引用以前信息的最基本原则使我们能够追溯特定物种的历史,了解其知识随着时间的推移如何增长,甚至了解这些物种的名称是否以及多年来如何变化。结果,该服务是通过简单查找来发现生活目录的一种途径。

迄今为止,吸取的教训导致了TaxPub的发展,它是美国国家医学图书馆期刊标签套件的扩展,并在新的26种科学期刊中得到了应用。结果,从发布过程开始就可以通过机器访问与这些期刊中的文章相关的数据。因此,一旦论文发表,数据就会自动添加到GBIF。

虽然BLR有望开放数以百万计的科学图示和说明,但该系统的独特之处在于,它使所有提取的数据都可查找,可访问,可互操作且可重用(FAIR),并且随时随地对任何人开放。最重要的是,其目的是创造一种新颖的方式来获取科学文献。

迄今为止,BLR已从38,000多种出版物中提取了约350,000种分类学治疗方法和约200,000种数据。其中包括55,800个新物种,3,744个新属和28个新科的描述。BLR有助于发现每年描述的约17,000种物种中的30%以上。

Pensoft的创始人兼首席执行官Lyubomir Penev教授说:“看到由Plazi于15年前开始并于2010年在Pensoft期刊中作为例行出版工作流程实施的TaxPub标准的开发过程,我感到非常满意,现在,我们已经建立了一个完整的基础架构,可以从全球各种期刊中自动提取和分发生物多样性数据。随着欧洲生物分类设施联合会(CETAF)最近宣布,他们的《欧洲生物分类学期刊》即将加入TaxPub俱乐部,更加有信心,我们正在为完全掌握世界生物多样性的范围铺平正确的道路。”

Plazi联合创始人兼总裁Donat Agosti博士补充说:“最后,信息技术使我们能够创建全面的,扩展的生命目录,并阐明这一巨大的文化和科学遗产–地球上生命的描述“对所有人来说。分类学治疗的性质是科学家对某个物种的发现的引证和综合网络,这使我们能够将不同的领域(如基因组学和分类学)与自然历史博物馆的标本联系起来。”

欧洲核子研究组织(CERN)协作,设备和应用小组负责人蒂姆·史密斯博士说:“将重点从传达概念的论文转移到概念本身是非常重要的一步。它使BLR提供了独特的新方法。相互联系的世界物种观点,其中分类学方法,其起源,历史和插图都相互关联,可访问和可找到,这对数字化其他研究领域的发展具有启发性!”


免责声明:本文由用户上传,如有侵权请联系删除!

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。