在印度展开全球文献数据挖掘，美国专家的大胆做法登上Nature

最新一期的《Nature》介绍了一位美国专家在印度展开的宏伟项目，他利用从 1847 年至今的 7300 万份文献中提取的文本和图像创建了一个数据库，并计划对其进行数据挖掘，其中也包含未经授权的文本。这一做法对多个学科的发展都有所帮助，但其合法性目前尚不明确。

Carl Malamud 站在服务器前，他的团队准备对 7300 万篇论文进行数据挖掘。

Carl Malamud 正努力解放付费论文背后的信息，他的这一行动获得了非常多的支持。

Malamud 曾花费数十年时间发布受版权保护的法律文件（从建筑规范到法庭记录），并坚持认为这些文件代表了公共领域的法律，应该向所有公民开放。但现在，这位 60 岁的美国技术专家正转向一个新目标：解放付费的科学文献，他认为这可以通过合法的方式做到。

在过去的一年中，Malamud 与印度的研究者合作，构建了一个巨大的文本和图像库，它们是从 1847 年至今的 7300 万份文献中提取的。

这一项目的缓存设备坐落于新德里尼赫鲁大学（JNU），目前仍在构建，它的存储量达到了 576TB。

Malamud 和她在 JNU 的合作伙伴将这一项目命名为 JNU 数据库（JNU data depot），他表示：「JNU 数据库并不会收集历史上所有期刊的所有文章，但数量确实很多。它的大小相当于 Web of Science 数据集的核心资源。」

JUN 数据库并不允许任何人从它里面读取或下载文献，因为这会破坏发行商的权利。因此，Malamud 设想研究者可以通过计算机软件爬取文本和数据，通过扫描全世界的科学文献来抽取核心信息，这样就避免了对文本的实际阅读。

这个前所未有的项目很快引起了许多人的兴趣，因为它首次打开了付费文献的快速计算分析之路。目前数十个研究团队已经在挖掘论文以建立基因和化学相关的数据库，并绘制疾病和蛋白质之间的关联以生成有用的科学假设。

但出版商的控制经常会限制该项目的进展与推广，因为他们常常只允许访问摘要而不是全文。印度、美国和英国的研究者已经计划使用 JNU 储存，很多教授也都对该项目非常感兴趣。

然而，目前这种库的法律地位尚不明确。Malamud 在创建这一项目之前咨询过几位知识版权律师，希望能避免诉讼。「我们认为自己做的事情是合法的」，他表示。此刻，他正小心翼翼地推进项目：JNU 数据库是隔绝的，也就是说，没有人能从网上对其进行访问。用户必须采取物理访问的方式，目前只有不以盈利为目的进行数据挖掘的研究者才能获得访问权限。Malamud 表示，他的团队计划开放远程访问权限，而且是逐步推进。

数据挖掘的力量

加州大学圣克鲁兹分校生物信息学研究者 Max Häussler 表示，JNU 数据存储可以扫清阻止科学家使用软件分析研究论文的障碍。他表示，「目前对学术论文进行文本挖掘几乎是不可能的」，即使像他这样能够获取付费文章的人来说也是不可能的。

在德国柏林 QUEST Center for Transforming Biomedical Research 兼职工作的统计学家 Chris Hartgerink 表示，他现在只能对开放获取出版商的文章进行文本挖掘，因为「对封闭式出版商的文章进行此类操作会带来诸多麻烦」。几年前，Hartgerink 还在荷兰读博时，三家出版商在他尝试下载文章进行文本挖掘后，禁止他访问它们的期刊。

然而，大学学者仍然受限于挖掘数据库中的文章摘要，毕竟摘要能提供的信息远远少于文章全文。

Carl Malamud 和 Andrew Lynn 检查尼赫鲁大学（JNU）项目，该项目旨在从 7300 万论文中提取文本和图像。

如果想要对研究文章进行文本挖掘，科学家还需要克服技术障碍。出版商使用的版式多种多样，因此提取文本并不容易，这也是 JNU 团队目前致力于解决的问题。PDF 转文本的工具通常无法明确地区分段落、脚注和图像。然而，一旦 JNU 团队解决了这些问题，其他人就可以节省自己的时间和精力。Malamud 表示，JNU 团队即将完成对 7300 万论文的第一轮提取（尽管仍需要检查错误），因此他预计数据库准备将在今年底完成。

惠及多个领域

早期的爱好者已经准备好使用 JNU 数据库了，其中著名的一位是印度德里国家植物基因组研究所（NIPGR）的计算生物学家兼英国剑桥大学讲师 Gitanjali Yadav。2006 年，Yadav 在 NIPGR 建立了一个有关植物分泌化学物质的数据集 EssOilDB。现在，药品研发团体和香水制造商将 EssOilDB 数据集视为自身寻求指导的来源。Yadav 认为「Carl 提供的 compendium」可以给她的数据集带来帮助。

数据集的建立从来都不是容易的事情。在建立 EssOilDB 数据集的过程中，Yadav 的团队必须从 PubMed 和 Google Scholar 数据库中爬取相关论文，从他们能找到的完整文本中提取数据，并且亲自进入相关数据库以拷贝稀有期刊的表格内容。Yadav 表示 JNU 数据库可以加速以上收集数据的过程，目前她的团队正在编写用于提取数据的查询程序。

印度德里基因组学和综合生物学研究所（IGIB）的生物信息学研究者 Srinivasan Ramachandran 也受到了 Malamud 计划的鼓舞。他的团队运行了一个有关糖尿病 II 型基因的数据集，他们一直从 PubMed 数据库中爬取相关论文摘要。现在，他希望 JNU 数据库可以扩展其数据挖掘的范围。

MIT 的 Knowledge Futures Group 团队表示希望继续挖掘 JNU 数据库，从而获得学术出版的演变过程。该团队成员之一、MIT Media Lab 博士生 James Weis 表示，团队希望这个数据库可以预测新兴研究领域，并且能够找出其他方法来替代当前衡量学术影响力的常规度量指标。

做法是否合法？

Malamud 表示，他采用的那些文章从哪儿来并不重要，「数据挖掘」并不是消耗性的，也就是说，数据挖掘研究者并不会阅读或呈现他们所分析文章的大部分内容。「你并不能输入一个 DOI（文章识别符）来获取那篇文章，」他说道。Malamud 还认为，对有版权的内容进行文本挖掘在美国等国家是合法的。2015 年，Google Books 也做了和 JNU 类似的事情，他们在未购买的情况下对数千份受版权保护的书进行了扫描，而且在搜索服务中对这些书的片段进行了展示，尽管他们并不允许全本下载或阅读。然而，美国法院却判定谷歌全书扫描不构成侵权。

谷歌的代理律师 Joseph Gratz 表示，Google Books 的例子是对判断非消耗性数据挖掘是否合法的一种试验。尽管谷歌会展示图书的片段内容，但法院认为，由于被展示的文本篇幅有限，因此不足以构成侵权。此前，谷歌也在扫描经过授权的书籍（很多情况下来自图书馆），尽管并未征求作者许可。Gratz 表示，版权所有者可能认为，Sci-Hub 或其他未经授权的内容提供给 JNU 库的情况可能不同于谷歌的做法。然而，这种涉及未授权资源的案子还没有在美国法庭讨论过，因此很难预测判决结果。「有充分的理由证明资源的来源无关紧要，但也有人认为来源很重要。」

当然，这一做法在美国是否合法似乎并没有那么大的意义，因为项目建在印度，印度法律怎么规定才是重点，美利坚大学的一位教授表示。

印度的版权法可能对 Malamud 的做法有所帮助，这也是他将项目建在新德里的另一个原因。德里国家法律大学的助理教授 Arul George Scaria 表示，如果根据印度法律第 52 条中的研究豁免权，谷歌的扫描会被认定为对受版权保护内容的合理利用。

当然，并非每个人都同意这种说法。新德里维迪法律政策中心的一位法律研究员 T. Prashant Reddy 表示，第 52 条允许研究人员复印期刊文章供个人使用，但并不一定允许如 JNU 库那样对期刊内容进行全文复制。Reddy 说道，不与用户共享整篇文章的确有助于解决版权问题，但为了创建数据库而对文本进行批量复制的做法仍然游走在「灰色地带」。

存在风险的计划

当《自然》杂志和 15 家出版商交流 JNU 数据库计划时，其中 6 家出版商表示他们之前从未听说过这一项目，在没有进一步信息之前他们对其合法性不予置评。但是这 6 家出版商（爱思唯尔、BMJ、美国化学学会、Springer Nature、美国科学促进会、美国国家科学院）都表示，研究者要想挖掘其论文必须首先取得授权。

Malamud 承认该项目存在风险。但是他认为这具备道德重要性，尤其是在印度。印度大学和政府实验室花费大量资金订阅期刊，但仍然未能订阅所有需要的刊物。Sci-Hub 发布的数据表明，印度人是其网站的最大用户群体，这说明大学许可证并未走得足够远。欧洲和美国的开放获取运动非常珍贵，而印度也需要解放对科学知识的获取权利，Malamud 表示，「我认为我们不能等待欧洲和美国解决这个问题，因为时间紧迫。」

原文链接：https://www.nature.com/articles/d41586-019-02142-1

工程数据挖掘Nature印度美国智能物联网数据科学