Kaggle 提供 170 万篇文章以上的 arXiv 论文数据集
近 30 年来,arXiv 通过开放获取学术文章的服务为公众和研究社区提供服务,从物理学的广泛分支到计算机科学的许多子学科,以及介于两者之间的所有内容,包括数学,统计学,电气工程,定量生物学,和经济学。为帮助使 arXiv 更加易于访问,现在在 Kaggle 上提供了向机器可读的 arXiv 数据集一个免费的开放式管道:一个 170 万篇文章的存储库,其相关功能包括文章标题,作者,类别,摘要,全文 PDF,和更多。「在 Kaggle 上拥有整个 arXiv 语料库,极大地增加了 arXiv 文章的潜力,」arXiv 执行董事 Eleonora Presani 说。 「通过在 Kaggle 上提供数据集,我们超越了人类通过阅读所有这些文章可以学到的知识,并且以机器可读的格式将 arXiv 背后的数据和信息公开提供给公众。」Kaggle 是数据科学家和机器学习工程师寻求有趣的数据集,公共笔记本和竞赛的目的地。研究人员可以利用 Kaggle 广泛的数据探索工具,轻松地与他人共享相关脚本和输出。