量子实验室公开自建的Alchemy数据库,发起Tencent Alchemy 2019竞赛,挖掘算法的泛化性能,推动学术界与产业界聚焦化学中分子的量子性质预测问题,及其AI解决方案。希望该竞赛能激发不同领域人才的合作创新活力,推动分子科学及应用的加速进展,助力整体生态成长和相关产业发展。
竞赛背景
腾讯量子实验室积极探索将量子和AI技术应用于化学研究,及其在制药材料等行业中的潜在应用。该领域中的一个重要挑战是现有的大部分实验化学数据包含大量的噪声,这对还在初期阶段的AI化学和制药模型的研发与评估带来了很大的困难。一个解决方案是用高精度的量子化学计算来搭建可靠的的分子数据库,以供AI算法的研发和评估使用。但这需要耗费大量的计算资源,事实上,现有的公开数据库只提供了非常小而特殊的分子的性质,这对算法开发的作用已日趋饱和。
腾讯量子实验室利用腾讯强大的计算能力,自建了分子量子性质数据库-Alchemy:一个全新的、包含更大分子的,更丰富结构的高质量数据库,有望极大加速AI化学和制药领域的发展进程。
竞赛任务
在竞赛中,参赛者可根据腾讯量子实验室提供的分子训练集,自由使用机器学习算法预测分子的包含几何、电子、热力学性质等方面的12个属性(列表1),按要求提交结果。最终比赛将基于12个回归任务的平均误差来评估。
列表1:分子待预测的12个属性
量子力学性质对于预测分子在某些环境下的的行为至关重要。例如,HOMO和LUMO能量,以及Free energy等属性都有助于预测分子的化学反应结果。
参赛对象
此次竞赛面向全社会。国内外高等院校、科研单位、企业人员均可报名参赛。
(大赛主办和合作伙伴,以及有机会接触竞赛题目和数据的工作人员不能参与比赛。)
报名方式
访问竞赛官网https://alchemy.tencent.com进行注册,即可报名参赛。
竞赛流程
- 准备阶段:2019年5月22日-7月31日。
- 评测阶段:2019年8月1日-9月30日。
- 公布结果:2019年12月31日前。
奖项设置
- 一等奖 ¥50,000
- 二等奖 ¥30,000
- 三等奖 ¥20,000
特别介绍:分子量子性质数据库-Alchemy
使用量子模拟的方法生成分子数据库已经在这个领域有所尝试,不过由于算力的限制,学术界已有的分子数据库大多由小分子(重原子数量≤9)组成。现有公开数据库中(列表2),QM9拥有最多的分子数量并且计算了多达12个分子的量子力学性质(列表1)。
列表2:Alchemy与现有分子数据库的对比
Alchemy数据库是基于QM9的一个扩展,有更为丰富的分子结构(重原子数量9-12),包括更多元的重原子类型(S 和 Cl),而且分子样本是从GDB MedChem这一药物化学性质良好的分子数据库中筛选出来,具有较高的药物开发潜在价值。对比总结如下表(列表3)。
维度 | QM9 | Alchemy |
重原子个数 | ≤9 | 9-12 |
样本选择 | GDB17 | GDB MedChem |
组成元素 | C, H, O, N, F | C, H, O, N, F, S, Cl |
文件格式 | xyz(不含化学键信息) | SD(含化学键信息) |
列表3:Alchemy与QM9的详细对比
期望Alchemy这样一个全新的、包含更大分子的高质量数据库,能够助力分子科学及其应用,为AI化学和制药助力!
大赛已于5月22日正式发布,第一阶段将于7月31日结束,更多详情欢迎前往官网 https://alchemy.tencent.com了解!