Machine learning for molecular and materials science
Keith T. Butler, Daniel W. Davies, Hugh Cartwright, Olexandr Isayev & Aron Walsh
DOI:https://doi.org/10.1038/s41586-018-0337-2
Abstract
Here we summarize recent progress in machine learning for the chemical sciences. We outline machine-learning techniques that are suitable for addressing research questions in this domain, as well as future directions for the field. We envisage a future in which the design, synthesis, characterization and application of molecules and materials is accelerated by artificial intelligence.
这是一篇发表在nature上的review,我这次分享这篇文献主要是因为最后一句话让我产生了共鸣,为了节约您宝贵的时间,建议直接跳到最后看╰( ̄▽ ̄)╭

主要内容
- 总结了适用于化学、材料学领域的机器学习方法
- 朴素贝叶斯
- K-邻近
- 决策树
- 支持向量机
- 神经网络
- 机器学习未来在化学、材料学领域的发展方向
- 指导化学/材料合成
- 表征材料特性
- 推动理论发展(Reason:在实践中,随着系统尺寸的增加,计算量的复杂性迅速增长,因此需要付出相当大的努力来寻找能够将材料的特性计算到可接受的近似值的快捷方式。)
- 发现新物质
- 机器学习前沿
-
用小数据集获取更多的知识
-
量子机器学习
-
建立新规律(Establishing new principles)
我主要针对第三部分内容谈一下我的想法。
用小数据集获取更多的知识
机器学习方法通常需要大量数据才能使学习有效。这在诸如图像识别等领域中都不是问题,因为有数百万个输入数据集可用,但在化学或材料科学中,以及我们的力学领域中,我们通常只能得到数百或数千个高质量数据点。
除了扩大数据集外,我们也应该思考如何使用少量的数据进行机器学习。新的发展,如神经图灵机和">模仿学习正在实现这一过程。最近报道了一种贝叶斯框架,通过数据有限的一次性学习问题实现人类水平的表现,这对分子和材料科学产生影响,其中数据稀少且通常昂贵且难以获得。
建立新规律
自动发现科学规律和原则,文献1,文献2,正在通过机器学习寻找新的物理规律,或者说从数据上提取现有的物理规律。虽然从机器学习开发的模型是预测性的,但它们可能(甚至通常)是不可解释的。有几个原因
- 首先,机器学习模型代表知识的方式很少直接映射到科学家熟悉的形式。
- 给定合适的数据,人工神经网络可能会发现理想的气体定律 $$ pV = nRT$$ 但是,通常没有办法通过统计学习将网络之间的连接权重转换为公式,即使是非常简单的公式。
- 第二个原因是更微妙的:作为一个新的物理规律,可能是目前的科学家们都尚未拥有的知识,如果它被机器学习系统发现,即使是知识渊博的科学家也难以理解。
To AI
There may be scientific laws that are so complex that, to be discovered by a machine-learning system, they would be too challenging for even a knowledgeable scientist to understand.
Comments NOTHING