DeepMind与欧洲生物信息研究所(EMBL-EBI)合作发布了AlphaFoldDB;利用AlphaFold确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白)的蛋白质的结构。DeepMind创始人兼首席执行官DemisHassabis博士说:「我们使用AlphaFold生成了人类蛋白质组最完整、最准确的图片。我们相信这是迄今为止人工智能对推进科学知识所做的最重要贡献,也是人工智能可以为社会带来的各种好处的一个很好的例证。」
其实,人工智能在推动材料科学的发展过程中,也起到类似的革命性的作用。传统的材料科学是采用类似炼金师的方法,通过不断验证各种类似“菜谱”配方进行实验。而新一代的人工智能技术赋能后,新材料是可以通过“计算”来发现。
过去十年的材料科学的发展,部分由材料基因组计划推动,部分由其他领域的算法发展和数据驱动的巨大成功推动,信息学战略开始在材料科学中形成。这些方法导致了借用机器学习模型,使人们能够纯粹根据过去的数据进行快速预测,而不是通过直接实验或明确解决基本方程的计算/模拟来实现。以数据为中心的信息学方法对于确定难以用传统方法测量或计算的材料特性变得非常有用--由于所涉及的成本、时间或精力,但对于这些材料,可靠的数据要么已经存在,要么至少可以为关键案例的子集生成。通常采用数据插值式预测,首先涉及到对材料的数字特征,然后遵循特征和感兴趣的属性之间的映射(通过学习算法建立)。特征可以有多种类型和规模,这是由应用领域和需求所决定的。预测也可以是外推的--扩展到新的材料空间--只要预测的不确定性被适当考虑到。
当遇到新情况时,认知系统(包括人类)有一种自然的倾向,即根据过去类似的遭遇做出决定。当新情况与过去遇到的情况截然不同时,可能会出现判断错误,也可能会吸取教训。这种过去的情景、做出的决定和学到的教训的总和可以被看作是"经验"、"直觉"甚至是"常识"。理想情况下,根据认知系统的内在能力,它的决策能力应该随着遇到的情景的丰富程度的增加而逐步提高。
近几十年来,人工智能(AI)和统计学界已经将这些看似模糊的概念量化和数学化。这些努力导致了从过去经验(或"例子")中学习的实用机器。这种机器学习方法的经典范例包括面部、特征或物体识别系统,可以下复杂游戏的机器,如国际象棋、围棋或扑克,以及自动化系统,如机器人或自动驾驶汽车。在每一种情况下,都需要大量的过去的例子数据集,例如,图像和它们的身份,棋盘游戏中的棋子配置和最佳动作,以及驾驶时遇到的场景和最佳行动。
从表面上看,当遇到新的情况或问题时,确定最佳决定或答案的"数据驱动"方法似乎与基于基础科学的方法截然不同,后者通过解决支配相关现象的方程来进行预测。但换个角度看,科学过程本身--从观察开始,接着是直觉,然后构建一个能解释观察结果的定量理论,随后根据新的观察结果完善理论--难道不是这种数据驱动的调查的最终结果吗?
在更现代的时代,在过去的十年左右,由于对上述概念的隐含或明确的接受,"数据驱动"、"机器学习"或"材料信息学"范式正迅速成为材料研究组合中的一个重要部分。稳健可靠的硅模拟方法和系统的合成与表征能力,虽然耗时且有时昂贵,但提供了一个途径,可以有针对性地、有组织地生成至少一个所需的关键数据子集(例如,通过"高通量"实验或计算)。从这些或其他可靠的现有数据中进行挖掘或学习,可以识别以前未知的属性之间的相关性,并发现定性和定量的规则--也被称为代用模型--可用于预测材料属性,其速度和成本都比首先用于创建数据的基准模拟或实验方法所需的人力要低得多。
机遇总是伴随着挑战。什么样的材料科学问题最适合于数据驱动的方法,或者最能从数据驱动的方法中受益,这些问题不断出现。在决定使用机器学习方法解决他们感兴趣的问题之前,对这方面有一个满意的理解是至关重要的。也许数据驱动方法最危险的方面是在不知不觉中把机器学习模型应用于先前数据领域之外的情况。一个丰富的、在很大程度上未知的研究领域是认识到什么时候会出现这种情况,并且能够量化机器学习预测的不确定性,特别是当模型偏离领域的时候。处理这些危险情况的解决方案可以为自适应学习模型开辟道路,这些模型可以通过系统地注入新数据来逐步提高质量,这对于机器学习在硬科学领域的进一步发展至关重要。
无论研究的具体问题是什么,机器学习的一个前提条件是存在过去的数据。因此,要么已经有了与所研究的问题相对应的干净的、经过整理的、可靠的数据,要么就必须在前期努力创建这些数据。
所有试图解决上述问题的数据驱动策略都由两个不同的步骤组成,目的都是为了满足定量预测的需要。第一步是用数字表示数据集中的各种输入案例(或材料)。在这一步结束时,每个输入案例将被简化为一串数字。这是一个非常重要的步骤,需要大量的专业技术和材料类别及应用的知识,即"领域专业技术"。
在最近上海召开的世界人工智能大会上,鄂维南院士发表了题目是“AIforScience”演讲,“我们研究科学有两大基本目的,第一大目的就是寻求基本规律,比方说行星