乐趣区

关于人工智能:AI-助力材料图像表征|从传统机器学习到大规模预训练模型

写在之前

随着科学技术的飞速发展,光学显微镜、电子显微镜曾经成为材料科学畛域中要害表征伎俩,助你摸索这个神奇的微观世界。

然而,典型资料图像表征过程:从资料制备、到构造表征、以及前期图像剖析与标注,均须要繁琐的人工实现(如下图),不仅效率低误差高,而且会遗漏掉泛滥渺小拓扑构造的差别,无奈全面了解资料的构造个性,极大升高新资料新构造的发现和利用。

              Source: Xiaoxu Zhao et. al., Nature 581, 171–177, 2020

为了解决这些问题,越来越多的研究者开始尝试 将人工智能(AI)技术利用于资料图像表征。

在这篇文章中,咱们将联合 Notebook 实例,从(粗略划分的)AI 三个倒退阶段(传统机器学习、深度学习、大规模预训练模型)的技术特点登程,探讨如何利用这些技术到资料图像表征中。Notebook 将深入浅出地为你解析相干技术从基本原理到理论利用的过程。即便你是试验背景的从业人员,也能轻松通过浏览 Notebook 学习到如何使用 AI 技术助力资料图像表征,让你的钻研更上一层楼!

对于 AI 背景的同学来说,心愿这个系列的 Notebook 能帮忙你更深刻地了解 AI 在资料图像表征畛域的利用。实际上,AI 与图像表征的联合是 AI for Science 的一个十分重要且具备广大前景的倒退方向。从 AI 的倒退视角来看,无论是资料电镜图像、CT 图像还是解决蛋白质构造的冷冻电镜图像等等,目前仍处于绝对高级的阶段。说到这里,本文作者好像忽然明确,怪不得何恺明大神也要投身于 AI for science 了 ~(详见这里)。


1. 传统机器学习阶段

传统机器学习(Traditional Machine Learning, TML)是 AI 技术的初级阶段,次要基于手工设计的特色(feature engineering)和简略的模型。其核心思想是从大量数据中学习到某种模式或法则,而后将这些模式利用于新的数据以进行预测或分类。

在资料图像表征中,传统机器学习办法次要以如下形式被利用:

1. 数据预处理:对图像进行去噪、对比度加强等解决,以便于后续特征提取和剖析。
2. 特征提取:手工设计一些特色(如纹理、色彩、形态、尺度等),用于形容资料的宏观构造和性能。
3. 模型训练与预测:利用提取到的特色,训练一些简略的模型(如决策树、反对向量机、k-means 聚类等),实现对新样本的预测或分类。

传统机器学习办法的长处是绝对直观,计算复杂度绝对较低,但毛病是特征提取过程依赖于畛域常识和人工教训,可能无奈充沛开掘数据中的潜在信息。

在这里,咱们将从一篇文章内容登程 [1], 通过 Notebook 介绍用 k-means 算法做资料同一地位多种信号(这里具体是明场和双折射图像的逐像素信息)的无监督聚类,并依据聚类做标注(这里具体是失去三个独特的数据簇刚好能够认为代表高排汇薄片、局部剥离的纳米片和剥离良好的二维片)。

在线 Notebook 链接:https://nb.bohrium.dp.tech/detail/1314

咱们已为你事后配置好了所需的环境配置,你无需放心环境配置和依赖问题,仅须要专一于学习自身。依附 收费的 2 核 4G 计算资源,你能够在平台上间接运行和批改代码。


2. 深度学习阶段

深度学习(Deep Learning, DL)是 AI 技术的进阶阶段,次要基于多层神经网络和主动特色学习。与传统机器学习相比,深度学习办法可能在大规模数据集上 主动学习 到高层次和形象的特色示意,从而实现 更为简单和弱小 的性能。

电镜资料表征 中,深度学习办法次要以如下形式被利用:

1. 语义宰割:利用卷积神经网络(CNN)对图像进行像素级别的分类,实现对资料宏观构造的精密刻画。

  1. 指标检测与辨认:利用深度学习模型自动检测和辨认电镜图像中的特定构造(如晶粒、相界、缺点等)。
  2. 资料性能预测:利用深度学习模型对图像进行特征提取和示意学习,而后联合其余物理、化学数据进行性能预测。

深度学习办法的长处是可能主动学习到无效的特色示意,具备较高的预测和分类准确率,但毛病是计算复杂度较高,须要大量的训练数据和计算资源。

在这里,咱们将同样从一篇文章内容登程[2],通过 Notebook 介绍的是卷积神经网络的基本原理以及相应技术如何解决扫描电子显微镜(SEM),透射电子显微镜(TEM)以及扫描透射电子显微镜(STEM)图像中噪声、畸变等造成的失真问题。

在线 Notebook 链接:https://nb.bohrium.dp.tech/detail/1315


3. 大规模预训练模型阶段

大规模预训练模型是近年来 AI 畛域的钻研热点,通过在大量无标签数据上进行预训练,模型能够学习到丰盛的畛域常识和语义信息。在预训练模型的根底上,咱们能够应用大量有标签数据进行微调,以实现在特定工作上的高效学习。这种办法在自然语言解决、计算机视觉等畛域曾经获得了显著的胜利。

只管大规模预训练模型在资料图像表征畛域的利用还处于晚期阶段,但咱们能够借鉴现有图像大模型的办法,尝试应用 zero-shot 或 few-shot learning 技术解决资料图像表征。例如,咱们能够通过预训练一个图像分类模型,而后在大量标注的试验图像上进行微调,实现对资料表征的自动识别和分类。从久远来看,大规模预训练模型将为资料表征畛域带来微小的后劲和倒退空间。

在这里,咱们给出一个图像宰割预训练模型(SAM,Segment Anyting Model)的 Notebook 案例,感兴趣的读者无妨把试验图片放进去试试看成果怎么样

在线 Notebook 链接:https://nb.bohrium.dp.tech/detail/1021


总结

总之,AI 技术在资料图像表征畛域的利用曾经获得了显著的停顿,从传统机器学习到大规模预训练模型,这些技术不仅进步了实验室工作的效率和准确性,还为材料科学钻研带来了新的可能性。随着 AI 技术的一直倒退,咱们有理由置信,资料图像表征将迎来一个更加智能化、自动化的将来。

通过本文的介绍和 Notebook 实例的演示,置信专业人士和研究者们能够更加深刻地理解 AI 技术在资料图像表征中的理论利用,从而更好地发展相干的钻研工作。

欢送关注咱们的微信公众号 NBHub,获取更多乏味的 Notebook 实际~感兴趣的童鞋能够查看原文:https://mp.weixin.qq.com/s?__biz=Mzg5NTk3Nzk3MQ==&mid=2247483…


参考文献:
[1] Abedin M J, Barua T, Shaibani M, et al. A high throughput and unbiased machine learning approach for classification of graphene dispersions[J]. Advanced Science, 2020, 7(20): 2001600. https://doi.org/10.1002/advs.202001600.

[2] Lobato, I., T. Friedrich, and S. Van Aert. “Deep convolutional neural networks to restore single-shot electron microscopy images.” arXiv preprint arXiv:2303.17025 (2023).

退出移动版