关于人工智能:AI生物计算用计算机视觉技术理解细胞生命

5次阅读

共计 6818 个字符,预计需要花费 18 分钟才能阅读完成。

本次将由中国科学院自动化研究所模式识别国家重点实验室、百图人工智能迷信参谋杨戈博士为大家分享 在细胞外部,用计算机视觉技术了解细胞生命。

本文次要笼罩五局部内容:

  • 背景介绍
  • 案例钻研:细胞如何降解回收垃圾?
  • 其余利用示例
  • 应用生物图像钻研深度神经网络个性
  • 总结与瞻望

一、背景介绍

首先,问一个特地不靠谱的问题,大家多少岁了?基本上来讲 0~100 之间。为什么问这个不靠谱的问题呢?其实是想通知大家,基本上在座的每个人,能够说 40 亿岁了。为什么这么说呢?咱们人体、地球上的生命物体,是以细胞作为根本的构造性能单元的,咱们都是来源于一个决裂的细胞,这个细胞的起源也是上一代决裂的细胞,所以说咱们在座的每个人,肯定是和这个星球上 40 多亿年前的生命体,有一个连续不断的这样一个连贯,才到了咱们明天。

为什么我要强调这个事件,不是想给大家讲哲学,而是想给大家讲另外一个话题 – 仿真。在生命科学里,仿真除了要思考物理化学之外,还有一个十分重要的因素—天然进化。

咱们细胞内部结构性能的抉择,并不是齐全用生物、物理和化学的原理就能够解决的,是随机的。所谓的真核细胞,就是 DNA 放在这个细胞核外头的构造就是:有一个细胞核,及各种各样的细胞器。咱们人体是由多少个细胞形成的呢?370 万亿细胞。当初,比方在英国,他们用各种各样的高度自动化的技术进行全局性的形容。简略来讲,生命科学的一个根本的问题,就是要解决对这个细胞的生命过程具体的形容,了解分子机制,是从根底的生命科学角度来讲的。在这些根底上,再有根底药物迷信,比方方才其余老师讲到的,计算化学的这个根底上,怎么样实现这个药物的筛选验证。

在座的都很相熟“深度神经网”,是对于生物神经元的一个模仿。举例来说,在人类的坐骨神经里,从脊椎的底部到脚趾头的神经元,它的一个轴突长一米多。咱们用人工神经元去模仿生物神经元的计算能力。比如说,北京市的平均寿命 80 岁,那这样一个神经元必须连续不断地工作 80 年。他的生命是如何维持呢?其实是有十分多的生命过程在外面,这些过程是十分了不起的。

动物试验中,用手术办法关上果蝇的三期虫卵,用荧光的办法去标记它的神经系统。会看到它有大量的物质传输,像咱们方才讲这个坐骨神经,从脊柱的尾端到脚趾头,慢速营养物质输送,大略须要两天半的工夫。

这个过程十分了不起,它必须要间断不停地工作 80 多年或者是 100 年,一点都不能出错。所以,你能够用各种各样的技术看到单个的神经元里的机制,在咱们的大脑每个神经元,在每个时刻都在进行着。

比如说,下图所示的虫卵细胞图,但咱们人体比这更简单。

人体最早是从一个受精卵倒退的,它是有非常复杂的进化过程,有大量的调控。咱们为什么要关怀这些根底的生物学呢?并不是齐全出于好奇心。比如说,对于神经元的理解,它会间接导致对神经进化疾病药物的倒退。对于生命的发育过程的理解,间接会关系到生殖过程、儿童疾病、发育疾病、生殖疾病。这其实是一个根本的科学技术问题。

上图是诺贝尔奖的技术,即荧光技术,大略是 90 年代前期倒退起来的。简略来讲,就是一个细胞,就像一个细胞机器似的,把不同的局部染上不同的色彩,或者用不同的色彩去标记,标记出这个不同的元器件你会看到不同的色彩的局部。这样的话,你能够了解它生命的过程,然而荧光成像只是提供了一个可视化。

咱们晓得光是看一个图片是不够的,你要解决它的信息,要对它进行剖析,所以方才宋老师曾经讲到,对于图像的剖析是十分重要的,须要了解它外部简单的信息,这里头定量分析是十分重要的,所以咱们明天会讲到更多这方面的内容。

实际上,在咱们制药里,剖析的场景是十分海量的。个别的制药公司都是有一个化学合成领库,比如说默克和罗氏,有几千万个化学品库,外面都是各种各样的化合物。

如何治理呢?它是用机器人来治理。像图中每个单元里存着一个化学品。怎么做试验呢?在一个培养皿外头,模仿一个癌症,在几千万个化学合成品库里,找到哪个对这个癌细胞有作用,怎么找呢?把细胞放在多孔板里,再把药加进去,而后看这个药对这个细胞有没有作用,能不能把这个癌症的产生倒退把它停下来,它用的是高度自动化显微镜。

这也是当初百图用的是高度自动化的生产线设施、自动化的试验过程。比如说,你在一个 well 里,看到很多细胞,有的细胞在决裂,要害要看药物能不能让这个细胞有决裂进行的影响。如果想对癌症药物无效的话,它要让这个细胞的决裂停下来,就须要对图像进行主动的解决和了解。那么它的规模是多少呢?常常你要再做几百万个或者几千万个,所以就须要高度自动化的剖析技术,在这外面,计算机视觉技术会起到一个十分重要的作用。整个人工智能在制药畛域里,最近几年能够说是一个爆炸式的增长。

上图是斯坦福 2021 年,对于人工智能的停顿报告。大家看第 1 类,比如说,对于癌症药物的研发,2019 年在全世界范畴里私企的投资额大略是 30 亿美元到了 2020 年达到 130 亿美元,在一年期间就增长了 4 倍。很多年以来,人们都感觉计算化学是应该对药物畛域有奉献,但其实它的实用性还是离得比拟远的,但人工智能在这个畛域实际上曾经有很大的影响了。

比如说这方面做得比拟胜利的公司 Recursion,这个公司在思考怎么样可能把一个疾病的细胞通过加药的方法把它变成一个失常的细胞。那怎么去刻画一个失常或非正常的细胞,次要是看它的图像、状态,这个公司做得十分胜利,它有一个核心技术叫 Cell Painting,荧光技术。就是一个细胞,就是一个分子机器,它有它有各种各样的元器件,它用这个不同的染色剂,染不同的元器件,总共有 6 个通道,每个染色剂有不同的波长或者不同的色彩,而后把一个分子机器的不同部件用 6 种不同的色彩染进去,而后再去剖析它。对 Recursion 公司来讲,这样一种药物开发的模式十分的无效。像 MIT 和哈佛的 Broad Institute,在生物信息学或者计算生物学畛域里,是世界顶级的。他们当初成立一个联盟,由 Anne Carpenter 牵头和大略几十家药企一起做的做一个很大的图像库。拿不同的细胞,不同的癌症,如:肺癌、肝癌、胃癌等,用那种染色的办法,失去图像库。在这个根底上,它有大量的药物,哪个药物能把它拉成失常的。这个库是很大的,比方像 Recursion,它的库是什么级别的呢?它是几个 PB 级,几千个 TB 级的一个数据库,具备十分多的解决的性能。

当初 Recursion 的 AI 技术,不再是探索性的前沿技术,大略几周之前,Recursion 和罗氏签了一个钻研合同,次要是做两方面,一个是肿瘤,另一个是做神经进化疾病。

然而大家晓得,神经进化疾病是很难研发药物的,他们是用所谓的图形模型与图像模型去做药物研发。大家晓得罗氏公司是经典的药物研发企业,当初他们也认可这种模式,所以这种 AI 的模式曾经真正在扭转畛域,不是说像几年前处于概念性阶段

最初,咱们回到计算机视觉技术。视觉技术它能干什么?举例来说,一个深度神经网络,它能够对图像进行分类。(见下图)

这个图像 60% 的概率是羊的图像,30% 的概率是狗的图像。此外咱们还能够对指标进行检测,比方主动驾驶与人脸识别,主动商场的商品举荐,或者主动计费都具备这个利用。

指标辨认也能够做宰割,把狗羊宰割进去,把同类的羊不同的个体用色彩标出来。这些技术,实际上都是经典的计算机视觉技术,在生命科学里,在这个制药里,都会有十分好的利用。

我想强调的是,咱们要解决的图像是一类所显微图像,这类图像和天然图像十分不同,比如说在主动驾驶或者一些其余畛域的模型用到这个生物里是能够的。然而,通常状况下须要对这些模型进行肯定的定制,因为这个图像它的属性是不一样的。

二.案例钻研:细胞如何降解回收垃圾?

给大家深刻讲一个例子,细胞怎么回收垃圾的。垃圾回收是十分重要的,这个当然不是个很有魅力的工作,然而很重要,细胞来到它活不了的,那么这细胞它是怎么做的呢?

简略来讲,垃圾回收这部分,是一个溶酶体的细胞器来做的,这个细胞器是一个关闭体,它有一种膜大家能够设想成一个一个工作单元,就是一个一个模块。那在细胞外面,它的运作又牵扯了两个细胞器,一个叫内吞体,一个叫溶酶体。

大家就把它设想成垃圾转运车,溶酶体里有很多很强的酸,对垃圾进行降解,降解完后有些资料能够复用。从这个内吞体收集了当前,内吞体和溶酶体要进行一个交融,把这个收集的垃圾递送到溶酶体里,溶酶体外头有强酸,把它降解完了当前而后再离开,这样就实现了一个过程。如果你要用荧光标记的话,红色的标记是内吞体,也就是像垃圾车,绿色的是垃圾处理站,你看细胞里在一直的静止。这个静止是没有什么模式的,这个垃圾车,肯定要见到这个垃圾站,垃圾车要到垃圾站,而后两个交融后,资料递进来当前而后进行合成。

根本的生命科学的问题就是说这个红的怎么样见到这个绿色,这个怎么见面。咱们当初先不去操心红色,咱们先看这个绿色。这个法则是没法看的,所以必须要用定量的办法去剖析,它外在的法则是什么。

那么,咱们怎么剖析它?就用计算机视觉技术。首先,对它进行检测,每一个点都是一个所谓的溶酶体,咱们要把它进行定位,这里就要用计算机视觉技术特色检测的技术定位完当前,用静止跟踪的技术,跟踪下来你能够失去它的轨迹和静止的法则,这个也是咱们经典的技术。

我给大家讲个例子,空间统计分析。我要了解它的空间的模式,它的特色法则,它的外在的模式,就是这些溶酶体,这些垃圾处理站他们在空间静止,两头他们有什么法则。简略来讲,计算它的空间密度,在单位面积里它有多少个。计算空间密度,后果一算当前会发现什么呢?密度越红越亮的色彩它的密度越多,其余中央密度低一点。在这个细胞里,它们的密度并不是平均的,它是有在特定的区域,它不是固定的。这个垃圾转运车也是一样的,如果细胞它在某一个特定的地区,他还想减少他的垃圾处理能力,怎么办呢?就让这个部分的区域里垃圾处理车和垃圾转运的这部分,同时它的密度减少。

咱们当初来做一个物理试验,假如我让大家做一件很奇怪的事件,比方设想两组人,一组人穿的是红衣服,一组穿绿衣服,如果想让他们减少见面的机会,没有任何法则让他们随机地走,那么他们见面的机会是不太有法则的。

但如果你要想让他们减少见面的机会,怎么办呢?通知他们,往某个中央汇集,这样看到部分的空间密度就下来了,见面的机会是不是就多了。

无论是通过一系列简单的试验,还是全面的试验,咱们证实了一件事,在空间来讲,细胞外部对于这两个相互的作为细胞器,它的很重要的调节是部分的短暂的进步它的空间密度,而后让它减少交互作用。如果这个中央不再需要这个事件了,他就会消散掉,就会跑到下一个区域,这是一个很简略的一个管制法则。

它的静止实际上是在一个非常复杂的网络上静止的,这个网络叫内置网,就是用绿色彩网络标记的,红的就是溶酶体。

咱们回到方才假如想象性的试验,咱们的观众,一个穿上红衣服,一个穿上绿衣服,再让你们随机走,我在地上划上线,要求你们必须依照我划的线随机走,能够设想,划上线当前它比齐全无规律随机时见面的机会高很多。我能够通过管制网络,让你们在某一个中央见面。

咱们要做深度学习网的话,就要做一个图像剖析,图像宰割完当前,如果宰割网络做得好,就能够失去很好的宰割后果。

咱们制药畛域要回归到特地药物的设计,比方像方才溶酶体,有一类叫做溶酶体疾病这种物质,这种物质降解和从新循环的这种疾病,大略有 50 多类,很多的是在小孩儿发育类的疾病,所以,这不仅仅是作为一个趣味或者迷信性质,不只是一个好奇心,最初都会落到药物筛选的利用场景外头去。

比方咱们讲深度学习剖析的内质网,对它进行分类当前,就能够提取它的骨架,把它变成一个数学上的一个图的概念,而后用各种各样的数学工具去了解它们。它的连贯形式和外在的模式是什么,这外面有很多的计算机视觉,或者数学图图论的工具。

我方才讲了一个很具体的例子,大家能够看到,咱们怎么样用这种视觉技术进行宰割与跟踪等,在这个景象的根底上,咱们能够进一步做各种各样的药物筛选。

那怎么样缩小标注数据,比如说用生成反抗网络来合成数据。我给你一个像这个手包的这样一个 sketch,它能够还原一个图像。如何用呢?比如说一个白天的图像,一个早晨的图像,如果我想白天变早晨或者早晨变白天,实际上要做的事件是对这个区域白天拍一张图,早晨拍一张图,必须要对应同一个区域。

你也能够用循环卷积网,比方你一类的图像,用数字相机拍进去图像;第二类图像,比方用画家他们的印象,把它变成莫奈、梵高、塞尚或者其余的画风。

当初整个深度反抗网,比方合成人脸做的十分真切了,实际上同样的技术能够合成。比如说在细胞内的线粒体,最右边这一列的是一个实在的,如果它有一个模板的话,能够把它的几何体系提取进去,而后你用生成反抗网填入这个型号,实际上这个最左边的这个倒数第 2 列和倒数第 1 列都是计算机合成的。用这种合成的办法,咱们能够证实,不像在状态上或外观上比拟像,而且你如果拿它训练,手动宰割实在的图像,训练神经网络当前失去的宰割。用合成的数据训练当前能够用实在的手标数据训练,当前失去的后果基本上是统一的。

这些试验合成的数据,整个技术管制得比拟好,咱们能够用深层反抗网合成的数据局部取代这种首标数据,深刻学习里,咱们能够很容易地做各种各样的图像预处理。

在显微图像里也能够做这个事件,假如用一个低端的显微镜,你能够失去这样一个图像,通过计算的办法对它进行一个清晰化解决,失去一个高清的走向。

这里须要强调的是,像这样的一些技术不再是写论文的阶段,也不再是做 PPT 的阶段,它曾经走到商用化了,像德国的莱卡公司曾经实用化了。所以坦率地讲,咱们国家这方面落后得很远,这个也是很遗憾的一件事件,我也心愿,咱们可能有机会扭转。

三、其余利用示例

我晓得有同学感兴趣医学影像的,咱们这边也做了一些医学影像的钻研。咱们当初做的是辅助生殖,用深度学习技术来看人类的精子。这个精子,它有一个精子头,它的尾部是一个自在静止的,然而它这个头是在一直翻转的,咱们通过深度学习的办法做宏观检测,能够很容易把这个头定义进去,定义完了一个头,而后再做宰割,做完宰割当前你能够看到它,它的状态是什么样,这个红点叫做空泡,它外头有一个空的区域,这个区域它跟 DNA 的伤害有关系,所以做辅助生殖临床的医生如果看到这个空泡,尤其是空泡靠前端的话,这个精子就不要用了,因为如果下一步做人工受精的话,它就会出问题。

做辅助生殖要先把病人的精子放在培养皿里,而后让人工智能主动筛选,依据精子的状态、静止生机等,从两头筛选最好的,而后抓取他,咱们能够用这个真空的方法,也能够用红外十分柔和的激光,把它抓起来当前,放在下一步,而后这个精子通过精选当前,你再做注射,做下一步的人工授精,这个都是咱们当初技术能够做失去的。

四、应用生物图像钻研深度神经网络个性

从生物制药这方面来讲,咱们不只是一个人工智能技术的消费者,实际上对人工智能技术是能够有所奉献的,有很多前沿性的问题,像在训练数据两头有很多标签,比方眼底的医学图像,如果要是做标注,很多状况下写医生和作者标注的时候,可能有些中央的信号会漏掉,这个是十分常见的一种状况。

咱们当初发现在生物图像里,常常很多区域,很含糊的时候,如果是手标数据,就不晓得如何标了,这时候有些你会疏忽掉,在标注数据有噪声的状况下,会呈现什么状况呢?

如果拿手机去拍咱们这个环境,失去的图像很少,有区域它是纯噪声的,所以生物图像非常简单,它能够让咱们用很简略的数据了解到一些深度学习网一些十分实质的个性,你能够随机抽 70% 的像素,或者你最初随机抽 10% 的像素。

给一个深度神经网做宰割的话,它的成果是一样的。实际上,深度学习网它并不是在看像素,而是看外部的构造。或者是另外一种形式,这是我原来的标注数据,我这个标记数据你看前头亮的是 1,后的背景看的是 0,对吧?我如果对它进行随机的调配,比如说我随机翻转我的最大限度,这个 49% 的随机翻转失去这样的图像。

而后这样一个图像,你再去训练神经网络的话,失去训练后果依然是一样的,阐明什么呢?阐明咱们这个深度神经网学习的是噪声标签的构造,外部咱们管它叫做原构造。

咱们在药物畛域,是能够对 AI 有很多的奉献的,这也是咱们能够做的事件。

五、总结与瞻望

首先,细胞生命过程具备简单的时空行为,计算机视觉技术在了解细胞生命中施展了关键作用。

其次,生物图像有其本身的特点,须要依据这些特点倒退相应的深度学习技术。

再次,因为其绝对简略的构造,生物图像能够在了解深度神经网络的根本属性方面施展重要作用。

最初,深度学习技术在生物图像计算机视觉解决畛域有较好利用前景,但真正落地须要与利用深度交融。

整个生命过程是非常复杂的时空行为,在了解这个时空行为里,计算机视觉起了十分要害的作用,它能够实现图像的主动解决,另外一个生物图像,他是有本身的特点的,这时候,要依据这些特点,咱们倒退特定的计算机视觉和深度学习技术。

正文完
 0