本篇文章2556字,读完约6分钟
【编者按】深度学习近年来取得了重大突破,这种方法已经应用到越来越多的领域,解决过去这些领域难以解决的问题。可以预见,“深度学习+学科应用”将在未来的科学研究中得到广泛应用,人工智能和深度学习方法将成为我们生活和科学研究中的水和电。这篇文章是深度学习在生物科学领域应用的一个例子。原文在20n出版,全文在此汇编以供读者参考。
生物学现在面临着调试的困难。生化系统(细胞)是非常复杂的,因此对其进行深入研究是非常有意义的。观察你所知道的化合物是非常困难的,更难看到未知的化学变化。调试问题的挑战,即已知未知问题和未知未知未知问题,正艰难地向前推进。如果我们能收集到大量多维且密集的生物数据,我们想知道深度学习是否有助于解决生物调试的问题。
在过去的两年里,我们已经设计了180多种酵母和病毒细胞来工业化生产相关化合物。例如,其中一种酵母是第一个产生对乙酰氨基酚的细胞,我们最近开始观察人类疾病细胞。无论是修饰的微生物细胞还是人类疾病细胞,识别它们与正常细胞的区别都具有重要意义。在这里,我们通常称正常细胞(即原始植物和健康细胞)为对照细胞,另一种细胞为可变细胞(通过基因治疗或人类疾病修饰)。
现代技术:科学家从现有的数百万种化合物中选择一种或几种,并检查每种化合物的变异细胞是否与对照细胞不同。他们使用分析仪器(如lc-ms)来比较数据来源并找出差异。标准工作流程中的错误很少,因为仪器校准中会有错误。lc-ms仪器的有限精度和不同复合信号之间的冲突使这项工作变得复杂。
液相色谱-质谱分析结合深度学习:我们输入原始液相色谱-质谱数据(未经个人推测分子校正),通过深度学习模型验证可变样品中哪些分子不同。
例如,我们最近构建的可以产生对乙酰氨基酚的酵母模型,敲除了几个基因并预测新的基因插入,这是一种新的途径构建。我们用葡萄糖培养基培养突变株和原始酵母菌株作为对照组。将这些菌株放入一个柱中,200多个分子将通过该柱。下图显示了通过色谱柱的第五个分子的峰。(下图左侧为变异组,右侧为对照组)
同时,该系统确定该化学物质达到其峰值时的分子式为c8h9no2。分子式显然是对乙酰氨基酚。它还确定了以下结构式(对乙酰氨基酚在最右边),我们设计的路径分析确定对乙酰氨基酚是这些替代结构中最有可能的。
这种分析的本质是公平的和非针对性的,这给了我们解决调试设计的单元问题的信心。它可以突出不同细胞群和对照组之间的主要差异,并准确预测相应的化合物。其他主要的识别峰可以观察到副反应的变化,这种变化不能通过目标分析来检测,目标分析只分析特定的产品。我们去年一直在做这种有针对性的分析,但现在我们可以识别出很多我们一直在丢失的数据:所有这些额外的峰值都是在细胞中加入几个基因后的副反应造成的,在修改细胞的化学结构时应该考虑到这些差异。
这种可以分析细胞中每一个变化的非针对性分析,是解决生物调试问题的有力工具,而深度学习也是解决这一问题的关键。
|通过深度学习的非目标代谢组学
生物化学调试路径包括以下步骤:
准备样品(变异组和对照组)
液相色谱-质谱
每次lc-ms跟踪,它需要收集20亿个数据点并运行2000多次,因此我们需要通过大量工程细胞线存储4万亿个数据点。
深度学习
找出变体组和对照组之间的差异。
Sat计算
在相应的变量中搜索化学式以定位不同的化学式。
酶生物化学网络模型
预测和安排与细胞工程相关的生物化学变化相关的分子和生物途径。
让我们关注深度学习模块。如果我们能从lc-ms获得几个重要参数(如碎片离子、保留时间和峰强度),我们可以绘制一个类似下图(左)的3d图或热点图(右)。每幅图像都可以生成高分辨率的pdf图像。缩放热图以找到高强度峰值(红色)有助于观察数据密度。
所有数据都可以在整体视图中观察到,所以我们只看大约有50个数据点的小窗口,这是所有数据的0.000025%。看看下面的局部3d窗口,试着判断它是否是一个“峰值”。
你可以正确地叫出每个山峰的名字。当我们第一次分析这些来源时,我们通过人工视觉评估将这些峰分为三类:“完全峰”、“不完全峰”和“可能峰”。
虽然人类可以很容易地用肉眼分辨液相色谱-质谱的峰,但很难开发出一种稳健的计算机方法来对峰进行分类。我们使用深度学习将空减少到几十幅图像,这可以总结成千上万的lc-ms跟踪结果。通过深度学习,我们可以有效地降低lc-ms数据的变量和复杂度,这样我们就可以通过追踪总结出共同的特征。
我们第一次重新使用了简单的网络,并取得了一些成功,但是如果我们使用更深层次的多层网络,我们可能会更好地了解lc-ms跟踪的细微差别。正因为如此,我们已经成功地在一个轨迹中识别了许多峰,同时,我们没有包括许多人类通常忽略的峰状特征。在下图中,左侧是通过网络学习获得的一组峰值(主峰很容易看到),右侧是识别出的噪声峰值的特征。
在证明我们能够识别单个峰之后,我们尝试将该方法推广到大规模的不同分析。这种方法允许科学家为实验提供一个对照组,并且可以在任何情况下检测分子。
从样本到遗传变异
深度学习可以准确识别差异,通过建立深度学习,我们可以将分析扩展到与细胞系相比的遗传变化。整个专栏汇集了深度学习分析的组成部分和其他组成部分。Sat是一个特殊的生化计算软件,可以分析化学公式。能够理解酶机制、底物特征和细胞联系的网络分析师能够推断分子结构。生物信息学模块完成了解释追踪结果中基因变化的最后一步。
前景:深入学习解决生物调试问题
合成生物学:通过准确了解人工修饰或其他修饰的各种影响,生物产品的微生物工程进展迅速。这些细胞是在受控环境中培养的,它们的大部分新陈代谢可以完全调节,因此简单的深度学习模块有望促进生物学的发展。
人类诊断:人类细胞在患病细胞和正常细胞之间有许多细微的变化。我们正在尝试一种更复杂的深度学习网络来解决疾病细胞的非靶向诊断问题。这是值得期待的。
深度学习可以预测化合物的特性:实践深度网络所需的数据量可以从液相色谱-质谱中获得。其他生化数据细节极其丰富,但数量可能不多。化学结构预测是必不可少的,这些情况需要在训练中创造。我们开展了研究更复杂模型和培训模式的项目。如果您有兴趣,请发邮件到info@20n联系我们。
via20n