分子动力学（Molecular dynamics）最新研究进展（_振动_化学_通用_自动驾驶_分子动力学_数字孪生_人工智能_FAST

分子动力学（Molecular dynamics）最新研究进展（

1天前浏览66

点击上方蓝字了解更多计算与STEM领域研究前沿

文一：

基于语言和图形模型的端到端蛋白质正态模式频率预测及其在超声处理中的应用

摘要：

预测蛋白质的力学和动力学性质是一个重要的前沿，特别是考虑到蛋白质结构的可用性更高。在这里，我们报告了一系列模型，这些模型提供了蛋白质纳米动力学特性的端到端预测，重点是直接从氨基酸序列进行高通量正态模式预测。使用自然语言处理家族中的神经网络模型和基于图的方法，我们提供了基于原子的关键蛋白质机械特征的机械预测。这些模型包括端到端长短期记忆（LSTM）模型、端到端变换器模型、基于图的变换器模型和等变图神经网络。所有四个模型都显示出卓越的性能，基于图的变压器架构提供了最佳结果，但代价是需要图结构作为输入。相反，LSTM和变换器模型提供了端到端的序列到属性预测能力，为蛋白质工程、分析和设计提供了有效的途径。我们将我们的结果与基于主邻域聚合图神经网络的已发布数据进行了比较，结果表明，变压器模型提供了更好的性能，同时也能够同时预测前64个正常模式频率的大集合。端到端转换器模型的使用可以通过使用迁移学习来促进其他下游应用，并且它直接从氨基酸序列中提供对动态特性的全面预测，而不需要任何结构知识。我们展示了在科学发声中的潜在应用，其中正常模式频率被转置以产生可听信号，用于详细分析蛋白质序列的细微变化。

图：这项工作的总体流程图侧重于蛋白质特性的端到端预测，特别侧重于NMA预测蛋白质的纳米动力学特性。插图中显示的蛋白质是PDB ID 7zgy。使用了两种主要策略：第一，将序列直接链接到属性的端到端预测模型。其次，结构到属性模型使用蛋白质的结构信息，然后预测属性。

图：用于变压器模型的嵌入函数摘要。（A）端到端变压器模型的嵌入，这里仅由序列数据和位置编码组成。我们注意到LSTM模型只采用AA序列，因为不需要位置编码。（B） GraphPercever模型，其中从距离矩阵中提取的图形数据与氨基酸序列和位置信息以及在残基水平提供的位置编码一起使用。

图：使用端到端LSTM模型对验证集中的四种蛋白质进行样本预测。一般来说，达成了良好的一致性。

文二：

平衡勘探开发利用权衡的 FAST 构象搜索

摘要：

分子动力学模拟是理解构象变化的有力手段。然而，如果不使用专门的超级计算机，仍然很难模拟生物相关的时间尺度。在这里，我们介绍了一种面向目标的采样方法，称为特定特征的波动放大（FAST），用于扩展商品硬件的功能。该算法通过平衡围绕有前景的解决方案（开发）和尝试新解决方案（探索）的重点搜索之间的权衡，快速搜索具有所需特性的结构的构象空间。FAST的灵感来自这样一个假设，即许多物理性质在构象空间中具有整体梯度，类似于已知的引导蛋白质进入折叠状态的能量梯度。例如，我们预计从具有小溶剂可及表面积的构象过渡到具有大表面积的构型将需要经历一系列表面积稳步增加的构象。我们通过对现有马尔可夫状态模型（MSMs）的回顾性分析证明了这种梯度是常见的。然后，我们设计FAST算法，通过以下方式利用这些梯度来找到具有所需特性的结构：（1）识别和放大沿梯度的结构波动，尽可能优化选定的物理特性；（2）克服中断这些整体梯度的障碍；（3）在面临无法克服的障碍时重新路由以发现替代路径。为了测试FAST，我们将其与其他方法在三种常见问题上的性能进行了比较：（1）识别意外的结合口袋，（2）发现特定结构之间的首选路径，以及（3）折叠蛋白质。我们的保守估计是，FAST比传统模拟和自适应采样算法至少好一个数量级。此外，FAST产生了适当的热力学和动力学，允许与动力学实验直接联系，这是许多其他先进采样算法不可能实现的，因为它们只提供热力学信息。因此，我们希望FAST在广泛的应用中具有很大的实用性。

图：能量景观的等高线图，从最高能量到最低能量以蓝色、白色、黄色和红色着色。黑线是从起始状态到目标的最佳路径。红线是通过有向方法找到的路径。黄线涵盖了无向方法可能丢失的区域。

图：在我们过去的工作中观察到，从TEM-1β-内酰胺酶的晶体结构到具有最大溶剂可及表面积（SASAs）的五种状态的过渡途径。β-内酰酶在骨架后用红带描绘，表面用蓝色网格描绘，黄色球体填充蛋白质表面观察到的口袋。状态大小与其自由能成反比，因此较大的状态具有较高的平衡概率。线厚度与开始和结束状态之间观察到的相对通量成正比。

图：FAST-SASA（品红色）与传统分子动力学（绿色）、基于计数的采样（黑色）和基于SASA的采样（橙色）的性能比较。（A）发现表面积最大的10个州的溶剂可接触表面积的平均值，作为总模拟时间的函数。（B）根据总模拟时间发现的状态数。

文三：

使用AlphaFold进行高精度蛋白质结构预测

摘要：

蛋白质对生命至关重要，了解它们的结构可以促进对其功能的机械理解。通过大量的实验，已经确定了大约100000种独特蛋白质的结构，但这只是数十亿已知蛋白质序列中的一小部分结构覆盖率受到确定单个蛋白质结构所需数月至数年艰苦工作的瓶颈。需要精确的计算方法来解决这一差距，并实现大规模的结构生物信息学。50多年来，仅根据氨基酸序列预测蛋白质将采用的三维结构（“蛋白质折叠问题”的结构预测部分）一直是一个重要的开放研究问题尽管最近取得了进展，但现有的方法远远达不到原子精度，特别是在没有同源结构的情况下。在这里，我们提供了第一种计算方法，即使在不知道类似结构的情况下，也能以原子精度定期预测蛋白质结构。我们在具有挑战性的第14次蛋白质关键评估中验证了我们的神经网络模型AlphaFold的完全重新设计版本结构预测CASP14，在大多数情况下，其准确性与实验结构相当，并且大大优于其他方法。支撑最新版本AlphaFold的是一种新的机器学习方法，该方法将有关蛋白质结构的物理和生物学知识，利用多序列比对，整合到深度学习算法的设计中。

图：AlphaFold生成高度精确的结构。

图：AlphaFold在最近PDB结构上的准确性。

图：架构细节。

图：MSA深度和跨链接触的影响。

文四：

自适应CVgen：利用强化学习进行蛋白质折叠和化学反应的高级采样

摘要：

传统上，增强采样技术遇到了两个重大挑战：确定合适的反应坐标，解决勘探-开采困境，特别是难以逃脱局部能量最小值。在这里，我们介绍Adaptive CVgen，这是一个通用的自适应采样框架，旨在解决这些问题。我们的方法利用一组集体变量（CV）来全面覆盖系统的潜在进化相空间，生成不同的反应坐标来应对第一个挑战。此外，我们整合了强化学习策略，动态调整生成的反应坐标，从而有效地平衡了探索开发的困境。我们应用这一框架对六种从完全无序状态转变为折叠状态的蛋白质的构象空间进行采样，并对C60的化学合成过程进行建模，实现了与标准C60结构完美匹配的构象。结果表明，自适应CVgen在探索新构象和逃逸局部最小值方面是有效的，实现了采样效率和探索精度。该框架具有扩展到各种相关挑战的潜力，包括蛋白质折叠动力学、药物靶向和复杂的化学反应，从而为这些领域的应用开辟了有前景的途径。

图：自适应CVgen采样过程的流程图。

图：RL在适应性CVgen中的作用。

图：蛋白质的天然构象（红色）与Adaptive CVgen实现的最接近天然构象（蓝色）相比，通过其通用名称和PDB ID进行鉴定。

文五：

利用图神经网络快速预测蛋白质固有频率

摘要：

蛋白质的自然振动频率有助于将功能变化与序列或几何变化联系起来，这些变化导致蛋白质结构的变化可以忽略不计，例如与疾病致死率或药物有效性相关的点突变。正模分析是一种众所周知的精确获得蛋白质固有频率的方法。然而，当高分辨率蛋白质结构不可用或获得耗时时，这是不可行的。在这里，我们提供了一种机器学习模型，可以直接从初级氨基酸序列和低分辨率结构特征（如接触图或距离图）预测蛋白质频率。我们使用了一种称为主邻域聚集的图神经网络，该网络使用蛋白质数据库中34000多种蛋白质的结构图和正态模式频率进行训练。结合现有的接触/距离图预测工具，这种方法能够对给定一级序列的蛋白质的频谱进行端到端预测。

图：用于蛋白质频率预测的图神经网络（GNN）的训练和测试过程示意图。

图：GNN架构。节点嵌入、边缘特征和蛋白质图的连接性被输入到名为PNAConv的图卷积算子中，在该算子中，来自图中每个节点邻居的信息被聚合以更新节点的隐藏特征。47从头开始训练GNN以预测第一个固有频率。采用迁移学习技术来加速网络的训练，以预测其他正常模式频率。

图：PDB结构（左），ProSPr预测的距离图（中），以及PDB ID为（a）1QLC，（b）2DFE，（c）4AZQ的测试蛋白的第1-8和第61-64个频率（右）。

来源：STEM与计算机方法

颗粒力学（particle mechanics）的前沿研究分享

文一：欧拉和拉格朗日方法在运动列车产生的微粒浓度数值研究中的比较摘要：最近的研究表明，由于颗粒物的连续产生和积累，地铁系统内的空气质量较差。其中许多颗粒是由刹车片磨损产生的含铁空气磨损颗粒。本研究调查了列车制动过程中列车制动片排放的磨损颗粒的浓度分布。由于列车在地铁系统的大几何形状内运动引起的非定常三维湍流，这种数值模拟需要很高的计算成本，特别是在使用跟踪每个粒子的拉格朗日方法时。因此，采用将颗粒相视为连续体的成本较低的欧拉方法更为可取。然而，应研究使用欧拉方法代替拉格朗日方法的可行性，特别是对于列车诱导湍流流场内运动物体发射的大颗粒。因此，在本工作中，对通过这两种方法获得的颗粒浓度预测进行了比较。欧拉方法的预测更加连续和均匀，而基于单个粒子累积的拉格朗日方法的预测则更加分散。结果表明，欧拉方法可以在保持计算效率的同时提供合理的预测。图：a隧道和车站计算域。b列车（初始位置）和隧道模型示意图。c显示计算域横截面几何形状和隧道沿线网格界面的示意图。图：a列车模型的速度。b列车乘客车厢示意图，重点是刹车片位置。图：位于左右平台人类呼吸区的表面示意图。比较左表面b右表面归一化平均颗粒浓度时变的欧拉和拉格朗日方法的结果。图：比较欧拉和拉格朗日方法对车站隧道连接表面归一化平均颗粒浓度时变的结果：a隧道入口1和b隧道入口2。图：比较通过欧拉和拉格朗日方法获得的人类呼吸表面归一化粒子浓度轮廓的结果。图：比较通过欧拉和拉格朗日方法获得的距离站入口74米处人类呼吸表面b a表面t=102秒归一化粒子浓度轮廓的结果。文二：颗粒性质异质性对砂土材料力学性质的影响摘要：颗粒组成的随机排列或颗粒固有性质的异质性是导致砂土力学参数变化的原因。将离散元法与随机场理论相结合，改进了一种随机离散耦合建模方法，其中使用滚动阻力接触模型来考虑砂土颗粒的滚动摩擦特性。考虑到两个随机场因素，即变异系数和波动范围，为典型工作情况开发了四个随机离散元模型（RDEM）。采用蒙特卡洛方法模拟了三轴RDEM，分析了应力-应变关系、强度和变形参数。研究了变异系数（Cov）和波动范围（δ）对力学特性变异性的影响。结果表明，随着Cov的增加，随机非均质样品的平均剪切模量G、峰值摩擦角φp和临界摩擦角φc下降，而平均泊松比μ增加。随着δ的增加，随机非均质样品的变形和强度参数的平均值最终接近均质样品的平均值。图：滚动阻力模型图。图：随机离散耦合过程原理。图：三轴试验模型。图：不同Cov和δ粒子的典型随机场模型。图：非均质土样直剪试验结果比较。图：代表性均匀和非均匀试样的平均法向接触力。文三：颗粒形状对颗粒材料剪切行为影响的DEM研究摘要：本研究使用二维离散元法模拟研究了颗粒凸度、球形度和纵横比（AR）对剪切颗粒材料行为的影响。制备了具有不同颗粒形状的各向同性、致密和松散的组件，并通过双轴压缩进行排水剪切，直至达到临界状态。介绍了强度和剪胀性等宏观特征。然后通过考虑配位数、织物各向异性、颗粒力矩、接触处的摩擦运动和颗粒旋转来研究宏观行为背后的因素。对于这里考虑的形状范围，数据表明，剪切强度随着颗粒凸度和球度的增加而降低，而剪切强度随着AR的增加而增加。剪切强度和凸度之间的相关性较弱，但AR和强度之间的相关性更强。随着AR的增加，大应变下的体积应变趋于增加。临界状态强度与临界状态配位数和临界状态机械孔隙比之间的相关性比临界状态孔隙比与临界状态强度之间的相关性更强。接触织物各向异性、颗粒传递的力矩大小和接触处产生的摩擦力是影响强度的重要因素。临界状态强度随着平均颗粒力矩和平均移动摩擦的增加而增加。颗粒旋转分析为颗粒材料对剪切的响应提供了见解。图：DEM研究中使用的粒子类型及其球度S值。图：双轴剪切下的样品图示。图：颗粒形状对堆积的影响：a凸度b球度c纵横比（“2D-DEM”表示当前的研究。）图：三维团簇致密样品的粒子取向彩色图。文四：通过光滑粒子流体力学（SPH）模拟和实验研究研究横向速度对Al-16Si合金摩擦堆焊的影响摘要：移动速度对Al-16Si合金摩擦片显微组织、力学性能及耐磨性能的影响使用平滑粒子流体动力学 (SPH) 模拟和实验评估 AA1050 合金表面结果显示，随着移动速度的增加，涂层的高度和宽度分别减少了 54% 和 20% 速度从 75 毫米/分钟增加到 115 毫米/分钟。此外，观察到界面处的未粘合区域相应增加模拟结果显示了以横向速度涂覆的样品在涂层/基材界面处的最大剪切应力 75、95 和 115 mm/min 分别为 83、95 和 112 MPa。随着移动速度从 75 增加到 115 mm/min，摩擦堆焊所需的预测扭矩和垂直力分别增加了92%和22%。当移动速度从 75 至 115 毫米/分钟。移动速度从 75 至 95 毫米/分钟增加导致晶粒尺寸减小 11% 和 13%，与 AA1050 基材相比，硬度、强度和耐磨性分别提高 12% 和 8%。图：显微组织检查、SPT试验、磨损试验和试样提取位置推压的示意图。突出显示的区域显示了检查的位置。图：不同样品的横截面；a样品C-75，b样品C-95，C样品C-115。图：不同样品涂层过程中的预测扭矩和垂直力。图：A390消耗棒和样品C-75不同区域的光学显微镜图像。图：不同放大倍数下A390自耗棒的SEM图像。图：磨损表面的SEM图像；a AA1050基板，b A390耗材棒，c样品c-75，d样品c-95，e样品c-115。文五：基于SPH的流体和结构力学修正输运速度公式摘要：为了提高光滑粒子流体力学(SPH)方法的计算精度，采用了粒子移动技术(PST)。移动确保了粒子在空间中的均匀分布。这可以通过使用输运速度移动粒子来实现。在本文中，我们提出了一类扩展的输运速度公式(TVF)方法。我们以一致的方式导出了方程，并且证明了还有一些额外的项显著地提高了方法的精度。特别地，我们将其应用于熵阻尼人工压缩 SPH 方法。我们用一种简单的方法来识别自由表面的粒子及其法线，从而使这种方法适用于自由表面问题。我们展示了新方法如何应用于弹性动力学问题。我们考虑了一组基准问题，包括流体力学和固体力学，以证明该方法的准确性和适用性。实现是开源的，手稿是完全可重复的。图：流体圆环自由表面粒子的识别。描绘流体粒子的法线，b流体粒子的边界粒子。图：溃坝模拟中流体法线的识别。向我们显示所有流体粒子的法线。图：雷诺数为1000的泰勒-格林涡旋的粒子图，分辨率为150×150。颜色代表压力。图：Re=100的空腔的粒子图，粒子排列为150×150，左侧有校正项，右侧没有校正项。来源：STEM与计算机方法