刘博带你读文献（11）——基于物理模型+数据驱动的分析方法来检测电池的安全性_非线性_化学_汽车_UG_新能源_UM_声学_焊接_Electric_机器人

刘博带你读文献（11）——基于物理模型+数据驱动的分析方法来检测电池的安全性

2月前浏览1733

大家好！过年好呀！祝各位牛年顺心，万事如意！放松了一段时间，得抓紧了，所以今天赶紧给大家更新一篇。

本文是清华大学冯旭宁老师组与MIT、Northvolt等单位合作编写的，介绍了数据驱动的机器学习与电池安全物理模型可以怎样结合。这次的文章与之前的读文献系列不太一样，本文其实是电池安全物理机理与数据驱动/机器学习领域的一篇跨界文，大家可以体验一下数据/计算的领域如何与电池安全领域将有怎样融合的趋势，未来行业发展的方向可能是什么样子的。

目前大家都知道，电动汽车的电池使用其实都会产生大量的信息，而随着新能源汽车信息监控机制和平台的建立，对于数据的管理日趋完善，而如何利用好这些数据来更好的为我们的电池安全服务就成为了一个核心问题。刘博在去年11月于无锡由蜂巢能源举办的电池安全会中就发现，越来越多的企业已经提出了基于数据分析+云平台监控的电池安全监控和分析的工作方向。可以说对于电池安全这一核心问题来说，从数据分析侧来做工作的需求和发展趋势已经越来越明显。

但是实际上，虽然目前针对电池安全的一般的实验设计、机理分析的工作非常多，设计更安全的电池包和寻找应对措施仍是重点。而作为一种新兴事物，基于电池运行数据分析的线上和线下诊断-预警技术的数据分析研究诊断预警技术其实仍然处于一个比较早期的阶段，既是新兴的希望之星挑战也很大。

那么，挑战主要在哪些方面呢？主要有：1. 电池是一个非常复杂的非线性系统，甚至两节完全一样的电芯有可能在受到相同的机械/热/电的影响后发生不同的应对反应；2. 我们可以基于机器学习的算法来预测锂电这样的非线性系统的行为，但是要训练和验证这个系统并不容易，常常需要大量的数据；3. 而且目前很多模型/研究方法常常只能单纯的基于数据的机器学习来分析数据，其实并没有更多考虑底层的物理机理因素。

所以把数据分析与物理机理结合好，这就是未来研究和发展的主要方向。接下来我们看一下应该如何思考和应对这几方面的挑战。

有缺陷电芯很少：样本量有限导致的参考数据量的局限性

大家实际上知道：目前电芯生产都在奔着更好的质量控制，更低的失效机率而去，所以以概率来论，实际上电芯失效的机率是很小的，但是这就带来了一个问题：所以这样基于数据来诊断挑选出可能要失效的电芯实际上是难上加难——你可能需要很多电芯才能找到一只两只有问题的，才能找到这种“典型”的问题对象，把它的数据纳入数据库，作为一个典型的参考点。

这样的话一大核心问题就在于：数据不够。尤其是对于研究机构来说，它们常常不可能拥有大量的电芯来跑数据，找不良的电芯。当然这一点对于电芯企业和车企要好些，他们的数据则要丰富的多。

失效事件有时具有一定的随机性：其实对这方面有一定研究后，大家可能会有点痛苦的发现：电芯的各种失效常常是有点随机的玄学事件，比如想要预测内短路常常很难用决定/确定性的模型来实现。

但是无论如此，基于有限的资源和努力的探索工作，也已经有了不少研究机构基于手头的资源开始进行了一些工作，比如可以基于在线监测电芯行为来预测剩余有用寿命Remaining Useful Lfe （RUL）的模型。在最近，NREL 和NASA搞了一个开源的Battery Failure Databank的数据库。这些工作都可以供大家参考，来了解目前这一领域已经发展到了一个什么程度。（Li, Y., Liu, K., Foley, A.M., Zu¨ lke, A., Berecibar, M.,Nanini-Maury, E., Van Mierlo, J., and Hoster, H.E. (2019). Data-driven health estimationand lifetime prediction of lithiumion batteries: a review. Renew. Sustain.Energy Rev. 113, 109254. Hu, X., Xu, L., Lin, X., and Pecht, M. (2020).

Battery lifetime prognostics. Joule 4,310–346）

实验优化：引入那些低发生概率缺陷的情景，研究并获得数据

对于我们来说，需要得到有缺陷的电芯才能获得它们的特征数据，而这样的数据就需要我们刻意的制备出具有某种缺陷的电芯来获得，所以设计好实验来获得这种具有可控可变可研究的缺陷的电芯就非常有意义。

比如在制造一些典型缺陷：极耳没有对齐，焊接毛刺刺穿隔膜，隔膜力学性能的逐渐的崩溃，这些都可以在实验室中通过刻意制造条件来得到具有类似效果的样品。

比如制造具有内短路可能性，可以调节的电芯，可以用以下的方法：图1b中，我们可以用一个专门造的电芯来模拟图1a中毛刺缺陷的情景：蜡加热融化（之后正负极短路接触）、记忆合金植入（变形直接导致正负极短路接触）都可以导致类似于像刚才说的毛刺刺入的缺陷开始发生。

这两种方法都很方便研究者定量调整反应的程度，从而为设计操控实验，获得不同等级/程度的数据做支撑。

当然对于各种缺陷情景，都可以相应的设计处获得的思路：比如高温下/应力等不利条件下循环电芯让隔膜处于一个更容易失效的临界状态，本文在此也没有一一列举所有的制备缺陷的方法，只是把这种思考和解决问题的方式告诉了大家。

但是毕竟对于电池行业来说，电芯-电芯之间的差异性总之存在的，这导致了实际失效情况实际是很复杂的——失效发生的概率、机理和严重度可能都会产生一定的个例（CASE BY CASE）性。所以单独靠这些模拟性的实验当然可以获得一些特征的信息和数据，但是只靠这些偏向于电学方面的数据还不足以支撑我们使用数据来诊断预判事故发生的期望。那怎么办呢？需要从更多维度来监控电池，考虑更多种的信号，与这些信号代表的物理意义做好结合。

把电/热/声/机械维度的信息都收集越来用于分析判断，物理机理与信息数据模型的结合非常重要

如上所述，其实目前的电池安全的基于数据驱动的预测方法大都只用了电化学方面的数据，而对热、声、机械方面的数据就没咋用。可以看到了物理模型和数据分析的脱节性，所以这就要求：

一方面需要在建立模型的时候开始考虑这些维度的数据和机理；
另一方面还要在电芯研究表征方面，更多的利用OPERANDO原位的测量各类参数，如下图所示。

那么接下来看一下这四大类表征方法/信号信息种类：

电。基本的直接读出的电压/电流/电量等信息当然是基础，但是明显只能应对典型的一般情况。想要获得更进一步的深层次信息：就要用一些基于电压/电量的微分的方法。比如正弦波激发的有不同频率下信息的EIS谱（了解内阻情况-进而了解不同典型机理的贡献量-甚至可以侧面了解老化失效机理），另外一个是Distribution of relaxation times (DRT)以及random forest (RF)classifier approach等方法。在此就是给大家简单介绍一下，如果对针对相应方面有细致需求的读者可以直接从参考文献找到详细内容，在此就不展开了。

机械。电芯应力和应变的情况对于电芯失效来说是非常关键的核心信息，可以使用原位的应力测试的手段来获得这些数据。严重的膨胀常常对应于电解液干涸-电芯刚度增加-析锂- -体积膨胀。薄膜应变片 (thin-film gauge)可以使用。在这里我想首先推荐大家回去看一下《刘博带你读文献（6）探测热失控的不同传感器对比》，可以对目前典型传感器的情况有一个基本的了解。

声学。声学探测手段比如acoustictime-of-flight analysis就已经用在估计SOH了，也有文献介绍了用其来研究电解液润湿/随着循环老化干涸情况的文献。笔者打算之后专门看一下这方面的工作来看是不是单独介绍这一块的前沿情况。（Davies, G., Knehr, K.W., Van Tassell, B.,Hodson, T., Biswas, S.,Hsieh, A.G., and Steingart, D.A. (2017). State of charge and stateof healthestimation using electrochemical acoustic time of flight analysis. J.Electrochem. Soc. 164, A2746–A2755. Knehr, K.W., Hodson, T., Bommier, C.,Davies., G., Kim, A., and Steingart, D.A. (2018). Understanding full-cellevolution and nonchemical electrode crosstalk of Li-Ion batteries. Joule 2,1146–1159)

热学。热方面的信息其实能提示很多：内阻的变化，放热的反应，内短路的生成，等等。当然此时的问题在于：尽量测试电芯内部温度变化最为准确，尽量要非破坏非侵入式的获取这个数据。在这里笔者可能想点评几句：对于单电芯来说以上的这些研究期望的愿景都没问题/可以小规模实现，但是对于大规模量产的汽车用电芯来说，想要原位给每节电芯装入内测温传感器基本没有什么可能性，工业上有时获得的数据注定相对有限/粗糙，所以传感器的发展也还是任重道远呢。包括其它的传感器，实际工业中应用空间够不够，成本上是不是划的来，都是要在工程化中认真考虑的前提。

工作思路：各维数据都有了，怎样建好数据库和模型来改善预测精度呢？物理模型的引入和实验工况数据的获得更有意义——让模型的外推性更强（extrapolative）

还是那个问题：学术界常常能有的数据/可研究的电芯样本数量有现，大多数都甚至很难能找到能用100+个电芯做实验积累数据的。基于这些有限的条件，学术界仍然已经开始了很多研究，有了一些初步的结果，当然了预测的精度还是不够理想。比如Chemali就基于深度学习整了一个模型，通过深度学习当然可以从训练数据中鉴定出高度复杂的一些规律。(Chemali, E., Kollmeyer, P.J., Preindl, M., and Emadi, A. (2018).State-of-charge estimation of Li-ion batteries using deep neural networks: amachine learning approach. J. Power Sources 400, 242–255.)

但是基于这些以有的工作继续往前展望，它们中的很多并没有和深层次的物理的东西结合起来。而且它不能预测超过给它输入数据的东西，具有内插/内断性interpolative，而对于预测和外推(extrapolative)更宽更广的情景的要求常常就无能为力。此时，就不能只考虑数据分析了，必须把物理模型也给引入进来：基于物理机理建立的模型再经过好的数据训练的外推外延性就要好很多。

所以：基于统计上的数据结果提取然后来建立数据-数学的模型来预测电芯的逐渐老化已经不容易啦，而如果你想要进一步建立一个随机二元过程的预测模型（比如普通工况下的内短路），只会更难。而且：目前很多研究都是在极端的故意滥用的条件下来提取数据建模的，但是要把基于这些条件获得数据/模型反回来用到正常（工程）条件下使用的电池来预测可能就不太好用了（其失效有时有随机性和概率性，不见得能百分之百回溯到这些极端滥用的场景）。

所以作者在这的建议是：别只顾着用样品搞一大堆循环测试，把实际工作的时候的电芯/电池的数据提取出来分析才是最可行的，这些数据才是最大的财富，而且它们才是反映实际运行情况的代表性数据。而且现在随着实时数据监测RTM技术发展，法规对于监控的强制要求，汽车企业中的各种电池包中的探测器的建立和各种数据的大量采集，基于实际数据开始进行研究的基本条件其实已经逐渐具备了。

刚才说到了用每辆车的实际数据来研究分析，此时有一个挑战在于：每辆车一个用法一个工况，这样不同包、不同电芯之间的比较也是不容易。不过，针对这个问题目前也已经有了一些数据分析处理方法来把大量的不规律的信息处理让其更为线性。（Li, S., He, H., and Li, J. (2019). A cloud-based aging consideredvehicle-mounted lithium-ion battery management method: a big data perspective.In 3rd Joint International Conference on Energy, Ecology and Ll 328 Joule 5, 316–329,February 17, 2021 Perspective Environment and Electrical Intelligent Vehicles,pp. 181–184）

而且此时必须保证你选取的基础数据是对于我们要分析代表的场景有足够代表性（数据/研究方法毕竟具有interpolative的属性）。你得有验证的判据，来验证你这数据选的好不好能不能和物理机理结合好，能不能满足我们需要的尽量可以外推的extrapolative的要求。此外，如果数据量有局限，大的数据库常常要不太贵要不得不到，对此基于第一原理的高通量计算产生的数据库正在越来越重要，其可以用来训练神经网络，使我们获得的模型更为好用。

所以我们的这个模型要学术（物理）和应用（数据-BMS）两头跨 – 也就是说数据模型的物理考虑绝对不能少

所以说到最后：毕竟还是应该让物理模型做基础，以及数据驱动的预测必须要与物理解释相结合。所以此时我们需要模型可以在学术（物理层级）和应用（数据-BMS-云）方面两头跨，如下图所示。

刚才说了半天需要什么维度的物理数据，怎样不断改善模型和算法的精度，最后还是要强调一点：必须把物理模型引入数据驱动的预测中，来引导工程中的应用。

在考虑物理因素/机理方面，PDE偏微分方程是一个重点：因为安全相关的许多热/传质力平衡啊等方面，都可以用其来定量解释机理。如果传统的数据驱动的方法常常就把这些给绕过去了，有时生成的结论甚至会与这些基本的物理模型/原理相悖。

所以咋把物理机理公式与数据驱动的模型结合好呢？主要可以有：1）重新构建模型，使用数学方法来降低计算成本；2）使用数据驱动的方法来解高度非线性的偏微分方程。对于第二种方法，主要的工作思路是：把非线性公式引入，包括边界和初始条件，引入到数据驱动的模型中作为（物理）训练约束条件（有一堆文献说明了很多人在这方面已经做了一些工作）。反正好处就是：可以用更少的数据样本（也就更便宜）训练量来达到目标。如果一个模型其实是力热电等多因素耦合，就可以把整体的网络模型分解为几个物理因素单独的亚网络（力/电/热）然后来求解和建立联结。

接下来介绍了一堆在机器人/自动化领域的经验，总之就是机器学习在这些领域中用的已经比较多了，在电池中用的还比较少，所以对于数据科学领域的这些研究方法，我们可以借鉴别的领域已经有的成熟经验。

结语

本篇文章是是跨界性的，刘博也不太懂数据分析机器学习这些领域，但是读完以后也受了些启发，初步了解了跨界学科研究的一个总体情况和思路。物理模型和参数监控的完善可以帮我们更好的了解电池安全方面的问题和挑战，而大数据和计算这一现代社会中的利器在电池安全中的应用是很有希望产生重要影响的，就像其对很多其它领域的推动的变化一样有可能对电动汽车安全方面产生重要的影响，所以肯定是值得大家重点关注的未来发展方向。

但是如本文所述，这条路道阻且长，不论是数据的可获得性（ACCESSIBLE，很多研究者和企业没有足够的数据，想要所有人都获得数据更是很难达成的愿景），还是物理机理与数据模型的结合，还是从海量信息中精确提炼出特征信息来判断和完善模型并训练其具有最终外推判断的能力，都不是一件易事，需要跨学科的合作和大量的努力才能完成。

以及响应一下冯老师在文末的号召：大家应该一起建立开源的电池安全数据库，这样才能更好的方便在这方面全行业的技术的发展。

致谢

感谢冯老师的经典工作，感谢徐大哥推荐文章。感谢大家一直以来对弗雷刘的支持。祝各位牛年健康顺利，万事如意~

来源：弗雷刘

探索几种新的热失控触发方式：灯光照射，激光以及铝热反应

大家好，首先道个歉：整个四月因为一直比较忙（看娃+出差+写出差开会的报告），一直没有更新。在五月应该会好一些，近来下了一些文章，尽量保证更新频率哈。近来无意间在网上搜到了报告EVS20-K03 [US]Battery triggering techniques，其介绍了美国这边探索不同的热失控触发机制的新工作，主要包括了灯光照射，激光以及铝热反应三种方式。个人觉得这篇报告还是比较有意思的，特此分享给大家。大功率石英灯照射：比较麻烦不太实用在本文的所有研究中，研究都首先使用绝热量热仪ARC得到电芯的热失控加热/升温曲线，然后来对比研究其它的这三种触发方式是不是可以按照同样的升温制度就可以完成触发。用大功率石英灯照射传热的原理就和大功率灯浴霸似的，光源就是热源，照到的地方热就传过去。实验示意图则如下图左所示：大功率石英灯光源在下，然后软包电芯和光源之间放一个混凝土隔板，其上开一个直径2.5cm的光阑，保证只有这一块有能量传到电芯上去。首先试了一下完全仿照绝热量热仪ARC得到数据的加热曲线（蓝色）——结果发现这个（红色）不行，触发不了。所以只好调整了新的制度——把加热时间和强度都翻了倍（绿色曲线）。调整后，成功触发了电芯热失控，电芯在反应中最高温度570度。说到这就简单点评一下哈：这石英灯照射就是个大功率的非定向性光源——不可控。这问题就大了：混凝土挡着这种笨办法对于实验是没问题的，但是对于实际情况呢？我真要给电池组的某节电芯实现精准的触发呢？这个光源基本是没有任何办法的。不可控还有一个问题——能量输入不是很精确。热失控实验实际上是要求我们对于引入的能量有很好的控制的：希望越少越好（所以过充就不是一个特别好的方法）以减少额外能量的影响。在这种情况下，我们是可以只算经过光阑到达电芯的能量，但是这个过程就粗糙了：混凝土块会不会被烤热，环境比热的影响如何估计？这相当于是给实验增加了一些不可以忽略的因素。还有一个问题：这个方法只适合有大表面积的方形和软包电芯（有足够的面积来接受热量），对于圆柱电芯就没办法了（圆柱电芯面积太小了）。最后一个：看来直接比着ARC曲线就能完成同样的热失控触发还是比较难，其它加热触发需要功率应该是肯定要高于ARC曲线值的，个人认为原因有：1）电芯不停在向外散热损耗；2）相比于ARC的准-稳定态测试（内外温度均一度高），这些加热/测试基本都是动态的，测的表面的地方也许温度达到了其实内部常常还早呢，所以需要点过加热/能量输入也是很正常的。总之：还是不太实用哈。激光触发：还不错，有实用性在本部分中，探索使用了使用近红外激光Rofin，40W，1000nm，1mm直径光斑的触发方法。在3Ah软包、2.6 Ah18650 LCO圆柱和3 Ah 18650 NCA圆柱上分别做了实验。 A. 3Ah软包用这个激光4.5分钟就把3Ah软包照的热失控了。在发生热失控的瞬间：出现了200mV的压降，然后很快发生热失控，之后就是电压变0，温度急速升高。反应前后的电芯照片如下图所示。下图可以更清晰的看见整个过程的温度和电压变化情况，可见激光局部加热触发有点结合了传统加热和针刺触发的特点：加热需要一定的时间，这里也是（4分半）。即使是发生热失控后，温度的快速升高也是要比针刺要更慢一点（需要热效应逐渐烧穿而不是针刺一口气直接贯通）针刺是局部破坏，这里的激光加热也是优先在局部击穿（当然周边也已经有热量吸收了）另外作者们还探索了一下在低SOC电芯上用同样时长的激光照射后，电芯的表面和内部（CT研究）的情况（下图），发现照射后会有一个小孔，但是内部用CT看，基本没有什么明显变化，说明激光光源有强定向性，能量输入集中于局部，这个是很好的。这对于我们精确的开展实验，搞明白能量输入量，对实验细节变量达成控制，都是非常有好处的。总体来说：激光照射触发的方法具有实用性，值得重点来跟。 B. 圆柱接下来，用激光对比触发了LCO圆柱和NCA圆柱。圆柱整体上更难触发——得把要吸收能量的表面涂黑了，帮吸收能量。LCO触发不咋成功，只有放电，温度温和上升到50度——可能是因为该LCO电芯本征安全性更高，这个还需要进一步研究（曲线没放）。NCA触发成功，最高温700度，下图就是其热失控时的曲线。囿于篇幅，在此就不展开了，总之激光触发方法可控精确，值得进一步研究。铝热反应剂触发：理想很丰满，现实很骨感大家在中学化学中就应该听说过铝热反应，其具有很高的放热量，又是一种比较容易获得的化学/化工品，并且通过控制成分配比和剂量可以精确的模拟单节电芯热失控时发出的热量。因此研究者们就在想：可不可以用这个反应剂来实现我们的热失控触发呢？内置铝热反应剂的钨坩埚结果做了几个实验，发现理想很丰满，现实很骨感，咱们一个个来看一下： A. 钨坩埚内放Al/MnO2反应对用它的好处：高热量产生。然后发现：一开始加热速率挺好，后来反应剧烈化后一产气，把容器打破了，然后能量释放就不像以前希望的受控于局部了——我是可以产热，但是热量都跑到别处去了，没有全导给旁边的电芯，这可怎么用呢？所以下图里面，这个最高温度才160度——这可不是我们对于铝热反应产热加热效果的期望呀。果断抛弃。B. 钨坩埚内放Ti /2B反应对再把反应体系换成这个，好处：理论上它们产气就少，可以完美避开上面那个体系的坑。准备过程也很简单：把粉体材料配比好了压了以后放入坩埚，然后触发该坩埚内的铝热反应。发现：加热速度明显快于刚才的体系，然后，最高温度达到了240度。咦？240度？也不咋地啊。实验后一看，倒是没有气体的大问题，但是出现了坩埚裂开，内部物质喷发的问题——一样的反应不完全可控了，热量散失到别处了，这还是违背了我们反应可控，把热量精准导给电芯的初衷。C. 基于商用的Cadweld 商用的Thermal Caps做的实验。经过以上的研究，研究者们纠结了：这俩体系各有问题，然后好像坩埚有点不好用。所以有没有什么现成省事的体系可以用？——找到了一种商用的铝热反应剂Cadwell（长的像一个塑封的小杯子，其成分是Cu2O+ CuO+Cu+Al粉，连着一个电引发器）坩埚这个东西是不是必须用？好像比较麻烦的样子——研究下可不可以不加坩埚所以基于这些考虑，他们在10Ah的软包电芯上设计了以下的实验。 1.铝热剂+坩埚（测坩埚上的温度）2.铝热剂不带坩埚（测直接接触的温度）3.0%SOC电芯+铝热剂不带坩埚4.100%SOC电芯+铝热剂不带坩埚5.0%SOC电芯（上）+100%SOC电芯+（铝热剂不带坩埚）（放在最上面）然后咱们看看实验结果：实验1：带上坩埚，坩埚隔热+吸热+散热效果有点……明显，所以测量的坩埚外面只有200多度一点——和上面的两个体系的结果一样：看来带着坩埚就是不太行……而且基于基本的化学知识也可以知道：应该不是铝热反应剂的锅（这个肯定能把温度搞上去），那是坩埚的问题吧？实验2。所以把坩埚去了，直接测反应剂外表面：果然，干到1200度……这就很尴尬了实验3：铝热剂+无坩埚+电芯0%SOC，铝热剂温度高，熔化金属穿透了5-7层的极组，但是实际上电芯没有真发生TR，测出的电芯只有220度当然了，0%SOC相对安全性高，这样的结果也不是太奇怪。实验4：100%SOC: 成功触发，反应很迅速，电芯最高达到650度，实验重复性可以。实验5：说实话这个上电芯0% 下100%的设置我不知道是为了证明什么……作者说的是为了研究铝热反应产生的熔化金属会不会穿透顶部电芯到底部电芯。但是实验3已经说明了只会穿透5-7层，你再做这个实验5不是多此一举吗？说到这就简单点评一下哈：使用坩埚是为了把反应限于局部，保证能量尽量都只往电芯上跑，但是带来了一个问题：坩埚自己吸热散热，使得最终传给电芯上的热就很有限。但是你不用呢？反应又不可控——可能喷了热量跑了，最后多少热给了电芯都是一笔糊涂账。所以这个方法是很有意思，但是不可控因素太多啦。不好玩。所以研究者也在说：下一步的研究主要的目标是：搞出一个好用的密封的铝热反应器来。最后总结+乱弹研究者最后给了一个表，对比了激光（行1）、针刺、无定向石英灯、加热、过充五种触发方式的细节以及输入的能量。可见针刺能量输入比较少（1.8J），但是激光输入同样在这方面也有很大的亮点（38J），这应该主要得益于高度定向+局部的高效能量输入，这是很有价值的。该方法还在概念验证阶段（Proof-of-Concept），值得进一步跟。灯照射和传统加热都是输入能量达到6000J量级，但是相比之下灯的局限性就大多了，估计只在一些特定场合下才好使。过充则是引入能量海量了，而且又涉及到电芯保护机制和内部复杂反应，不是很推荐的一种触发方法吧。来源：弗雷刘