斯坦福大学在2023年发布的首个流体动力学大模型BLASTNet-官方介绍以及获取方法

1天前浏览456

通过将计算流体动力学领域的数据收集到一个单一的数据集中，斯坦福大学的人工智能研究人员希望为火箭科学、海洋学和气候建模带来像网络规模数据对语言的影响。

1-BLASTNet - 基本流体动力学的首个大型机器学习数据集

斯坦福大学的人工智能研究人员希望通过将计算流体动力学领域的数据收集到一个单一的数据集中，为火箭科学、海洋学和气候建模带来像网络规模数据对语言的影响一样的变革。

几十年来，许多领域的科学家使用复杂的数学来预测火、水、空气和其他流体的湍流，以预测天气，改进火箭推进，并估计气候变化对空气和海洋的影响。流体流动确实适合人工智能，但基础流动物理领域缺乏像文本的CommonCrawl或照片的ImageNet这样的大型数据集。

然而，这一切可能很快就会改变。斯坦福大学的研究人员着手用BLASTNet填补这一空白，这是第一个为训练基本流体动力学的机器学习模型而设计的大型数据集。我们与机械工程博士生、介绍该数据集给该领域的新预印本论文的第一作者Wai Tong Chung进行了交谈。

2-为什么之前不存在这样的数据集？

原因是科学数据是超高维度的。将科学数据与用于大型语言模型（LLMs）的文本数据进行比较，GPT-3是用600千兆字节的文本数据训练的——BLASTNet是五个太字节。这是一个几何问题。文本是一维的（1D）。照片是2D。流体动力学中的流场通常是4D（三个在空间中加上一个在时间上）。因此，在均匀网格中，对于1D空间中的每100个数据点，在2D空间中有10,000个，在3D空间中有1,000,000个。对于4D流体，这意味着有1亿个数据点。例如，如果您正在模拟火灾，有复杂的现象驱动火焰——湍流的混沌性质、温度变化、可用燃料、压力、化学反应等——这增加了问题的复杂性。因此，生成和训练这些数据的数学在计算上是昂贵的——即使是对于超级计算机。这是科学人工智能比语言模型不成熟的一个原因——我们在人工智能成熟度方面大约相当于2009年，与我们今天看到的多模态LLMs相比，因为我们还没有为许多基本物理现象提供网络规模的数据。

3-构建像BLASTNet这样的东西需要什么？

我们采取了社区驱动的方法，并从该领域的专家那里众包数据生成，并鼓励他们与我们分享他们的计算流体动力学数据。我们希望所有这些数据都以易于机器学习就绪的格式集中在一个地方。你会注意到这实际上是BLASTNet 2.0。我们花了一年时间将数据库从BLASTNet 1.0发展而来——这是一个概念验证，但不适合机器学习目的。有了BLASTNet 2.0，数据集有来自30多种不同配置的大约700个样本。现在，BLASTNet足够大和多样化，可以供其他科学家用于各种机器学习问题。其中有一些非常好的可持续性内容，因为我们的许多数据集中在无碳氢燃料上。美国、欧盟和日本非常希望将其作为燃料转型。BLASTNet可以帮助加速向无碳未来的转型。

4-将这些数据整理到一个网页上的好处是什么？

这都与拥有一个共同的一致格式和从单一门户访问有关。正如我们最近的NeurlPS论文中所回顾的，有一些基本流动物理数据的可用性分散在不同的来源。下载和重新格式化这些数据可能涉及很多劳动，特别是当处理太字节规模的数据集时。现在，流体流动有一个一致的数据集，它是免费的、开源的，并且足够大，可以用于深度学习目的和新模型的基准测试，有很多方向可能会发展。机器学习中发表的论文通常包括将新方法与之前的其他方法进行比较。当每个人都在同一个数据集上工作时，仅这一点就改善了这些比较。但今天，它们实际上只在自然语言处理和计算机视觉中完成，那里的数据集足够大。我们开始看到这种做法在科学机器学习中得到实践——所以这个数据集真的可以帮助将这些实践引入流动物理。

5-BLASTNet如何推进其他科学领域？

正如你从ChatGPT、DALL-E和其他一些地方知道的，机器学习是一个强大的工具，但在流体流动中仍然有许多未探索的应用。也许这些数据可以用来训练人工智能模型，帮助我们更好地理解氢的行为或发现新的操作模式，从而实现无碳喷气发动机。也许AI模型可以从这些数据中学习更好的湍流模型，可以优化风力发电场以提高可再生能源。无论是风、水、氢还是任何其他流体，这些现象都受到相同的守恒原理的支配。我和我的同事喜欢用它来提高我们对喷气和火箭的理解，但它也可以改进许多其他应用，如气候建模、海流、天气预报，甚至医学——在任何液体和气体被发现的地方。现在的计划是扩展到这些领域。挑战的一部分是创建数据集。另一部分是让工程师和科学家相互交流，因为我们这些在推进工作中的人真的不与海洋建模（或其他流体领域）的人交谈，所以BLASTNet有很多增长的机会。我们尝试促进这些合作的一种方式是围绕这些数据举办虚拟研讨会——最近吸引了700多名参与者！

6-你自己计划如何使用BLASTNet？

我和我的同事已经使用BLASTNet数据解决了不同的流动物理问题——因为我们作为BLASTNet的策展人已经对这个数据集有了“测试版”访问。我们的一些过去的工作包括开发可以自动发现新物理模型的机器学习算法。另一个应用涉及训练深度学习模型以提高流动物理模拟的质量——这也是我们在最近的NeurlPS论文中通过计算机视觉技术解决的问题。在物理之外，这个大型数据集也适合于研究量化和压缩技术，这些技术目前非常流行，用于降低LLMs的成本。我们还最近使用这些数据举办了一个开放的Kaggle竞赛，用于机器学习建模湍流。所以肯定有很多基本物理和机器学习中的开放问题，我们对此非常兴奋。