首页/文章/ 详情

BLASTNet – 斯坦福发布首个基础流体动力学大型机器学习数据集

精品
作者优秀平台推荐
详细信息
文章亮点
作者优秀
优秀教师/意见领袖/博士学历/特邀专家
平台推荐
内容稀缺
3月前浏览3709

AI三件套:数据、算法和算力。


 

原文地址:https://hai.stanford.edu/news/blastnet-first-large-machine-learning-dataset-fundamental-fluid-dynamics

BLASTNet官网地址:https://blastnet.github.io/index.html

数十年来,各领域科学家利用复杂的数学模型预测火、水、空气等流体的湍流现象,以预报天气、优化火箭推进技术及评估气候变化对大气和海洋的影响。尽管流体动力学为人工智能应用提供了广阔平台,但在基础流动物理学领域,尚缺乏类似文本领域的CommonCrawl或图像处理中的ImageNet那样的大型通用数据集。

然而,这一现状或将迅速改变。斯坦福大学的研究团队正致力于填补这一空白,他们推出了BLASTNet——首个专为训练机器学习模型进行基础流体动力学研究设计的大型数据集。我们采访了机械工程博士候选人Wai Tong Chung,他也是一篇新预印论文(https://arxiv.org/pdf/2309.13457.pdf)的第一作者,该论文首次将此数据集引入该领域。

Q1:为何这样的数据集尚未存在?

原因在于科学数据的极高维度特性。以大型语言模型(LLMs)使用的文本数据为例,GPT-3训练时使用了600GB的文本,而BLASTNet的数据量更是高达5TB。这涉及几何级数的增长问题。文本是一维的,照片是二维的,流体动力学中的流场通常包含四维(三维空间加一维时间)。因此,在均匀网格中,每增加一个维度,所需的数据点数量呈指数级增长:1D空间中每100个数据点对应2D空间的1万个点、3D空间的百万个点和4D流体的1亿个点。例如在模拟火灾时,复杂现象如湍流的混沌性、温度变化、可燃物供给、压力和化学反应等因素都会显著增加问题的复杂度。因此生成和利用这些数据的数学计算成本极高——即便是对超级计算机而言也是如此。这是科学领域人工智能相对不成熟的原因之一——与当今的多模态大型语言模型相比,我们在人工智能的发展水平上大约相当于2009年的状态,因为我们尚未拥有大量基础物理现象的网络规模数据集。

Q2:搭建BLASTNet这样的网络需要什么?

我们采用了社区驱动策略,向领域专家征集数据并鼓励其分享计算流体动力学数据。我们的目标是集中这些数据于一个便于机器学习处理的格式中。您会发现这是BLASTNet 2.0版本。从BLASTNet 1.0的概念验证阶段(尚未适合机器学习)到现今的数据库规模,我们用了一年时间。在BLASTNet 2.0中,数据集涵盖了来自超过30种不同配置的约700个样本。如今,BLASTNet已足够庞大和多样化,可供其他科学家用于解决各类机器学习问题。

Q3:将这些数据整合到一个网页上有哪些好处?

这一切都建立在拥有一个统一、一致的格式以及通过单一门户进行访问的基础上。正如我们在最近的NeurlPS论文中所回顾的,基础流体物理数据分散在不同来源中,存在一定的可用性问题。下载并重新整理这些数据需要大量人力,尤其是在处理TB级的大规模数据集时。如今,流体流动有了一个免费、开源且足够大的统一数据集,既可用于深度学习目的,也能为新模型提供基准测试平台。这为后续研究开辟了众多可能方向。机器学习领域的发表论文通常会将其新方法与之前的其他方法进行对比。当所有人都基于同一数据集工作时,这种比较本身就得到了提升。但目前这种情况主要出现在自然语言处理和计算机视觉领域,因为那里的数据集足够庞大。我们正开始看到这一实践在科学机器学习领域得到应用——因此该数据集确实能助力这些实践深入到流体物理学中来。

Q4:BLASTNet如何推动其他科学领域的发展?

正如从ChatGPT、DALL-E等工具所见,机器学习技术强大,但在流体流动领域尚有许多未开发的应用。这些数据或许能用于训练AI模型,帮助我们更深入理解氢气行为或发现新的运行模式,实现无碳排放的喷气发动机。AI模型也许能从中学习到更优秀的湍流模型,优化风力发电场以提高可再生能源效率。无论是风、水、氢还是其他任何流体,这些现象都遵循相同的守恒原理。我和同事们喜欢利用它来深化对喷射器和火箭的理解,但它还能改进许多其他应用领域,如气候模拟、洋流研究、天气预报甚至医学——凡是有液体和气体存在的地方皆有可能受益。目前计划是扩展至这些领域。其中一部分挑战在于创建数据集;另一部分则在于促使工程师与科学家之间的交流沟通——因为我们从事推进技术的人很少与海洋建模(或其他流体领域)的专业人士对话交流——因此BLASTNet有着巨大的成长空间。为促进这类合作关系的发展,我们尝试举办围绕此数据的虚拟研讨会,最近吸引了超过700名参与者!

Q5:您打算如何利用BLASTNet?

我和同事们利用BLASTNet数据针对不同流体物理问题进行了研究,因为我们作为BLASTNet的策展人拥有该数据集的“测试版”访问权限。我们的工作包括开发自动发现新物理模型的机器学习算法,以及训练深度学习模型提升流体物理模拟质量。这一挑战在最新NeurlPS论文中通过计算机视觉技术得到解决。此外,这个庞大的数据集还适用于探索量化和压缩技术,以降低大型语言模型(LLMs)的成本。最近,我们还利用这些数据举办了一场开放的Kaggle竞赛,旨在运用机器学习方法建模湍流现象。因此,确实存在许多基础物理学和机器学习领域的开放性问题令我们感到兴奋不已。


 

BLASTNet旨在填补科学领域,特别是流体力学中开放机器学习(ML)的空白,为反应性和非反应性流动物理学社区的研究人员提供(主要由外部贡献的)开源ML资源。

这些数据对于与汽车、推进、能源和环境相关的广泛ML应用中的流体流动非常有用。具体来说,与这些领域相关的科学工程任务可能包括湍流封闭建模、时空建模和逆向建模。

BLASTNet现在包括:(i) 4.8 TB的高保真模拟数据集,已处理成便于ML应用的格式;(ii) 超过13,000行代码,有助于这些模型的训练和评估;(iii) 超过100个在流动物理问题上的预训练权重。


(完)

来源:CFD之道
化学湍流通用汽车海洋LMS电场其他流体人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-08-07
最近编辑:3月前
CFD之道
博士 | 教师 探讨CFD职场生活,闲谈CFD里外
获赞 2566粉丝 11300文章 734课程 27
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈