2024年3月,在被称为生命禁区的塔克拉玛干沙漠腹地,中石油打出中国第一口,同时也是世界第二口万米钻井。
上天难,入地更难。
对航空航天来说,万米高空不值一提。但对于入地,万米就足以代表人类科技极限。
从地面往下,每钻进100米,温度就会升高约2℃,同时伴随压力升高。万米深度就面临超200℃高温以及超130MPa的高压。
在如此环境下,钻杆就像煮熟的面条,极难控制。开篇提到的我国首口万米深井,从地表钻到8000米,用了近5个月。而从8000米到10000米,却耗费4个多月。
超深井难钻,超深油难采。然而现实却是,中国近10年新增的探明油气储量,超过一半都是深地资源。
形势所迫,入地虽难,但也不得不入了。
俗话说“时间就是金钱,效率就是生命”。所以深地钻井的关键技术之一,就是“钻井提速”。
俗话还说,“没有金刚钻,别揽瓷器活”。所以钻井提速的根本,是研制基于超硬、耐高温材料的破岩钻头。
但材料学毕竟属基础学科,素来讲究稳扎稳打,换句话说就是进步慢。
因此如何高效利用已有的设备就显得很重要。钻太快伤工具,钻太慢拖进度——如何确定最佳转速?
遇事不决,交给AI。
下面小举一例,展示如何利用机器学习来快准狠地预测转速,所用工具智能数据建模软件DTEmpower。
案例基于的数据均来自生产一线——塔里木盆地两口超深井。
其中一口井的数据作为模型训练集,约6000行,用于训练模型。另一口井的数据作为验证集,约3000行,用于验证模型精度。
这近万行数据,除了钻探过程中实时采集的转速,还包括井深、井斜角、井直径、空隙压力等另外25个变量。
25个变量都会多多少少影响钻头转速,但具体怎么影响,哪个数据影响更大,不知道。
对于这种只知道变量之间可能有关系,但不知道什么关系的场景,基于机器学习的数据建模就非常适合,江湖称“炼丹”。
数据建模通常分三大步:数据预处理、变量分析、模型训练。
一、数据预处理
数据预处理的目的一般有两个:缺失值处理和异常值处理。
生产一线采集的数据往往不能直接用,多多少少存在瑕疵。
比如正常一组数据应该有25个变量,但某个传感器走神,最后只输出24个,就出现了缺失值。
再比如某个变量的正常范围应在30~50之间,但某个传感器抽风,最后输出个999,就出现了异常值。
对缺失值,DTEmpower的空值处理工具可按需对空值进行删除或者插值补全。
对异常值,利用小提琴图等可视化图表工具,可直观展示数据分布特征,辅助异常值清理。
小提琴图
具体的异常值清理过程,基于智能数据清理算法AIOD。无需任何经验性知识,一键识别清理潜在异常点,使用门槛超低。
AIOD异常值清理
二、变量分析
从原始数据看,模型的自变量有25个,很唬人。但实际上真正的变量往往要少一些。
两个原因:第一,自变量A和自变量B之间可能相关联。比如B=A*2+3,那么B显然就不是独立自变量。
第二,有些自变量和因变量之间的关系很弱。换句话说,它不重要。
由于以上两个原因,就需要对变量做相关性分析和重要性分析,剔除部分自变量。自变量减少,实现数据的降维,有利于提高最终模型的精度。
在相关性分析步骤,利用DTEmpower的相关热力图等相关性分析工具,剔除4个非独立变量。
在重要性分析步骤,利用DTEmpower的MDI节点,进行变量重要度排序,进一步剔除4个重要性偏低的自变量。
经过变量分析,25个自变量最终被缩减到了17个。
三、模型训练
由于钻井过程采集的数据具有时序性,即每组数据都对应特定的时间戳,所以适合进行时序回归类建模。
训练算法那么多,用哪个呢?不知道。
所以干脆尝试多个,最后做模型对比,反正尝试成本很低。
机器学习模型精度的判断,通常看R2、MAPE和MSE这几个参数。其中R2最常用,反映模型的拟合程度。取值范围0~1,越接近1表示精度越高。
对比之后,发现MLP算法训练得到的模型精度最高,顶呱呱。
最后,利用验证集数据验证模型精度,结果喜人:预测转速和实际转速拟合度非常高。
全程不过数小时,即可实现钻井转速的快速预测,可做到实时指导一线施工。大大缩短钻井周期,节省钻井经费,这就是机器学习的魅力。
中东大户见了都忍不住点赞曰:不明觉厉。
除了石油钻井,各行业都有很多来自一线的数据。这些数据不会无缘无故产生,都来之不易,与其让它们放在硬盘里睡觉,不如拿来试试做数据挖掘,反正尝试无成本。
前往天洑官网下载DTEmpower,自动有30天免费试用,功能无任何限制。
若有任何疑问,尽管联系我们,不用客气。