非常尊重并感谢科研人员做出的辛勤贡献!若有侵权,烦请联系处理!
若有不当之处,恳请批评指正!
正文共: 12842字12图
预计阅读时间: 33分钟
论文信息
论文题目:面向零/少样本场景的弱监督学习方法、应用与实现
年份:2022年6月
作者:冯良骏
机构:浙江大学控制科学与工程学院
目录
1. 课题研究背景与意义
2. 提出的多工况识别方法弱监督学习相关研究介绍
附录:开源代码
摘要
Ⅰ 课题研究背景与意义
有监督学习( Supervised Learning, SL),作为人工智能最基本的任务之一,长久以来受到了计算机视觉、工业控制、自动驾驶等各个前沿领域的广泛关注。具体地,有监督学习是指从标签化数据集中训练出映射函数的机器学习范式,自2012年Hinton与他的学生Alex Krizhevsky于 ImageNet竞赛上设计出AlexNet起,GoogLeNet和 ResNet等经典的卷积神经网络(Convolutional Neural Networks,CNNs)相继提出,推动有监督学习的发展迈向了一个新的高度。
以计算机视觉领域中的图像识别为例,如图1.1所示,在对ImageNet数据集1,000 种物体的目标识别任务中,top-5物体识别精度从2010年的71.8%快速上升至2021年的 98.7%。与此同时,基于TIMM库在ImageNet上对于552个标准有监督模型的复现结果,我们可以统计出图1.2,即展示不同目标识别精度范围内模型数量的分桶图。
不难发现,在使用top-1 度量时,TIMM 库中准确率超过86%的模型有25个,在使用top-5度量时,TIMM库中准确率超过98%的模型有16个。这揭示了在精心设计的实验室环境下,有监督学习模型取得了十分优异的性能,对于特定的学习任务,可以达到甚至在某些情况下超过人类的识别或认识能力。相似的,在众多研究的基准实验中,有监督模型在标准数据集以及丰富计算资源的支持下,对工业控制领域中的故障诊断任务、虚拟测量任务,以及自动驾驶领域的户外场景检测任务等等,均展现出了出色的适用性以及有效性。
图 1.1 大规模有监督学习任务性能发展趋势图(ImageNet上 1,000个类别的top-5分类精度)
图 1.2 基于TIMM库552个复现结果的ImageNet 目标识别精度分桶图
1)数据的收集周期长:大规模数据集的采集和标注,需要特定领域的专家考虑各类场景,动员大量人力物力,定义统一的准入和标注规则进行数据清洗和准备。整个数据集的完善往往以月和季度为单位,有时甚至需要若干年的时间,其数据的供给往往是分批次的,不能一蹴而就 [23,24]。
2)数据的标注成本高:有监督学习需要样本与标签的配合进行模型训练,而标签的获取往往是通过人力进行的,这导致准备有监督学习模型的数据集费时费力。此外,很多数据标注都是外包给标注公司来完成的,低质量的数据标注会直接影响模型训练的泛化效果。
3)数据的稀有性:很多任务本身就是小样本问题,其目标具有稀有性,很难获取,比如户外探索中稀有的动物或植物,往往很难收集到,又比如药物发现中,已知化合物的分子结构是唯一的,换句话说,每个类别的训练样本有且只有一个,无法准备大量训练数据。
4)数据的隐私性:很多优质的数据资源集中在工业制造、教育培训、医疗诊断、交通管理、网络通信等公共事业部门中,这类数据涉及到个人隐私、商业秘密及国家安全,虽然优质且数量庞大,但隐秘性极高,对公众的开放程度低,无法进行大规模获取和使用。
图 1.3 有监督学习数据集的类别分布说明图
本文以零/少样本场景下的弱监督学习为核心任务、典型的应用为依托,结合先进的机器学习、深度学习技术,建立起对应的具有实际应用价值的智能模型。目的是提高传统的数据驱动方法在弱监督欠数据场景的适用性,从而为后续更复杂的下游任务,如目标分割、根因追溯、自愈控制等打下坚实基础,真正促进人工智能技术在生产上的落地与应用。
Ⅱ 弱监督学习相关研究介绍
弱监督学习的发展脉络如图 1.4 所示,在下一小节中,我们分别对本文中用到的增量学习、半监督学习、零样本学习、迁移学习这四种典型范式进行回顾,介绍重要的工作,并指出现存的一些问题。
图 1.4 弱监督学习发展脉络
增量学习可以划分为基于机器学习模型的增量学习算法与基于深度学习模型的增量学习算法。为直观理解,增量学习发展脉络如图 1.5 所示。
图 1.5 增量学习发展脉络
半监督学习通常可以由自训练(Self-training,ST)、协同训练(Co-training,CT)、基于图的半监督学习和半监督支持向量机(Transductive Support Vector Machine, TSVM)等范式实现。
自训练出现于 20 世纪 60-70 年代的一些文件中,如 1965 年 Scudder 等人关于自适应模型误差概率分析的文献,以及 1967 年 Fralick和 1970 年 Agrawala 等人关于信息论的文献,其基本思想是首先利用有监督学习模型对无标签数据进行标记,再将带有标记值的样本加入到训练集作为新训练样本更新模型,如此迭代,提升有监督学习模型的性能。
相比之下,协同训练是一类基于散度和分歧的半监督学习算法,它利用两个相对独立又充分的视角,即训练集,训练两个分类器,并将其中一个分类器在无标签样本上作出的高置信率预测作为伪标签加入到另一个分类器的训练集当中,用以另一个分类器的更新训练,如此迭代,直至收敛。由于这两个分类器是被独立初始化的,它们可以通过这种相互标记扩充数据集的过程学习未知信息,提升分类性能。对于回归问题,Zhou 等人提出了一种协同回归 (Co-regression, Coreg) 算法,首次以协同训练的范式执行了回归任务。为了给无标签样本挑选置信度高的预测值作为伪标签,协同回归设计了一种基于 K 近邻度量的预测可靠性评估策略,大量在基准数据集上的实验验证了该策略的有效性和快速性。
类似地,Zhou 等人还提出了名为三重训练(Tri-training,TT)的基于分歧的半监督学习方法,通过使用三个分类器来寻找更可靠的伪标签以及进行最终的分类判定。基于图的半监督学习方法往往基于流行假设,即认为数据集中的个体以及它们之间的关系可以以无向图的结构进行表达,其中图的每个节点为一个个体,而图的边则代表了两个个体之间的相似性。基于图的半监督学习算法的优化目标就是要保证在图中样本点间的相似度关系满足标签的先验条件。Huang 等人将图正则项加入极限学习机当中,构造出了半监督极限学习机(Semisupervised Extreme Learning Machine,SSELM),用于多类别分类任务。同时,该模型还利用类别权重加入了损失敏感的特性,可以有效地处理类别不均衡数据集。Szummer 等人提出了基于马尔科夫随机游走策略的给图中未标记点进行标记的算法,通过计算节点之间类别标记的差异性来定义优化目标的损失函数,从而迫使对图中相似节点的预测区分性降低,达到类内紧缩的目的。
半监督支持向量机由贝尔实验室的 Vapnik 等人提出,是一种基于低密度分割思想的半监督学习算法,即在训练中,在避过数据较为密集区域的前提下,优化支持向量机的分隔超平面,在使得分类间隔最大。半监督支持向量机的错误率上界也被给出,这使得它在应用上有很好的理论支撑。为直观理解,半监督学习发展脉络如图 1.6 所示。
综上所述,半监督学习是在数据建模过程中充分利用有标签和无标签样本提升性能的有效范式,尤其适用于少标签场景。然而,随着建模样本的增多,尤其是无标签样本的增多,难免的会引入额外的噪声,在利用无标签样本进行学习的同时,如何克服噪声对预测的影响,是半监督学习模型需要考虑的重要问题。
图 1.6 半监督学习发展脉络
图 1.7 零样本学习发展脉络
图 1.8 迁移学习发展脉络
在这一小节,我们介绍弱监督学习领域中四个最具代表性的零/少样本任务,包括手写数字识别、虚拟传感测量、工业故障诊断、户外场景检测,并分别讨论它们面临的真实弱监督问题。
手写数字识别(Handwritten Digit Recognition,HDR),也叫数字图像分类,是有监督学习最基本的任务之一,它是指基于收集的有标注数字图片数据集训练判别函数,继而对相同类型图像进行对象识别,以区分各种不同数字的技术。图像内容的分析和理解是计算机视觉中的核心问题,准确地进行数字识别与数字分类是理解和分析图像内容的关键所在,对机器人、自动驾驶系统等智能设备具有重要价值。大家所熟知的数据集 Modified National Institute of Standards and Technology(MNIST)便是典型的手写数字数据集。如图 1.9 所示,该数据集的每一个样本都是一张 28*28 像素的灰度手写数字图片,抽取自 2,000 名人口普查调查员的手写字符,内容在0到9之间,一共有10个类别。MNIST手写字体数据集用于建模的集 合包含 60,000 张图片,用于测试的集 合包含10,000张图片。
MNIST是一个经典的、使用已久的基准数据集,标准的有监督模型在该数据集上的top-1准确率早已超过 98%,也正是由于大家对它的熟知,我们可以很方便的利用该数据集来模拟利用一个收集中的数据集进行增量建模的过程。正如研究背景中所讨论的,大规模数据集的收集过程是漫长的,而数据和标签的提供往往是分批次的,刚开始的时候往往只有少量标注样本,不可能一蹴而就。如何在这种少样本的场景下高效利用每个批次的数据更新模型,提升模型对新数据的泛化能力,是实践中建模需要考虑的重要问题。
虚拟传感测量(Virtual Measurement,VM),也称为软测量(Soft Sensor, SS),是指利用数据驱动建模技术,基于一些可以使用传感硬件直接测量的过程参数,对无法测量或暂时不能测量的重要生产参数及质量指标,构造出某种数学关系来推断或者估计,以软件来代替硬件的功能。使用虚拟传感测量技术实现工业重要参数和质量指标的在线检测不但经济可靠,而且动态响应迅速,可连续给出测量结果,易于达到对产品质量的控制。
然而,对于数据驱动的虚拟传感测量,足够的训练数据对于模型训练至关重要,包括样本和标签。如图 1.10 所示,在虚拟传感测量建模过程中,输入样本是传感器信号,比如过程压力、温度、流体流速等,通常从分布式控制系统中采集,由于传感器的高采样率和自动分析,我们往往可以获得大量的输入样本。相比之下,虚拟传感测量建模所拥有的标签很少,因为建模标签是过程的质量指标,通常通过实验室分析或人工标注获得,无法通过硬件传感器进行高频率化验和检测。
因此,在实际的虚拟传感测量建模场景下,我们所拥有的是少量有标签样本和大量没有标注的无标签样本,这是非常典型的少标签场景。在这样的情形下,如何在虚拟传感测量建模时有效地将无标签样本与有标签样本结合起来,使用无标签样本辅助和提升有标签样本训练的模型,会在很大程度上影响着虚拟测量的质量。
图 1.10 虚拟传感测量数据说明图
工业故障诊断技术(Industrial Fault Diagnosis,IFD)是指在工业装备,如磨煤机,正常运行时或不破坏装备的情况下,测试设备的运行状况,对装备的过程数据等进行计算分析,识别装备是否处于不健康状态或故障状态,其目的是提高设备的运行可靠性及奠定故障发生后根因追溯的分析基础。
流行的数据驱动故障诊断建模包括三个阶段:数据采集、特征提取和故障分类。在第一个数据采集步骤中,工厂会安装许多传感器来收集日常运行中的故障信号。特征提取则通常采用矩阵分解方法、时频分析和卷积神经网络等来实现降维和去噪。在最后一个分类步骤中,将提取的特征作为输入,得到用于故障诊断的机器学习模型。然而,这种做法往往依赖于丰富的历史故障数据,在实践中,更常见的工业场景是没有或者很少有故障数据可用。
考虑到许多故障可能具有破坏性并会造成巨大损失,很少有工厂会被允许运行到故障状态并采集样本来训练故障诊断模型。同时,机器的损坏通常会经历一个从健康到故障逐渐退化的过程,这也意味着为数据驱动方法获取足够的故障样本是费时费力的。如图1.11所示,我们可视化了田纳西-伊士曼过程(Tennessee Eastman Process,TEP)数据集中的一次故障,如何在没有历史故障样本的零样本场景下完成故障诊断模型的建立,是有监督模型应用于该任务值得思考的重要问题。
户外场景检测(Outdoor Scene Detection, OSD)是指在户外野生场景下将一种类型的目标从其他目标中区分出来的过程,其基本思想是利用图片的形状、色调、亮度等视觉信息,通过多维空间上的映射变换来预测图片中对象的形态、种类、特点和标识等,最后根据海量数据所确定的映射函数进行分辨检测。
相比于之前介绍的手写字体识别任务、虚拟传感测量任务与工业故障诊断任务,户外场景检测任务是一种更开放的任意样本场景。图1.12展示了Caltech UCSD Birds(CUB)野生鸟类数据集和SUN attributes(SUN)户外场景数据集的部分图片,相比于之前的手写字体识别,我们可以很明显的看出户外场景物体的检测是更为丰富与细粒度的。同时,由于户外各种类别数据的不确定性,即某些稀有动植物的数据难以收集或只能收集到很少的样本,任意样本场景需要同时考虑零样本、少样本的情况,这使得真实的户外场景检测建模任务尤为复杂。为了涵盖任意样本场景中的各类欠数据问题,需要设计新的建模范式,从而以统一的模型实现对各类物体的检测识别任务。
图 1.12 CUB 野生鸟类数据集和 SUN 场景数据集部分图片展示
注明
1、本篇摘抄自论文的绪论部分,如想更加详细了解请阅读原论文。
2、若需引用本文的公式、专业术语等内容建议再细读原论文核实;若本文对您的论文idea有帮助,建议引用原论文~
参考文献
[1] 冯良骏. 面向零/少样本场景的弱监督学习方法、应用与实现[D].浙江大学,2022.DOI:10.27461/d.cnki.gzjdx.2022.001726.
附录:开源代码
本文共提出了四个用于弱监督问题的模型,包括宽网梯度提升系统、对抗平滑三重回归模型、基于故障描述的属性迁移模型以及语义精炼生成对抗网络。其开源代码及数据提供如下:
1) 宽网梯度提升系统 Paper: BNGBS: an efficient network boosting system with tripleincremental learning capabilities for more nodes, samples, and classes,Neurocomputing, 2020,412:486-501.
Code & Data:https://github.com/LiangjunFeng/BNGBS
2) 对抗平滑三重回归模型 Paper: Adversarial smoothing tri-regression for robustsemisupervised industrial soft sen[1]sor,Journal of Process Control, 2021, 108:86-97.
Code & Data:https://github.com/LiangjunFeng/ASTR
3) 基于故障描述的属性迁移模型 Paper: Fault description based attribute transfer for zero-sampleindustrial fault diagnosis, IEEE Transactions on Industrial Informatics, 2021,17(3):1852-1862.
Code & Data:https://github.com/LiangjunFeng/Industrial_ZSL
4) 语义精炼生成对抗网络 Paper: Bias-eliminated semantic refinement for any-shot learning,IEEE Transactions on Image Processing, 2022, 31:2229-2244.
Code & Data:https://github.com/LiangjunFeng/SRWGAN