孙小童, 郭苏敏
摘要:我国新型工业化已步入新的历史阶段,正通往人工智能发挥引擎作用的高质量发展轨道。数据作为驱动人工智能发展的关键要素之一,已快速融入生产、分配、流通、消费和社会服务管理等环节,成为实现智能化、自动化和优化工业流程的基石。从系统化的研究视角,分析了当前工业领域人工智能数据“不够用”“不敢用”“不好用”“不想用”的传统与新兴风险叠加困局,指明了治理因应的基本逻辑是兼顾发展与治理,揭示了从法治之“道”与自律之“术”两方面推进的治理因应策略。
关键词:新型工业化;人工智能;数据治理
新时代新征程,推进新型工业化是建设社会主义现代化强国、实现民族复兴伟业的关键任务。当前,以大模型、生成式人工智能、具身智能等为代表的人工智能不断加速演进,展现出深度融合和广泛赋能新型工业化的推动作用。数据作为驱动人工智能发展的关键要素之一,是打造新质生产力、赋能新型工业化发展的优质生产要素,已快速融入生产、分配、流通、消费和社会服务管理等各环节,成为实现智能化、自动化和优化工业流程的基石。然而,随着人工智能嵌入新型工业化的程度越来越紧密,数据的准确性、多样性、安全性对于人工智能性能表现和错误预防的作用就越来越凸显。有专家认为,当前企业只是尝试修补问题而非彻底解决问题,很多时候人工智能在应对隐私泄露、数据盗取、系统错误等问题时仍然显得脆弱,缺乏针对数据的系统性回应导致轻推(Nudge),即可能引发人工智能系统破坏或停摆,对于制造业尤其是关键基础设施造成重大影响。
3.1 问题的提出
2023年,《“数据要素×”三年行动计划(2024—2026年)》发布,数据要素市场发展逐渐加速,与人工智能结合带来新应用、新业态和新增长,赋能千行百业的创新发展和转型升级。因此,在当前人工智能广泛嵌入新型工业化进程中,数据成为其中的关键变量。
当前,大数据已成为人工智能大模型运作的“养料”,投入的数据不完整、含偏见、有毒有害等可能会随数据采集—处理—流通全周期进一步扩散输出,伴随人工智能接入工业互联网、工业制造流程,源头的数据风险可能直接影响到工业领域,诱发纷繁复杂的安全影响。再加上人工智能对于数据的需求量很大,数据的数量、质量、可得性、流动性对于模型性能起到关键作用,已成为新型工业化进程的影响因子。基于此,数据安全与数据发展面临的问题耦合,共同催生了前所未有的风险。由于目前学界对于人工智能与新型工业化中数据风险的交互影响还处于认识及讨论的早期阶段,大部分研究只是对工业数据风险的孤立研究,对于新阶段人工智能在其中发挥的作用没有充分探讨,因此,本文通过划分工业数据作用于人工智能的不同阶段,来详细分析各阶段“新与旧”叠加下的风险特征,得出数据治理“不够用”“不敢用”“不好用”“不想用”的困局所在。
3.2 数据治理的困局
3.2.1 数据采集阶段
(1)高质量数据不易得
人工智能模型性能优越性绝大程度上取决于数据规模与质量,通过对特定领域的数据微调,可以提高模型在该领域的逻辑推理能力。对于工业领域人工智能模型而言,需要能够反映制造业场景问题的高质量数据。例如,设备预测性维护场景需要收集前期设备故障发生时的振动、温度、电流、转速等信号,若所采数据不能反映故障特征,即便数量再多也是无效的,因而对制造业场景数据的准确性和可靠性要求极高。当前我国工业人工智能数据来源主要有3个:一是通用的中英文开源数据集,因缺乏针对性和准确性质量较差;二是行业专用的开源数据集,据北京智源人工智能研究院统计,目前国内外高校、制造企业等构建的工业人工智能开源数据集为21个,从横向视角来看仅为医学/健康/心理行业开源数据集数量的三分之一,从纵向视角来看数据量显著偏低,约为计算机编程行业数据体量的四分之一,且集中在文本领域,视觉和多模态数据集匮乏;三是企业所有的私域数据集,由于企业源头数据采集能力参差不齐、对数据泄露存在担忧、数据共享机制缺失和产业链过于割裂等因素,企业产生、积累的工业数据量受限,工业高质量数据集并未汇聚。
(2)训练数据产权不明确
目前,在行业数据不易得的情况下,通过已有开源数据集和公开网站爬取数据仍为工业大模型获取数据来源的重要途径。在数据采集过程中,若训练数据集包含没有合法授权的或采取破坏技术保护措施的手段获取的作品内容则构成版权侵权行为。纵览现行制度,《中华人民共和国著作权法》(简称《著作权法》)为版权作品的使用提供了“合理使用”的救济条款,但目前训练数据的版权豁免援引仍存在现实困境。我国《著作权法》第二十四条列举了十三种“合理使用”情形,允许非权利人未经著作权人许可使用版权作品。然而,由于人工智能训练数据使用目的并不属于其中列举的任一情形,导致“合理使用”规则从法条本身来看难以适用,完全交由司法实践的不确定性难免引发企业担忧触犯法律的“寒蝉效应”。此外,人工智能应用工业数据还涉及工业产权,即以专利的方式保护发明,以商标、商号和工业设计的方式保护特定商业利益,还包括制止不正当竞争。具有工业产权的训练数据集往往具有高度的商业价值,界权、确权是此类数据资产化、产品化、市场化的前提,但当前相关知识产权规则尚未统一建立。2023年12月,国家知识产权局办公室在全国新增9个探索数据知识产权试点,为企业数据集提供登记、评估和交易平台服务。省市间登记各负其责,内容存在差异,例如北京市、河北省等要求登记申请时提供样例数据为必填项,但浙江省未有此要求。此外,以浙江省为例,浙江大数据交易中心围绕数据财产权提供交易服务,知识产权在线平台围绕数据知识产权提供交易(许可、转让)服务,若二者之间未来不进行平台合并、接口互通或交易互认,缺乏清晰指引或将导致同一数据集客体的主体权利分离,易引发交易和管理混乱。
3.2.2 数据处理阶段
(1)数据标注难度大
人工智能工业大模型数据与机械制造、石油化工、电力能源、生物医药等专业化场景结合,具有鲜明的专业性、复杂性特征,对于标注人员来说将面临较大挑战。当前行业数据标注人员主要有两种来源:一种是来自外包数据标注服务提供商的标注人员,这类人员一般具有人工智能技术背景,但对于工业行业场景化知识可能缺乏深入了解,对于此类场景的短期培训或学习仍很难满足标注准确率要求;另一种是来自企业内部的技术和应用专家,由于行业大模型数据量大、标注任务重,为数据标注投入数十位专家易造成专业劳动力的浪费和企业成本提升。多家工业企业此前提出,行业亟需安全可靠的第三方自动化数据标注服务,在保证数据安全的同时,提升专业化标注能力水平。我国数据标注行业近年来随技术发展门槛降低,但面对工业领域标注场景难度大、数据量产能力要求高等挑战,目前仅有少数企业提供相关服务,这些企业为自动驾驶领域提供标注服务,但对于装备制造、航空航天、生物医药等精益生产领域,相关企业布局还较少。
(2)数据安全风险突出
数据安全是工业领域人工智能合规应用的底线和红线。在数据保护过程中,企业普遍反映数据泄露和关键信息基础设施安全风险是“不敢”“不想”的重要原因之一。漏洞伴随着系统的诞生而持续存在,弱口令账号、代码攻击篡改、提示注入攻击、传输密钥破坏、防御措施不当等均可能使系统丧失安全防护能力,导致大规模数据泄露事件。例如,根据江苏泰州公安局网安部门检查结果,江苏泰州某不动产登记中心的“业务练兵系统”存在Elasticsearch未授权访问安全漏洞,且未建立健全全流程数据安全管理制度,未落实有效的数据安全防护措施,可致该系统中存储的数万条业务数据泄露。此外,随着模型即服务(Model as a Service,MaaS)在工业领域的应用,工业数据上云逐渐变得普及,数据端侧和云侧流转对于云平台和云链路的数据安全防护和可信技术提出了新的挑战。2022年6月,土耳其飞马航空公司就曾因其亚马逊云计算服务(Amazon Web Services,AWS)云存储桶未受保护导致软件源码、飞行数据、机组人员个人信息等存储在公开暴露的存储桶中,造成大规模数据泄露事件。当前,人工智能等数字化信息技术驱动新型关键基础设施演进发展,针对关键基础设施的全方位攻击已经蔓延至这一新领域,工业大模型的数据泄露已经不仅关涉到企业及其用户利益,还涉及到公共秩序,威胁到产业和战略资源安全甚至是国家安全,对企业数据安全治理能力提出更高要求,也施加了重重压力。
3.2.3 数据流通阶段
(1)标准规范不统一
工业领域人工智能数据涉及行业多、企业多、数据规模大、跨境场景多,对于破除数据流通壁垒、形成数据共享开放机制有着根本需求。然而,数据流通流转也存在着多种制约因素,其中标准规范不统一问题应予以关注。在产业调研过程中,有多家企业反映目前业界尚未有专门针对工业领域人工智能数据的标准规范,不同来源的数据往往遵循不同的标准和格式,标准间交叉、耦合、空白的部分较多。例如,对于工业领域人工智能数据,既可适用《智能制造 工业云服务 数据管理通用要求》(GB/T 40693-2021),也可适用《数据管理能力成熟度评估模型》(GB/T 36073-2018),但前者着重规范云数据而缺乏对于人工智能数据的安全防护和可信要求,后者适宜通用管理但对于工业数据在人工智能生命周期中涉及到的不同风险没有针对性规制,导致数据流通应用在标准方面还缺乏有力支撑。调研中某风力发电企业反映,在进行设备维护和故障预测时,如果数据标准不统一,可能导致对设备状态的监测和分析不准确,增加了故障风险和维护成本。
(2)流通基础不完善
工业企业作为推动工业领域人工智能数据流通的关键主体,做到数据信息化管理、资产化效益是进行流通开放的客观前提和意愿基础。然而,我国工业企业数字化转型、智能化改造还处于进行时,在单一企业内部,可能存在不同时期由不同供应商开发建设的客户管理、生产管理、销售采购、订单仓储、财务人力等众多信息技术(Information Technology,IT)系统,而要深度推进智能化,不仅信息系统要横向互通,还要进一步纵向打通IT和人工智能两界的数据,对于企业数据管理力度、人员专业化程度有一定要求。同时,在产业链之间,大部分上下游供应链还处于数据的隔离与“孤岛”状态,依靠传统的邮件、文件、传真等手段进行沟通,没有采用直观反映供需和价格实时动态变化或具备销售预测和物流跟踪功能的协同系统,更不用说做个性化的定制。尽管有很多企业已经在“数据二十条”政策推动下意识到数据是企业的核心资产,但对于其价值的量化评估却比较困难。究其原因,一是在于企业不同类型、不同层级的数据评价还没有统一可参照的标准,需要相关机构尽快研究和解决;二是在于构建自主创新的工业大模型成本较高,前期投入大,但数据治理短期内很难看到经济成效,这又反过来影响了企业数据的流通意愿。
通过上述对人工智能嵌入新型工业化中面临的数据治理困局进行分析,本文发现当前数据困局成因分属于法治规则和自律管理两个层次,导致在推进新型工业化建设的进程中人工智能数据“不够用”“不敢用”“不好用”“不想用”,亟需在“道与术”方面加快引导和支持,为打破治理困局提供创新思路和解决方案。
4.1 构建新型工业数据治理规则体系,破解“不敢用”“不好用”困局
一是从顶层设计上,加强人工智能嵌入新型工业化进程中数据关键问题研究,进一步完善相关政策法规。目前,《中华人民共和国数据安全法》对工业领域人工智能数据安全进行上位法规范,但对与发展息息相关的数据产权、数据登记、数据定价、数据交易等核心困局并未作出明确规定,掣肘新型工业化进程。为此,需在数据知识产权试点经验的基础上,进一步完善相关制度,推动构建数据知识产权保护和交易规则,更好促进数据的合理流动、充分运用、有效保护。具体而言,在数据知识产权方面建议修改《著作权法》配套法规《中华人民共和国著作权法实施条例》,秉承利益平衡之原则完善制度设计,合理设置训练数据“合理使用”范围,为技术发展预留弹性空间。在数据登记、定价、交易等方面,建议进一步梳理、整合并指导各地市相关管理办法,避免形成地区间规范不一,地区内部数据管理多线条、多窗口的问题,可以参照《国务院反垄断委员会关于平台经济领域的反垄断指南》已有成功经验,由国家知识产权局等有关部门共同制定人工智能数据知识产权领域相关指南,对数据登记、定价、交易的监管规则进行阐明,为企业指明方向。
二是从标准规范上,加快推动《国家人工智能产业综合标准化体系建设指南(2024版)》中关于赋能新型工业化部分标准建设,形成统一的工业领域人工智能数据格式规范、质量要求、安全治理和具体行业标准,通过产业联动为数据治理提供实操指引和共性支持。具体而言,加快明晰工业领域高质量数据集的格式规范,明确工业行业语境下,不同类别的高质量数据集的定义、特征、格式管理要求,从而促使企业间对于高质量数据集的交易基础达成共识。同时,借鉴《数据管理能力成熟度评估模型》形式,推进从关键信息基础设施领域到一般工业领域的贯标工作。标准的价值在于应用,通过贯标评估,有关政府、企业和非政府机构能够准确洞察当前工业领域的数据管理水平和薄弱之处,从而推进其在数据管理能力提升、数据价值释放、数据安全治理等方面有的放矢,持续完善我国工业领域应对国际变化的能力。
4.2 完善技术自律治理机制,破解“不够用”“不想用”困局
一是从产业实践上,加强技术攻关和产业链上下协同,确保数据价值有效释放。要实现新型工业化,发展新质生产力,就要扎实推动科技创新和产业创新深度融合,打好技术攻坚战。这意味着传统工业“智改数转”,发挥数据源泉活水作用,不能仅仅依靠人工智能的安全移植和简单应用,而是应该瞄准技术创新,致力于开发工业互联网大数据平台软件,重点领域、重点业务环节应用软件,以及数据自动化标注软件等,不断突破工业机理模型建模技术、数据价值挖掘技术、数据标识解析技术等高新工业软件核心技术。考虑到技术研发的成本对于单个企业而言较高,且相关经验容易在技术领先企业内沉积,不利于发挥扩散创新对于整个产业的转型升级和高质量带动作用,因此可以通过建立创新联盟与产业、行业共享数据库等方式,支持龙头企业发挥链长作用,贯通产业链、覆盖多领域,共建需求牵引、场景驱动、格式统一的高质量数据集,赋能技术攻关研究。同时,为了推动企业资源共享、积极合作,可以由政府提供政策、资金支持,通过创新补贴、揭榜挂帅、技术竞赛、应用评选、治理嘉奖的形式,降低企业技术投入成本,并促使企业持续在创新进程中获得正向反馈。
二是从企业管理上,构建体系化数据治理机制,明确相关主体的数据安全保护责任和具体要求,形成人工智能数据全生命周期的治理体系。企业作为数据要素市场的主体,是数据治理的实践者和获益人,更需要以主人翁精神参与数据治理机制的探索[8]。在企业内部,可以从目标规划、制度文件和围绕人工智能生命周期的数据治理机制和监督机制入手,形成纵向包含这四个层次的治理体系。业务战略带来信息机遇,企业在构建内部数据治理目标规划的时候要充分理解业务方向,布局高质量数据集获取渠道,探索合成数据和仿真数据等解决数据治理困境的新思路。同时,企业治理核心人员要意识到治理能够规避风险并带来长期红利,避免为了监管而治理或为了合规而治理,导致治理只停留在可见部分,这将使伴随规则迭代的合规成本大幅增加,并且对于企业形成竞争力和安全能力实则无益。企业在形成数据治理制度时,要注意将“数据分级分类管理”“数据安全事件应急响应”“数据标注规则”“人员责任承担”等核心议题与相关准绳进行对齐,并以清晰易懂的方式进行阐述。企业围绕人工智能生命周期建立数据治理机制,应解耦数据采集、处理、流通等环节分别涉及的管理和技术要求,匹配至相关负责人处。同时,为避免治理不足或与应用实际脱节,对于MaaS、智能体、具身智能等特殊形式的应用数据可通过补充条款、单独规范、整合规范等形式规制。在企业形成基本治理制度后,应有内外部监督机制进行定期跟踪和反馈,从而揭示数据不完整、过时、重复、不正确或陷入“孤岛”的问题,便于确定下一步治理计划的优先级,以专注于需要关注的数据,从而帮助提高数据的准确性、可靠性和相关性。内部监督可以通过短期的技术安全自评估和中长期的数据安全审计实现,外部监督则可以通过可靠、中立的第三方机构实施,以评促治,推动治理体系闭环和目标反哺。
我国新型工业化已步入新的历史阶段,正通往人工智能发挥引擎作用的高质量发展轨道。在此背景下,人工智能嵌入新型工业化进程中的数据治理不仅成为国家未来发展的现实需要,也成为企业经营议程上的一项要务。如何破解工业领域人工智能数据“不够用”“不敢用”“不好用”“不想用”困局,激发数据潜能,实现技术变革、促进产业发展、创新商业模式、规范治理体系等已成为新型工业化参与各方亟待解决的问题。本文旨在深入探讨人工智能嵌入新型工业化进程中的数据治理的背景情况、面临的主要挑战以及可行的治理策略,在兼顾数据安全与发展的原则下,以期为工业企业、产业机构和政府部门进行精准治理并有效运用工业领域人工智能数据提供理论依据和实践指导。本文从系统化的研究视角揭示了工业领域人工智能数据治理的规则建设、标准设计、产业行动以及企业数据治理机制,旨在为企业激发数据潜在价值、切实保障数据安全提供参考。人工智能嵌入新型工业化进程中的数据治理是一个复杂且多维的过程,伴随技术更新突破、新兴风险涌现和国际国内治理格局的演进,相关困局和治理方案也可能随之出现变化,未来需要更多跨领域、跨行业专家的讨论与求索。
本文刊于《信息通信技术与政策》2024年 第12期:
孙小童, 郭苏敏. 人工智能嵌入新型工业化进程中的数据治理困局与因应[J]. 信息通信技术与政策, 2024, 50(12): 7-12.