天泽智云金超博士曾做过一个十分生动的比喻:一个模型的诞生就像婴儿一样,婴儿成长的过程中需要接受教育、做练习题,最终毕业、成人,模型也要通过不断地跟领域知识磨合和融入,在能够采集更多样本的情况下不断迭代,最终才能形成一个比较成熟的模型。这一复杂且长期的过程体现了工业智能模型研发的三大难点:
- 建模难:即便我们会尽其所能获取所需数据并确保数据的质量,但不得不再次提及工业数据的3B特点,工业建模所需的数据存在奇异值、缺失值、超限值是常态,还有工况不满足分析目标,要对工况做修正,以及样本不平衡、标签缺乏等问题,这也是工业AI与传统AI的最主要区别。
因此针对工业数据特点进行预处理以及选择建模方式,除了需要具备编码、机器学习等技术能力之外,还要求数据科学家掌握大量的工业领域知识(如设备机理、信号处理),这也导致了工业智能建模的高门槛。 - 用模难:数据科学家会使用不同的建模语言和框架,不同的机器学习平台进行模型的研发,但这些平台大多数服务于算法开发和模型实验,而非用于生产。其实算法开发和软件开发类似,需要打通开发和生产环境,如果无法将训练好的模型直接迁移至生产环境中,就需要IT部门帮忙部署他们不理解的代码,这往往会成为部门协同工作的障碍。
此外,模型运行的稳定性也面临许多挑战,如果不能随时了解模型的运行状态,快速追溯数据调用过程,并实时调整和关联新的参数的话,就会发生模型“不准”从而影响模型发挥本应有的价值。 - 管模难:智能化的应用程序都有一个复杂的生命周期,从模型建立后会经历频繁的更新与迭代,我们常说,好的模型不是被设计出来的,而是被迭代出来的。所以模型资产不仅仅是模型本身,还包括训练的数据、模型的代码版本、训练的结果、模型运行依赖的库文件等,整理这些资产并建立它们之间相互的版本关系,是一项繁重且长期的工作。
然而工业场景各异,设备在不同环境不同工况下需要部署不同的模型,这些都对团队检索、复用,尤其对跨团队协同开发、版本管理以及部署使用等工作都提出了极大挑战。
【 基于ModelOps理念的模型全生命周期管理 】
模型建立的过程可以很快速,然而后期对模型的维护与运营管理则更加重要,因为这才是最终成就客户实现智能化转型的技术关键和业务价值所在。
在天泽智云成立早期,也经常遇到模型研发中各种各样的难题,为了解决这些问题,我们在2017年自研了建模工具GenPro™。而随着越来越多智能化项目的交付,我们发现现行的智能化应用构建流程各个步骤的环境与数据隔离过大,需要大量的人工介入,并且随着智能资产的积累,发布也不再是建模的重点,流程、自动化和跨团队协作更加重要。
基于这样的认知和实践经验,我们参考软件工程的DevOps理念,并进一步结合了数据科学领域的ModelOps理念,构建了完整的跨领域、跨部门、跨阶段、跨环境的工业智能建模体系,从算法的设计、探索、验证,以及监控和部署,形成了一套完整的模型全生命周期管理的闭环平台。它与传统建模开发过程相比有明显优势:
- 持续交付 -
数据科学家和ML工程师能够以零中间步骤将其代码推入生产环境,并从生产环境获取模型的质量统计。去除摩擦后,可以进行模型的快速迭代开发。 - 环境独立 -
工业智能体系结构可能会受到公司具体情况的影响,必须足够灵活,可以在任何所需的位置运行。微服务架构和先进的容器编排使这种灵活性成为可能。 - 语言独立 -
语言独立的巨大优势是可以使用喜欢的任何语言。通过微服务构建的IAI层,我们确保数据科学家和ML工程师可以自己擅长的Python或Matlab进行零阻抗的协作。 - 可发现性 -
随着组织对数据科学和机器学习的投资,企业会发现组织在做大量的重复工作。工业智能模型研发平台会存储和管理所有模型,使其可搜索并允许工程师将其部署为服务和任务,或定制模型的参数让模型适用于不同的场景。 - 版本控制和API流水线 -
好的ML实践是基于新的数据定期对模型进行迭代。该平台简化了版本控制和API流水线工作,使各位工程师和数据科学家能够尽可能频繁地部署其模型,并拥有所有版本控制逻辑以保持对旧API版本的支持。 - 监控和分析 -
确保各种利益相关者对企业的工业智能系统层的性能有深入的了解。可以查看使用最多的模型,整个系统的性能,每个模型的性能,用户或团队的使用情况等。
【 CyberCube™ — 工业智能模型研发平台 】
天泽智云经过三年的研发和实践打磨,对“建模-用模-管模”全流程进行整合与优化,实现了更加轻量化、不受使用环境制约、可以与工业互联网平台无缝对接的B/S版本产品 — 工业智能模型研发平台CyberCube™。
CyberCube™能够助力企业开启工业智能模型研发新模式,为企业跨部门的不同角色,如数据科学家、软件工程师、IT运维人员等提供统一的工具平台和运行管理环境,提升模型的研发效率、降低维护成本。工业智能模型研发平台CyberCube™具备以下功能和特点:
- 降低开发者建模分析的门槛,快速构建工业智能模型实现成果沉淀
工业智能模型的建立是依照行业特性,将工业数据进行挖掘分析与价值提炼的过程。算法科学家需要经过选算子、建流程,设接口等大量操作,才能建好一个模型。所以平台需要降低工业智能建模、挖掘分析体系的复用难度来降低建模门槛。
- 核心算法的快速复用:支持行业内成熟的健康评估、故障诊断、剩余寿命预测、供需预测等建模模板,工业大数据建模开发人员无需具备完整的模型代码开发能力,通过对模板中核心参数与配置进行更改,即可实现符合自身相似应用场景需求的模型建立,从而实现核心行业算法与挖掘方法的低门槛复用。
- 便捷的模型构建与运行:支持通过简易的交互方式实现模型数据接入、模型算法、模型运行配置、模型输出结果这一完整流程的定义与建立,一方面使整个模型搭建过程更加清晰明了,另一方面降低模型完整流程构建的门槛。
- 基于模型资产的开发能力。用户可以依据他人评价和模型运行质量统计选择合适的模型模板,通过调整参数进行简易开发,得到适用于自身应用场景的模型。基于模型资产的开发可极大程度降低建模的门槛,无论工业和机器学习领域的背景深浅,都可以很简单地训练和开发模型。
- 工程化的工业智能模型执行引擎,一键部署模型至生产环境
工业智能模型接入实际生产环境数据后,才能实现落地的数据价值提炼。模型建好后,还需要经过模型的封装、部署以及系统集成,是靠跨部门跨团队协作完成。
以数据驱动的工业智能系统,生产环境的真实数据与建模时的训练数据差异较大,但算法科学家与运维工程师也存在技术栈的差异,这些是阻碍工业智能系统交付的工程化问题。因此平台提供模型运行环境,与实际各类生产环境接轨,一键部署即实现模型的真实环境快速运行与迭代优化。
- 完整的模型运行流程构建。需要支持模型运行的数据源接入、源数据存储、模型运行、运行结果输出等功能,实现从原始数据到最终价值呈现的全流程快速构建,为智能应用与用户决策提供参考与指导。
- 模型运行的管理与调度。需要支持模型在运行过程中的管理、执行、调度与监控,通过对模型运行资源的合理分配和运行异常的实时响应,保证对工业智能应用的稳定提炼价值支撑。
- 多样的实施部署方式。模型的运行体系应当具备多样的部署形式和服务方式,针对不同企业的应用需求差异,采用系统部署、API接口、SaaS服务等多种形式进行应用支撑。
- 标准统一化的模型存储与管理规范,实现模型资产的有效积累、后续建模的参考与支撑
工业智能模型包含对应的算子、模型、训练结果、特征、依赖库等资产类型,不同版本内容提供了模型的开发、部署、监控等各个阶段的全面支撑。平台应具备完善体系化的管理机制实现模型资产的管理与复用,以实现工业制造智慧的真正传承。
- 资产的统一标准化存储体系。建立开发过程所需资产的存储体系,便于应用中按需进行快速查找与引用,极大提升模型开发的效率。
- 模型资产的生命周期管理能力。支持模型版本、模型提交、模型审核、模型部署、模型监控等完整一套的模型生命周期管理功能,通过模型生命周期的管理高效自动化地实现模型的维护,减少模型在使用过程中错误的发生概率,让算法科学家宝贵的精力集中到更具有价值的创新事务上。
综上,天泽智云自主研发的工业智能模型研发平台CyberCube™为企业客户提供可视化模型开发、模型服务环境以及模型资产管理三大优势能力,并用工程化的方法极大地提升企业在工业智能模型开发与管理的效率。
基于开放架构的CyberCube™作为工业智能领域的模型研发技术平台,将汇聚更多的工业智能资产与人才,打通更多的工业领域认知与经验共享,助力工业互联网产业建设并实现更多工业智能化场景。