案例 | 助力上汽安吉物流批量化迭代AI模型,让物流管理更智慧
近日,《2022爱分析·人工智能应用实践报告》选取了格物钛助力上汽安吉物流的案例作为企业智能化落地的领先实践。
面对客户在研发智能物流解决方案时非结构化数据集难管理、 模型开发流程割裂而效率低下等痛点,格物钛数据平台通过云端托管、版本管理、数据集分布可视化,让客户的模型精度提高30%以上;通过平台的自动化能力大幅缩短了客户模型迭代的周期,单次模型训练节约25%的人工成本。
客户痛点
非结构化数据集难管理、 模型开发流程割裂而效率低下
安吉智能是上汽安吉物流旗下专注于智能物流解决方案的服务商,业务覆盖上汽安吉物流内部的同时,也向汽车制造、机械电子、医药冷链、日化服装等行业企业提供相关技术服务。
对于物流行业,安全管理工作是重中之重。上汽安吉物流在全国范围内管理10个港口、300多个网点、5万多名员工,为了保障如此庞大的物流系统能够安全有序地运转,上汽安吉物流每年花费了上亿元用于雇佣了安保人员,但随着业务规模的扩大,过度依赖人力的传统安防模式已经无法满足发展需求。
针对物流行业安全管理中的痛点问题,安吉智能自主研发的“安眸智能视觉管理系统”,利用计算机视觉技术对港口、园区、仓库等物流业务场景中的核心元素“人员、货物、设备”进行识别和分析,并对出现的违反安全管理规范的问题及时提醒和采取相应措施,相较于在事后做出相应措施的传统安防,“安眸智能视觉管理系统”在危险发生之前进行预测监控,化被动为主动,有效的避免减少危险和损失。
由于计算机视觉模型通常只能对预先训练过的场景和物体进行识别,但是面对上汽安吉物流管理的10个港口、数百个网点、以及其对外服务的200多个客户不断提出的各异的功能需求,安吉智能的研发团队需要不断获取新的样本数据,并在不改变边缘算力的前提下,对AI模型进行不断的更新和运维。
因此,安吉智能需要解决AI模型频繁迭代过程中的多个工程化难题。例如,针对迁移学习时模型会产生旧数据遗忘的问题,安吉智能已经通过自研知识蒸馏、混合学习等技术让模型在学习新的数据特征后获得新的识别能力的同时,也保留原先的识别能力。但安吉智能仍然需要应对以下两点主要的问题:
1) 缺乏对非结构化数据集进行精细管理的能力。
安吉智能有大的图像数据集,但每个网点或客户提出新的功能需求时,其提供的图像数据的采集时间、采集目标、标注类别等信息都不一致,安吉智能需要将这些数据增补进原先的数据集中,记录数据集的层次结构,并形成不同的数据版本,从而用于模型误差分析和模型反复迭代。
然而之前基于文件夹的手动管理方式,不仅很难追踪过去版本的模型和数据集的对应关系,在上百甚至更多个网点和客户都提出需求时,其数据版本就很难以文件夹的形式进行管理。
2) 模型开发流程割裂,手动执行效率低下。
由于模型开发中数据的收集、筛选、标注,以及模型训练等流程都处于割裂的状态,安吉智能需要依靠算法开发人员层层把控,手动执行各种操作。当模型的迭代更新变得非常频繁时,这样的流程会非常耗时耗力,甚至无法完成。
解决方案
依托非结构化数据平台,保障模型迭代中的高质量数据供给和流程自动化
面对模型频繁迭代,以及由此带来的大幅增长的数据管理需求,安吉智能选择与格物钛智能科技进行合作,将格物钛的非结构化数据平台作为安眸系统研发中的AI基础设施组件之一,以解决其痛点需求。
针对非结构化数据集管理中的难题,格物钛为安吉智能提供了如下解决方案:
在云端对数据进行统一托管。安吉智能各个网点的数据都存储在云端,格物钛的数据管理平台全面托管了安吉智能的原始数据、标注数据和元信息。在平台的权限管理功能保障数据访问安全的前提下,安吉智能的团队可以在平台上方便地访问数据和进行团队协作。
数据版本可追溯。安吉智能每月或每周会在数据集内新增图片和物品类数据,通过格物钛数据平台,安吉智能在新增的数据上做标注,然后合并进原有数据集,并打上标签,从而形成新的标准化的数据集版本。算法工程师只需要根据标签就能找到需要的数据集版本,并比较各个数据集之间的差异。
数据集分布特征可视化。格物钛数据平台的可视化组件能让算法工程师从宏观层面查看数据集的特征分布,以及从微观层面查看单个文件和标注数据。安吉智能的算法工程师因此能够在模型训练前直接查看数据标注信息,也可以在模型训练后将预测结果作为一个数据版本,与人工标注的数据版本进行比较,从而判断模型效果和数据标注质量。
针对模型开发流程割裂、手动执行效率低下的问题,安吉智能通过使用格物钛非结构化数据平台的Action功能,并结合了一些自研算法,对数据收集、数据标注、模型训练等关键流程设置任务自动触发机制,并让整个流程实现自动化。
在数据收集阶段,安吉智能通过自研图像相似度和质量分析的算法,当发现符合要求的图像后自动在摄像头中进行抽帧并将图像上传至云端;在数据标注阶段,通过使用格物钛数据平台,当符合需要的图片数据达到一定量级后,平台自动触发数据标注任务,然后通过签约的数据标注公司在平台上对数据进行标注,再与原先的数据集进行合并。在模型训练阶段,当平台监测到数据标注完成形成新的数据版本后,会自动先进行模型训练,然后对更新后的模型的预测结果进行评估,识别预测效果不好的图片,并在平台上对数据标注实时地进行调整。
方案效果
模型精度提高30%以上,迭代周期大幅缩短,单次模型训练成本节约25%
首先,格物钛非结构化数据平台为安吉智能实现了模型开发中的高质量数据供给。借助平台的云端托管、版本管理、数据集分布可视化等功能,安吉智能解决了模型迭代中的多种数据痛点,减少了数据收集、数据准备和模型评估中大量手工操作,让算法工程师可以专注于用AI模型去解决业务问题,模型精度能因此能提高30%以上。
其次,平台的自动化能力大幅缩短了安吉智能模型迭代的周期,节约单模型训练的人工成本。安吉智能预期因此可以实现每周对模型进行一次迭代更新,从而上线新的识别功能,最终全年能上线50个识别功能,并且单次模型训练能节约25%的成本。
经验总结
格物钛助您精细管理非结构化数据
第1,以AI应用的复杂性,其在产业中落地的一大瓶颈通常在于数据的质量和匹配度。对于大部分传统企业而言,其数据量有限,研发能力也相对不足,如果把AI应用开发的重心放在改进算法上,效果往往并不如意。因此,传统企业在AI应用开发中应该把重点放在获得质量更好、匹配度更高的数据上,帮助提高模型效果,让AI应用更好地落地。
第2, 企业在AI模型开发或迭代频次较低时,其数据管理可以通过文件夹形式手动管理,但随着AI应用的加速落地,企业每年需要开发几十甚至更多个模型的时候,手动管理的方式将难以为继。此时企业应该选择标准化的工具对模型开发中需要的数据进行高效管理,从而保障模型的持续迭代和更新。同时考虑在流程中引入自动化能力,进一步缩短模型迭代周期。
更多信息请访问[格物钛官网](https://www.graviti.cn/?utm_source=jiqizhixin&utm_medium=social&utm_campaign=20220311-anjipr)