2022/01/25 14:39

机器之心Pro原创

深度实测 | 10万次运行，探究AI技术融合为RPA火爆赛道带来的价值

2018 年，随着国外 RPA 厂商 Uipath 的崛起，投资者看到 RPA 与 AI 结合的巨大潜力，RPA 赛道迅速成为投资热点，中国也涌现出一批 RPA 创业公司，投资者、创业者纷纷入局。四年过去了，中国市场的 RPA 产品与 AI 技术结合的效果究竟如何？AI 技术对 RPA 产品升级换代有何贡献？机器之心联合多名业内资深技术专家共同完成业内 RPA 产品的首次深度评测。

RPA，全称机器人流程自动化技术。该技术可按照事先设定的流程，控制计算机完成鼠标点击、数据处理、跨软件操作等任务，已广泛应用于金融、电商、运营商、政务、物流、制造等众多行业领域，在财务、税务、人力、内审、法务、风控、客服、运营、IT 等劳动密集型场景取得了非常好的降本增效成果。据 IDC（国际数据公司）统计预测，2018-2023 年全球 RPA 市场规模将持续上涨， 2023 年达到 39 亿美元。而中国 RPA 市场规模则将以 64% 的年复合增长率扩张至 10.2 亿美元。

随着以深度学习为代表的新一轮 AI 技术升级并在越来越多领域内取得突破，RPA 通过结合自然语言处理、计算机视觉（cv) 等智能算法，在执行任务的复杂度、覆盖应用场景的广度也相应提升。

业内普遍认为，随着 AI 以及 SaaS 平台、大数据、物联网等技术的进一步发展，RPA 将从独立实现转向更广泛的嵌入数字流程模型。RPA+AI 的智能流程自动化被认为在下一个阶段将取代传统的业务流程外包，成为新型的业务流程外包形式。

通过与众多业内专家的访谈及各行业 RPA 用户的深入交流，机器之心了解到，衡量一款 RPA 产品不可或缺的核心能力，主要通过元素拾取（控制软件的能力）、稳定性、执行效率等。这是客户真正关注、看重并愿意为之付费的判断准则。

然而我们发现，大部分厂商对自身产品与 AI 融合的效果描述主要围绕 “AI 概念” 组件数量、“支持场景”数量等相对表面的维度，缺少 AI 技术对 RPA 产品核心三要素的影响情况陈述。这样的描述没有严格的数据支撑，亦无法解答研究小组试图探索的灵魂问题 ——

RPA 厂商在采用 AI 技术后，其产品的核心能力是否得到了提升？

在寻找答案的过程中，机器之心研究小组与技术专家就当前 RPA 行业遇到的障碍进行了深度探讨，并在多位业内 RPA 技术专家的支持下，决定对主流 RPA 厂商的社区版产品进行一次实验型研究，基于实测数据探索当前 RPA 产品在采用 AI 技术后的实操表现，以期用更深度的视角解析 AI 技术与 RPA 结合的发展之路。

建立评价指标

研究小组通过专家访谈，行业追踪等方法，汇总多方反馈，在相关 RPA 技术专家的协助下，设计了一套以客观角度衡量 RPA 三大核心能力的指标：界面控制能力要“准”、任务完成能力要“强”、软件运行效率要“快”，得到以下评价方案。

3 个评价维度

筛选评测对象

目前市场公开渠道中开放社区版本的 RPA 产品，主要有 Uipath、Uibot、云扩 RPA、阿里云 RPA、实在 RPA、影刀 RPA 等，我们取同一时期的软件版本，下载安装了五家主流厂商官网提供的社区版 RPA，历时月余，开发了相应的流程评测脚本（注：由于有些厂商未开放社区版或中途取消了试用功能，未加入最终评测）。

为公平起见，研究小组从软件库中筛选出最常用 100 款 windows 办公软件，随机抽取其中 18 款作为测试目标，针对所有厂商实现了一套包含近 700 个元素的识别控制、10 种常见业务流程任务的测试方案，在相同的 win10 系统环境下开展首轮测试。

18 个常见软件及运行环境

10 个常见业务流程及运行环境

计算指标权重

指标权重是指某一因素或指标相对于事物的重要程度。我们重点关注评价指标 “元素拾取成功率”、“流程执行完成率”、“流程运行速度” 对 RPA 产品的影响。采用定性方法进行指标权重赋值，往往说服力较差。基于定量和定性角度出发，项目组采用层次分析法进行指标权重的计算。该方法作为网络系统理论和多目标综合评价方法，主要应对一些较为复杂模糊的问题作出决策，特别适用于那些难以完全定量分析的问题。基本操作流程：首先建立结构模型（如下图所示），然后构造判断矩阵，对判断矩阵进行一致性检验，最终确定各个指标对 RPA 产品的权重 w1、w2、w3。

研究小组基于层次分析法，构造判断矩阵并通过一致性检验，求解出三个核心指标的权重分别为 w1=0.431，w2=0.325，w3=0.244。其详细理论依据和过程可参考评测报告原文。

评测过程及结果

研究小组在相同控制变量（运行环境、软件界面、流程任务、拾取方式等）下，进行两种模式的对比实验，即传统模式和智能模式。传统模式，指完全采用普通元素拾取的方式进行流程编辑和运行；智能模式，指在普通元素拾取基础上融入 CV 技术的智能拾取方式。

本次实验运行流程脚本总计 10 万余次，详细记录流程运行日志并保存到数据库。在剔除因运行环境、外界干扰等造成的异常数据后，对 5 家厂商的社区版 RPA 产品，基于三个维度所设定的统一指标进行数据分析。具体分析方法及相应结论如下 ——

一、界面控制能力

方法

通过指标 “元素拾取成功率” 评价“界面控制能力”。参与拾取元素测试图标 684 个；对传统模式下的元素拾取和融入 CV 技术后的拾取方式进行分别测试；人工进行元素拾取后保存元素库；开发拾取流程包，执行元素点击流程，记录是否成功、运行时间、系统参数等日志并存入数据库，剔除异常数据。元素拾取成功率评分 = 拾取元素成功个数 / 总元素个数 * 100，计算该项得分。

考虑不同环境下各厂商产品存在设计组件的差异，在评测时，采用完全相同的流程包设计框架且设置相同的延时时间。

得分

结论

在被测软件领域随机的模式下，各厂商的传统模式拾取能力得分普遍不高，AI 能力对元素拾取提升贡献突出。

解析

在被测软件领域随机的模式下，各厂商的传统模式拾取能力普遍不高，海外厂商受影响更大，显然主要通过 windows 底层能力实现拾取的厂商在跨领域软件控制上受到了很大的限制，传统拾取模式下，若某款软件底层架构无法解析，其元素即无法拾取，因此也无法完成最基础的组件功能。

智能模式下，拾取效果显著提升（平均提升高达：48.08%），说明传统 RPA 厂商和具备 AI 能力的厂商在这一项上的差异巨大！研究小组在测试过程中发现，虽然智能模式对 RPA 产品的拾取能力提升巨大，但是在细粒度小目标的精准识别上，如在拾取百度网盘、企微、千牛等软件元素时，偶有发生黏连、识别不到的情况，也有元素框选取不够准确的现象，显示各 RPA 厂商在 AI 能力上也有显著差异，本项测试评分最高的是实在智能的实在 RPA，在小目标识别的准确度、识别速度和使用便捷性上都让人感觉眼前一亮，该产品的拾取将 CV 识别和普通识别进行整合，直接在 CPU 环境中运行，可以自动切换模式，对用户无感，默认智能拾取方式，同时也提供了普通拾取模式，这大大减少了研究小组构建测试流程包需要在普通模式和 CV 模式之间来回切换构建流程的时间，也让小编少受了不少折磨。Uipath 的拾取能力在有了 CV 加持以后也得到了大幅提升，迅速回到了头部位置。

作为 RPA 产品的核心能力，主流 RPA 产品元素拾取能力，通过结合 CV 算法，一定程度上弥补了软件品类的限制，基本都达到商业可用的程度，体现了 AI 技术特别是底层模型构建和服务能力对 RPA 产品的重要贡献。随着 AI 技术的不断发展以及在 RPA 产品上的应用，未来 RPA 产品的核心竞争力，AI 能力必然是重要因素。

二、任务完成能力

方法

通过指标 “流程执行完成率” 评价“任务完成能力”。无报错运行一个任务流程包至结束视为成功一次，统计成功次数占比，数据归一化转为百分制，计算该项得分。由于不同厂商产品存在设计组件的差异，评测时采用完全相同的流程包设计框架，保持拾取方式一致，且设置相同的延时时间。

设计 10 个场景任务流程包；对于完全采用传统拾取模式可执行的任务，单独统计。
间歇性循环执行流程包任务，将是否成功、运行时间、系统参数等存入数据库。
评分公式：完成率 x = 成功运行流程数 / 流程运行总数，归一化采用最简洁的离差标准化即线性变换，映射至区间[80, 100]，分值映射公式为：y=80+(x-min)/(max-min)*20，其中 min=0.68，max=1.00，为归一化后数据边界最值，截取两位小数。由于传统拾取模式下只能完成全部流程任务的 70%，为保证评分客观性，传统模式下采用完成率乘以系数 0.7 的方式计算。

得分

结论

传统模式下，各厂商的任务完成能力无显著差异，且各厂商的任务完成能力普遍不高，但是智能模式与传统模式相比对任务完成能力提升明显。

解析

本评测模块，重点考察同环境下设定任务的完成能力。传统的拾取模式限制下，各家产品都存在一定的软件局限，某款软件元素不能识别，会直接导致流程无法操作，任务场景受限，失败率较高。

智能模式的 RPA 产品流程包，在无干扰 windows 系统环境下表现出色，任务完成能力评分均超过 98 分，平均提升 18.8%。本项稳定性测试表明，作为老牌厂商的 Uipath，其运行流程非常稳健。值得指出的是，本项指标看上去差异不大，但是在流程运行的绝对数量大幅提升和部署机器人数量巨大的情况下，各个厂商的服务和维护成本会体现出来巨大的差异。

任务完成能力，是客户对产品的最基本要求，也是机器人产品能力的核心体现之一。一方面，由于服务成本、流程失败等对客户影响较大，直接影响客户的采购和续费，从本项测试可见融入 AI 技术, 以及通过各种智能化手段提升 RPA 机器人运行的任务完成能力和稳定性是必然趋势，也对 RPA 厂商的 AI 能力提出更高要求。

本次评测采用干净完善无干扰的良好系统环境，得出的结果令人满意，大部分厂商表现良好，但在复杂噪音多系统下的任务遂行能力，还需进一步深度测试。

三、软件运行效率

方法

通过指标 “流程运行速度” 评价 “软件运行效率”。取前项实验数据，在流程包运行成功的前提下，统计单一流程包效率，累加后，经数据归一化转为百分制，计算该项得分。对每个产品，设第 i 个流程包用时秒，成功数量次，其运行效率值为。归一化仍采用线性变换，映射至区间[80, 100] 分值，分值映射公式为：y=80+(x-min)/(max-min)*20，其中 max = 0.07，min = 0.04 为归一化后数据边界最值，截取两位小数。

得分

结论

流程包在智能模式下运行，流程执行效率均略有下降。

解析

传统模式下流程运行，各家表现中规中矩；出现差异的重要原因在于智能模式下元素拾取的流程耗时差异。智能拾取的接入，对流程运行速度产生了一定影响，有平均 9% 的下降幅度。

不过我们在本次评测报告撰稿期间，发现实在智能发布了 6.0.0 最新版本，其中的融合拾取，体验下来拾取速度提升达 100%，其速度接近原生拾取，很遗憾由于评测工作量过于巨大及采样时间已经确定，新的版本不能加入本次评测，但实在 RPA 在本项评测的表现依然可圈可点。

RPA 的目标是辅助人类完成重复性劳动，未来的发展方向也必然是眼（拾取）手（执行）协调的进化。降本增效的刚需下必然对 RPA 机器人的执行速度有更高的要求，能用更少的机器人完成相同的工作，这直接关系到用户的成本。开发者对产品交互的反应速度要求，客户对执行速度的需求，使得轻量化 AI 模型成为大势所趋。用户普遍对更高效快捷的 RPA 产品充满期待。

四、综合能力评价

方法

上述三个核心指标加权求和，权重来源于前述层次分析法。

得分

结论

AI 技术加持，使得 RPA 软件在拾取精度、拾取能力、稳定性上有明显的提升，AI 自研能力强的厂商更占优势。

解析

通过三大核心指标直观比较，虽然融入智能技术导致流程的执行效率略有降低，但由于其他两个指标的大幅提升，总体 RPA 软件在工业场景上应用的可行性得到显著提升。相比传统模式的 RPA 产品，智能模式下综合评分平均提高近 23 分。从任务完成度 70% 这个数据看，任务场景的严苛限制，已经使得客户无法接受单纯传统模式的 RPA 产品。

从访谈反馈、操作体验、评测数据细节等综合来看，各家产品在功能、体验、面向客户等方面均有不同的特征体现，但在三大核心维度评测数据上，实在智能的实在 RPA 表现出众，由此我们认为 AI 实力雄厚且勇于创新的头部厂商更具商业化竞争力和产业化持久力，其“开创性的融合拾取技术、轻量化算法模型、加持 AI 能力的产品体验”，是本次评测独占鳌头的主要原因。当然，本测试为体现公平性及考察 RPA 软件的普适能力，采用随机选取软件的方式，可能会对部分专注某些领域内的 RPA 厂商的评测效果有所影响，比如 Uipath 的原生拾取由于受到部分国产软件无法拾取的影响，在普通拾取方面表现一般。

评测数据总表

本次评测结果令人欣喜。从评测结果可见，AI 与 RPA 技术的 “融合” 效果得到显著的体现，这与外界普遍认为的 AI+RPA 不同，二者产生了显性的化学反应。国内厂商将 AI 与 RPA 融合的创新尝试值得肯定，我们认为 AI 在 RPA 领域内的应用已经看到明显效果，并且未来会在众多垂直行业产生深刻的改变。

通过评测我们看到，软件的界面控制能力是甄别 RPA 产品最重要的评价指标，也是各 RPA 厂商比拼的核心要素之一，传统 RPA 产品通过底层技术（windows 底层控制 com）的方式识别和控制软件可操作的元素，受软件版本、技术组合、操作系统版本、系统接口差异等众多因素影响，拾取能力面临几乎无穷尽的问题需要解决，这明显是 RPA 行业的天花板之一。AI 技术的融入为 RPA 拓宽能力边界，为用户创造了 “凡是元素皆可拾取、没有软件不能操作” 的美好愿景。

欣喜同时，我们更有理由展望，RPA 与 AI 技术深度融合，向 IPA 发展是必然趋势，也是产业发展的良好方向。相信不久的将来，业内这些具有强大 AI 技术和创新能力的 RPA 厂商，会给我们带来更多更大的惊喜。

下一步工作

当前主流 RPA 产品都有较快的版本迭代，个别厂商甚至达到每周一次小迭代，每月一次大迭代的快速步伐，产品功能、体验、创新上都有大幅度甚至焕然一新的提升；项目组选取的是同时期各家厂商社区版产品进行评测，考虑到流程包兼容性、运行环境更替等，本次评测未进行版本更换。

未来，项目组将继续跟进主流 RPA 产品的更新迭代，通过深入调研渠道客户、社区开发者、相关厂商等，增进理解客户的真实需求，对核心维度进行拓展性的专项深度评测，例如针对复杂极端多样环境、专业小众软件操作、新旧版本、更多场景任务等的能力评价。

此外，项目组也在进一步筹备评测流程包及测试数据集的开源、开放事宜。作为 RPA 产品的首次深度评测，希望起到抛砖引玉的作用，在此，我们也邀请更多业内人士参与进来，构建并开放 AI 能力测试数据集，推动 RPA 厂商包括社区爱好者参与到 AI 能力打榜，充分发挥 AI 技术贡献，共同推动 AI 能力与 RPA 产品融合，促进 RPA 产业在良性竞争中健康发展。

评测结论仅代表本次评测环境下的结果体现。

参与方式：https://www.jiqizhixin.com/short_urls/e196963e-a461-41fb-9109-b8777249ac86

点击阅读原文，通过机器之心 Pro 获取完整测试报告。

产业实在RPA实在智能

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

阿里云机构

阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。 2014年，阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击，峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中，阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015，阿里云利用自研的分布式计算平台ODPS，377秒完成100TB数据排序，刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日，2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r

相关技术

机器学习计算机视觉

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/

相关技术

机器学习自然语言处理知识图谱

实在智能机构

实在智能是中国AI准独角兽和RPA行业头部企业，超自动化解决方案提供商。公司致力于通过全国产、全自研的AI技术与RPA产品，助力政府企业实现数字化改革和转型升级。公司总部位于杭州，拥有数百人研发队伍，是国家高新技术企业，通过全球软件成熟度最高级别认证CMMI-5。在北京、上海、广州、深圳、成都、南京、济南等地设有子公司和办事处，为全国客户提供一站式服务。

https://i-i.ai/

相关技术

机器人过程自动化多模态情感分析光学字符识别监督学习自然语言处理

量化技术

深度学习中的量化是指，用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

来源：Medium