人机回圈(Human-in-the-loop,HITL)是人工智能的一个分支,它利用人类和机器智能来创建机器学习模型。从本质上讲,人机回圈将自动化的问题重新定义为了人机交互(Human-Computer Interaction,HCI)设计问题。本文选择了三篇不同领域的研究论文简述人机回圈的应用。
一直以来,人们致力于使用 AI、ML 实现各种流程或任务的自动化(Automation)。然而,人们总是忽略这样一个问题,即这种全面的自动化、由机器接管全部任务的方式意味着什么?例如,在我们考虑向制造业、汽车行业、一般分析或预测等数据处理行业中引入 AI 时,我们并不关心这些任务是如何完成的,我们总是关注引入智能模型后的结果(Product):一般用成本、速度、质量、安全等来衡量这些结果。我们并没有深入考虑过更深层次的问题:这一过程(Process)有什么意义?如果我们换一个角度来考虑 AI 的应用,并不是要把引入人工智能、机器学习的模型后实现自动化的目标看作是将人类从完成任务的过程中剔除出去,而是转变为使人类可以有选择的参与进去,即 Human-in-the-Loop learning,那会怎样?这种角度会不会能够实现一个既利用智能自动化的效率,又接受人类反馈的过程,同时使整个过程和结果都更有意义。人机回圈(Human-in-the-loop,HITL)是人工智能的一个分支,它利用人类和机器智能来创建机器学习模型。从本质上讲,人机回圈将自动化的问题重新定义为了人机交互(Human-Computer Interaction,HCI)设计问题。人机回圈将 「如何构建一个更智能的系统?」 的问题扩大到「如何将有用的、有意义的人机交互纳入系统中?」这种系统设计的目的是实现能够增强或提高人类完成任务的能力的交互式机器学习(Interactive Machine Learning),人机回圈作为一种工具通过智能地跟踪随时间的变化和中间结果,可以实现快速迭代、快速响应的反馈、内省和调试以及后台执行和自动化。由于机器学习模型性能的不可预测性,传统模型的开发依赖于反复的实验验证,这是一个循序渐进的过程。开发过程通常从简单的数据预处理和建模开始。然后,基于对结果模型的分析,开发人员增加新的数据资源、更新数据特征、修改模型的架构和参数、更改评估指标等以提高性能。人机回圈是指将这些训练、调优和测试任务中的每一项都集成到算法中,这样整个方法就变得更智能、更可信、更精确。特别的,当模型能够主动选择接下来需要学习的内容(类似于主动学习)并将这些数据发送给人类(完成标注或发出其它指令)进行训练时,这一点尤其有效。首先,它意味着整个系统透明度的显著提高。每一个包含人类互动的步骤都要求系统的设计能够被人类理解,以便采取下一个行动,并且在确定关键步骤必须保证人的主观能动性发挥作用。最终人类和人工智能共同承担任务,降低整个过程的隐蔽性。
其次,它有效引入了人类的判断。AI 系统的应用目的是帮助人类,因此,我们不能进从有效性、正确率这些角度去评价 AI 系统,而更应该考虑人类的倾向性和主观能动性。「Human-in-the-Loop learning」方法令人类能够在整个系统中的有关于决策的关键环节发挥作用。
第三,人机回圈的目标不再是构建一个「完美的」算法。通过引入人类的智力、判断和交互,整个 AI 系统的自动化过程不再致力于「使所有的问题一下子能够正确解决」。因为整个系统的工作过程是在人类的引导下完成的,系统只需要根据交互指令进行下一步的工作。
最后,人机回圈方法往往更加有效。与纯自动化或是纯手工的相比,「Human-in-the-Loop learning」方法的性能往往更优。在系统允许的情况下,人可以随时听从系统其他部分的指挥,而正确的人机交互则可以使系统从根本上更好地完成它所要做的事情。
实际上,机器学习中的其他一些方法也有一些思想与人机回圈是重叠的,例如强化学习(Reinforcement Learning)、主动学习(Active Learning)、迭代模型(Iterative Model),模型管理(Model Management),数据集版本化(Dataset Versioning)以及模型共享(Model Sharing)等等。不过,这些方法更多的是强调在单个 / 一次执行环境(流程)中进行优化,而不是迭代处理过程中的交互,即人机回圈中强调的Loop。目前,还没有关于人机回圈的典型定义和严格的方法界定。在 NeurIPS 2020 的 Workshop(Human in the loop dialogue systems Workshop)中,接收关于对话系统的人机回圈论文内容范围包括了:Online and offline reinforcement learning、Active learning 和 Visual and language learning。因此,涵盖训练过程中的人机交互、在经典方法中引入人类的辅助或反馈等方法都可以看做是人机回圈的实现。本文选择了三篇不同领域的研究论文简述人机回圈的应用。第一篇文章为哈佛大学约翰 ·A· 保尔森工程与应用科学学院(Harvard John A. Paulson School of Engineering and Applied and Sciences,SEAS)和威斯研究所(Wyss Institute for Biologically Inspired Engineering)的工作,具体介绍了一种能够快速设计定制化控制方案来制造柔性可穿的动力服的方法。通过引入人机回圈优化,能够根据人类反馈的生理信号指导算法进行参数优化,最终使得动力服能够在最优的情况下满足髋部的延展需求。
第二篇文章是人机回圈在人机对话领域中的应用,通过引入一个 teacher-student 对话数据集使得人机对话机器人能够根据环境具体反馈的情况进行不断学习和调整以改进对话效果。
第三篇为人机回圈在设计领域中的应用,在受试者观看图像时从原始信号中提取人脑 EEG 特征的编码器,然后根据编码后的脑电特征训练 GAN 模型生成设计图像,最后利用训练后的模型根据人在思考设计的认知过程中的脑电活动,生成设计图像。
一、Human-in-the-loop optimization of hip assistance with a soft exosuit during walking [3]可穿戴机器人设备 (Wearable Robotic Devices) 是一种直接穿在身上或是整合到用户的衣服或配件中的一种便携式设备。它可以通过软件支持以及数据交互、云端交互等实现强大的功能,进而会对人类生活、感知带来很大的转变。我们比较熟悉的手表类设备有 Apple Watch、三星 Galaxy Gear,以及各种智能手表、智能手环等。鞋类设备包括耐克智能运动鞋,眼镜类的有谷歌眼镜等等。本文重点关注的是辅助人类运动、降低行走时能量消耗的动力服。通常,可以通过模拟、生物力学测量或是根据平均反应进行手动调整等方式确定辅助策略。最近,使用肌肉骨骼模拟来设计控制策略在指导辅助跑步方面显示出了很好的性能。然而,个体之间生理和神经上的差异会导致同一个控制器在不同个体中产生不同的反应,也就是说,对于一个受试者来说的最优控制策略可能在另一个受试者上表现不佳。因此,虽然通用的肌肉骨骼模拟可以提供关于可穿戴设备的一般指导,但是在确定个性化辅助的系统参数时,可能更需要一个特定于受试者的模型。在辅助策略中,人机回圈(Human-in-loop,HIL)旨在通过实时测量人体生理信号(如代谢成本)来辅助策略的调整控制参数。这一思路来自于通过观察人类行走模式来将其扩展到可穿戴设备中,例如,人类在行走过程中是如何最小化步行代谢成本的。本文提出了一种实验方法来快速识别二维空间中的最佳控制参数以最小化步行的代谢成本(图 1)。这是通过使用贝叶斯优化来实现的,贝叶斯优化是一种有效的全局优化策略,非常适合于寻找目标函数的最小值。一名受试者者穿着一件柔性外衣裤(图 2A)进行髋关节伸展辅助行走。柔性外衣裤是一种基于纺织品的可穿戴设备,旨在让人体肌肉平行地在关节上施加力。辅助剖面由多个控制参数组成,这些参数通过优化迭代更新,并应用于具有导纳力控制的系链驱动系统。在此基础上,作者建立了优化算法,目标是最大化期望改进(Expected Improvement,EI)。算法利用高斯过程和下一次迭代的控制参数迭代估计受试者的代谢成本分布。在每次迭代中,通过将一阶动态模型拟合到 2 分钟的瞬时代谢数据来估计代谢成本。经过一系列迭代后,与代谢图景(Metabolic Landscape),即代谢成本分布的平均值,的最小值对应的控制参数为最优值。图 1. HIL-Bayesian 优化实验装置。采用贝叶斯优化方法调整辅助装置的控制参数,使步行的代谢成本最小化。根据呼吸测量估计代谢率,并用于计算代谢率相对于自由对照参数的后验分布。后验曲线最初是通过评估 6 个预先确定的控制参数生成的。在给定当前迭代的后验条件下,选择具有最大 EI 的控制参数,并将其应用于可穿戴设备中。这个过程反复进行,直到收敛。在这一过程中,配置的力剖面通过一个带系链驱动系统的软髋外衣裤传递如图 2B,髋关节辅助曲线是两个半正弦曲线在峰值处连接的组合。该轮廓由两个固定参数(峰值力和起始时间)和两个自由参数(峰值时间和偏移时间)定义,这些参数通过优化方法进行调整。作者将峰值力量固定为体重 30% 的数值,以确保在长时间步行测试期间的舒适度,同时仍保持足够高的辅助力以减少代谢。前期研究显示,较高的辅助量对髋关节和踝关节都有更大的代谢益处,另外,在接近最大髋关节屈曲的情况下最大的新陈代谢减少。作者据此确定了最大髋关节屈曲事件的起始时间(Onset Timing)。此外,作者发现,当改变起始时间时,参与者体内代谢成本的可变性较小,信噪比较低。在本研究中,作者使用最大髋关节屈曲事件定义步态周期的开始。在这个新定义的步态周期中,峰值和偏移时间分别在 15% 到 40% 和 30% 到 55% 之间。值得注意的是,最大髋关节屈曲事件平均为传统步态周期的 86.2%。偏移时间(Offset Timing)被限制为比峰值定时晚至少 15%。峰值和偏移时间的范围和限制(图 2C)是通过稍微扩大生物髋关节伸展力矩的平均范围,同时考虑到柔性外衣裤能够实现的助推速度的限制来选择的。图 2. 柔性外衣裤和辅助髋关节力量剖面。(A) 臀部柔软的外衣裤。髋关节伸展力矩是通过拉动内部缆绳在两个锚点之间产生张力而产生的。(B) 髋关节力剖面参数化。髋关节力剖面确定为两个参数化正弦曲线在峰值处连接的组合。最大力设定为体重的 30%,起效时间固定为最大髋关节屈曲时间。通过优化来主动调整峰值和偏移时间,以确定力剖面的形状作为步态百分比的函数。带阴影的紫色和蓝色条分别表示峰值和偏移计时的范围。(C) 可行性髋关节力剖面图示例本文对 8 名受试者进行了为期一天的实验,优化了他们在跑步机上以 1.25 ms^−1 的速度行走时的辅助时间。实验完成了 6 次迭代(6 对峰值和偏移时间)优化初始化,并完成 14 次迭代进行优化调整。优化后,作者通过验证实验确定了优化过程中找到的最佳条件,并将优化条件和验证实验与不适用条件进行了比较。本次实验是没有进行先期训练的单日测试。为了尽量减少适应性的影响,实验共招募了 8 名受试者,他们之前至少有两次穿着可穿戴设备外衣裤行走的经历。受试者戴着呼吸测量装置,以 1.25 ms^−1 的速度在跑步机上无负荷行走。选择这些条件是为了减轻长时间步行和恒定步行速度带来的疲劳影响。每个受试者都经历了五个状态阶段:(i)5 分钟安静站立状态,(ii)5 分钟无适应性状态,(iii)40 分钟的优化条件,穿插两个 3 分钟的热身期和 5 分钟的休息期,(iv)5 分钟的最佳时间验证条件,(v)5 分钟无适应性状态。两个热身阶段都是辅助步行,其中的辅助概要信息在优化条件的后续迭代中使用。在无适应性状态下,受试者穿着一条普通的裤子(质量,715g),这条裤子用于评估在主动协助下行走和穿着正常衣服行走的代谢区别。在优化条件下,除休息时间外,所有状态阶段之间都给出了休息时间。考虑到步行时间相对较长(61 分钟),在研究方案的开始和结束时分别设计了两个无适应性状态,作为对受试者报告的疲劳状态的目视检查。8 名健康成年男性参加了本研究。这项研究得到了哈佛大学朗伍德医学区机构评审委员会(Harvard Longwood Medical Area Institutional Review Board)的批准,所有方法都是按照批准的研究方案进行的。同时,向所有受试者在参与之前,以及向其解释研究的性质和可能的后果之后都提供了书面知情同意书。在这项研究中使用的柔性外衣裤是专为帮助髋关节伸展而设计的。臀部外衣裤的纺织部件包括一个氨纶基层(重量,181g)、一个腰带(重量,275g)、两个大腿支撑(重量,2×69g)和两个用于安装惯性测量装置(IMUs;重量,2×13g)的弹性带(重量,2×46g)。鲍登线(Bowden Cable)和传感器导线,包括每个支腿的可膨胀编织电缆套管(重量,2×328 g)系在一起,并连接到驱动平台。受试者支撑着鲍登线总重量的一半。中等尺寸衣服的所有纺织部件以及鲍登线重量的一半加在一起总重量为 0.859 kg。采用带有两个模块化执行器的栓系驱动系统来生成辅助力。每个执行器包括一个定制的无框架无刷电机,一个定制的螺旋齿轮组,一个直径为 90 mm 的滑轮和其他支撑结构。鲍登线用于将力从执行器传递到髋部关节。执行器侧,连接到皮带轮盖框架的鲍登线护套和连接到皮带轮的内部。外衣裤侧,鲍登线护套连接到腰带底部的锚点,内部线缆连接到大腿片顶部的锚点。当执行器缩回时,两个锚点之间的距离缩短,产生一个力来协助髋关节伸展。两个惯性测量单元(Inertial Measurement Unit,IMU)连接在每只大腿的前部,检测到最大的大腿弯曲角度来分割步幅。使用两个连续最大髋关节屈曲事件之间的时间作为步幅时间。通过使用前两个状态阶段测量得到的平均步幅时间,为后续每个步幅确定缩放处理后的参考力剖面。实际力信号由两个称重传感器(LSB200,FUTEK Advanced Sensor Technology)测量,每个传感器都与腿部的鲍登线相连接。结合安装在定制无刷电机背面的编码器(AS5134,Ams)测量的执行器位置信号,实现了一种具有前馈模型的导纳控制器来跟踪力分布。式中,Z(s)表示测量的代谢代价,R(s)表示频域中的瞬时代谢代价 f^inst,H(s)为时间常数τ=42s 的一阶动态模型 H(s)=1/(τs+1)。离散时间域中,公式 (1) 可写作:式中,i 表示测量的呼吸次数,dt(i)表示第 i 次和第 (i+1) 次呼吸之间的持续时间。在测量得到 z 和 dt 的值 2 分钟后,首先计算最后一个条件下瞬时代谢率的变化,然后用最小二乘法最小化模型估计值与测量值之间的误差,从而得到 f^inst。贝叶斯优化是一种高效的全局优化方法,特别适合于优化计算代价较高的未知目标函数。本文通过评估六次迭代的瞬时代谢成本 f^inst,并从平均间隔时间间隔中随机选择不同的预设峰值和偏移时间对来初始化优化过程。初始化评估后,优化过程使用高斯过程计算代谢图景 f(x),其中参数 x=[xp, xo]表征峰值和偏移时间。得到代谢图景后下一个采样时间是通过最大化 EI 来确定的。将新采样时间的代谢率加入到数据集中,再次细化代谢图景,以确定下一个采样时间。这个过程重复了 14 次。因此,优化过程中总共有 20 次迭代,其中,还包括 6 次初始化迭代。使用高斯过程表征代谢图景,使用零均值和各向异性指数平方核作为协方差函数:其中,σ^2 表示代谢率(信号)方差,M 是由峰值和偏移时间的长度尺度参数 l_1 和 l_2 组成的对角矩阵。信号方差捕获了代价函数变化的总体大小,长度尺度捕获了代谢率对峰值和偏移时间变化的敏感性。假设代谢代价有一个加性的、独立同分布的噪声,样本可以表示为:其中,(σ_noise)^2 表示噪声方差。给定高斯过程和数据集 D,后验代谢代价分布(f_)^inst 计算为:优化超参θ=[σ l_1 l_2 σ_noise],每次迭代通过最大化 log 边际概率来实现。峰值和偏移时间 xp、xo 是通过在先前评估的最佳时间内最大限度地降低代谢成本 (f_best - (f_)^inst , 0) 来计算的。EI 用于在预测最小值和高不确定性之间保持平衡,EI 计算方式如下:在每次迭代中,通过最大化 EI 来确定下一个采样时间,同时强制要求偏移时间至少比峰值时间晚 15%,即 xo−xp≥15%。在整个研究过程中收集了受试者的呼吸数据。从安静站立、第一次无适应状态、验证和第二次无适应状态的情况下,根据最后 2 分钟的二氧化碳和氧气速率,使用修正的布罗克韦方程(Brockway Equation)计算代谢率。对于优化过程,还收集了每个 2 分钟测量周期的瞬时代谢估计值。净代谢率和净代谢图景是通过减去安静的站立代谢率,然后根据每个参与者的体重进行标准化处理后得到的。通过从第二个无适应状态的净代谢率中减去验证条件的净代谢率,然后将结果除以第二个无适应状态的净代谢率,得到验证条件的代谢还原。选择第二个无适应状态来比较代谢还原,因为它是最接近验证条件的无适应状态。使用同样的计算方法,将验证条件的净代谢率替换为优化产生的净代谢图景中的最小值,从而获得最佳条件的代谢还原。一名受试者的数据未被纳入最终的代谢分析,因为该名受试者在实验期间报告其处于疲劳状态,他的第二种无适应状态的净代谢率比第一种无适应状态增加了 32.4%。针对受试者的最佳辅助通过将最佳和验证条件下的步行净代谢代价从无适应状态的 2.75±0.18W kg^-1 分别降低至 2.26±0.13 W kg^−1 和 2.27±0.18 W kg^−1(平均值 ±SEM)来实现。验证条件下的净代谢减少在 6.7% 至 33.9% 之间,平均减少 17.4±3.2%(平均值 ±SEM;配对 t 检验,P=0.003;如图 3A 所示)。受试者特定的最佳峰值和偏移时间分布在控制参数的大约一半的可行区域的范围中(图 3B 所示)。大多数最佳时间都在参数范围的边界上,三个受试者在最新的峰值和偏移时间上分别达到了最优值。对于验证条件,平均传递峰值力为 215.6±10.1 N(2.84±0.02 N kg-1,平均值 ±SEM)。验证条件下最优辅助力跟踪的平均均方误差为 4.1%。为了清楚地表示,图 4C 中只示出了三个具有代表性的最佳力跟踪样本,它们具有与验证条件最大不同的最佳时间。受试者特定代谢情况(图 4,A 到 C)进一步说明了受试者之间在时间安排方面的可变性。通过后验高斯过程来表征的受试者的代谢图景,显示出明显的视觉差异。为了定量总结受试者代谢环境之间的差异,作者根据每个受试者的后验图景计算出每个受试者最优参数能够降低其他受试者代谢成本的概率(图 4,D 到 F)。这项分析表明,一般来说,一个受试者的最佳峰值和偏移时间可能是另一个受试者的次优选择。图 3. 实验结果。(A) 每种情况下的净代谢率。最佳:后验分布(代谢图景)的最小平均值。验证:优化辅助下步行 5 分钟的代谢率。无适应状态:穿着普通裤子步行 5 分钟的新陈代谢率。条块表示平均值,误差条块表示 SEM,星号表示统计显著性。(B) 所有受试者的可行参数区域和最佳时间值。在同一时间段,受试者给出了最新的三个最佳时间。(C) 参与者 3、4 和 6 的最佳辅助力量配置。虚线和实线是参考力和测得的力,按体重标准化,在验证条件的最后一分钟内平均跨过 10 步。在本研究中,最大髋关节屈曲事件被用来初始化步态周期除本文给出的示例外,HITL 有希望提高可穿戴机器人设备在各种任务中的性能。本文所提出的方法证明了该可穿戴设备能够实质性的减少人体代谢,并提出了使用低维控制参数化优化可穿戴设备的可能性。本文利用有噪声的呼吸信号作为优化的目标函数,然而,还可以考虑引入其他生理或生物信号,如利用运动对称性优化中风后患者的可穿戴设备,或使用平衡相关测量值优化假体等。此外,实验中受试者特定的代谢环境和改善概率图景显示了受试者之间的显著差异,并表明受试者特定的最佳时间能够获得最大化代谢减少的最高概率,这也进一步突出了个体化处理的益处。二、Dialogue Learning With Human-In-The-Loop [4]一个好的对话智能体(Agency)(有时也称之为学习者 (Learner) 或机器人(Bot))应该具有根据教师的在线反馈进行学习的能力:在发现出现错误时调整其模型,而在接收到积极反馈时进一步加强其模型。在应用发布之前,机器人都是在一个固定的特定领域或预先构建的数据库上接受有监督的训练而得到的。应用发布后,机器人将会暴露在不同的环境使用中,例如,与真实人类进行交谈时,自然语言的使用会更加多样化。目前,大量的研究主要集中在如何基于固定的标签数据库训练机器人,而关于机器人如何通过与人类的在线互动来改进模型的研究则很少。实际上,人类是通过交流来学习语言的,而不是从固定的标签数据库中进行学习的。这一点对于改进对话机器人的性能是非常重要的。本文重点研究如何通过与教师的在线互动改进对话机器人。该任务是在强化学习的一般框架下来实现的。对话是在问答任务的背景下进行的,机器人必须回答老师的一组问题,无论是简短的故事还是一组事实。作者考虑两种类型的反馈:在传统强化学习中显式的数字奖励反馈,以及在人类对话中更自然的文本反馈。此外,作者考虑两个在线场景:(i)任务是用对话模拟器构建的,这样可以方便地分析和重复实验;以及(ii)教师是使用 Amazon Mechanical Turk 的真人。作者探讨了在线学习中涉及的重要问题,例如如何使用最少的教师反馈来最有效地训练机器人,机器人如何利用不同类型的反馈信号,如何通过数据平衡和探索避免在线学习过程中的不稳定性等问题,以及如何通过数据批处理使向真实人类的学习成为可能。本文使用端到端记忆网络(the End-to-End Memory Network,MemN2N)模型的变体作为从对话中学习模型的底层架构[5]。MemN2N 的输入是对话历史 x 的最后一句话,以及一组记忆(上下文)C=c_1, c_2, …, c_N。记忆 C 用于编码生成短期记忆,例如机器人和教师之间的对话历史,以及长期记忆,例如机器人可以访问的知识库事实。给定输入 x 和 C,目标是生成输出 / 标签 a。第一步,将查询 x 转换成向量表示 u_0,方法是将其组成词的嵌入量相加:u_0=Ax。输入 x 是词袋向量,A 是 d x V 维度的词嵌入矩阵,其中 d 表示嵌入维度,V 表示词汇量大小。每个内存 c_i 也类似地转换为向量 m_i。模型通过比较输入表示 u_0 和使用 softmax 权重的存储器向量 m_i 从存储器读取信息:这个过程选择与最后一个语句 x 相关的记忆,即(p_i)^1 值较大的记忆。返回的存储向量 o_1 是存储向量的加权和。可以重复该过程来查询存储器 N 次(所谓的「跳(hops)」),方法是将 o_n 附加到原始输入后面 u_1=o_1+u_0,或是将 o_n 附加到前一个状态的后面 u_n=o_n+u_n-1,然后使用 u_n 再次查询存储器。最后,将 u_N 输入到 softmax 函数以进行最终预测:如果答案是一个单词,那么 y_i 就是对应的单词嵌入。如果答案是一个句子,则 y_i 就是句子的嵌入,这与获得查询 x 和内存 C 的嵌入方法相同。MemN2N 的标准方法是基于已知的输入输出对的交叉熵准则训练的,即监督学习或模拟学习。由于本文工作是在强化学习框架中实现的,本文模型必须能够进行预测从而学习。本文的学习设置可以作为强化学习的一种特殊形式。该策略采用 MemN2N 模型实现。状态(State)是对话的历史。动作(Action)空间对应于 MemN2N 选择答案的数据集。在本文的设置中,策略只为每个事件选择一个操作:奖励为 1(机器人答对时教师给出的奖励),否则为 0。在处理真实的人类对话时,例如通过 Mechanical Turk 收集数据,设置一个任务更容易,即可以部署一个机器人来响应大量的语句。不过这种部署方式难以管理和扩展,因为它需要在与每个人交互的模型副本之间进行某种形式的同步。这与现实世界中的情况类似,教师既可以问学生一个问题然后立即给出反馈,也可以设置一个包含许多问题的测试,并同时对所有问题进行评分。只有在学生完成所有问题后,才能得到老师的反馈。作者使用批次大小(Batch Size)来表示在更新参数之前,当前模型用于收集反馈的对话片段数。在强化学习文献中,批次大小与离线(off-policy)策略学习相关,因为 MemN2N 策略是使用收集到的过时模型的片段来训练的。本文考虑两种策略:(i)在线批次大小(online batch size),即在对每个批次执行一次传递后更新目标策略(批次大小为 1 时将恢复为通常的在线策略学习);和(ii)数据集大小的批次(dataset-sized batch),即训练在数据集大小的批次上继续收敛,然后目标策略是用新模型更新,然后给出一个新的批处理并迭代该过程。2.1.2.1 基于奖励的模仿(REWARD-BASED IMITATION,RBI))RBI 依赖于教师提供的积极奖励,该方法训练模型来模仿学习者给出的正确行为(对话语句的正确答案)。该方法通过使用一个 MemN2N 来实现,MemN2N 将输入的对话映射到一个预测中。为了满足在在线学习的应用场景中找到正确答案的需求,本文采用ε- 贪婪策略:学习者以 1-ε的概率使用自己的模型(概率最高的答案)进行预测,否则它会以概率ε随机抽取一个答案。如果答案正确,教师将给予 + 1 的奖励,否则奖励为 0。机器人将学习模仿正确的答案:预测正确的答案,而忽略错误的答案。本文使用的第二种学习算法是增强算法,它最大化了一个 episode 的累积期望奖励,在本文例子中,由教师提供期望奖励。通过从模型分布中抽样一个答案来近似估计期望值。令 a 表示学习者给出的答案,p(a)表示当前模型分配给 a 的概率,r 表示教师的奖励,J(θ)表示奖励的期望,则有下式:其中,b 为基线值。使用线性回归模型估计得到 b,该模型将最后一跳后的存储器网络的输出作为输入,模型输出则为表征对未来奖励估计的 b。基线模型通过最小化估计奖励 b 和实际奖励 r 之间的均方损失 ||r-b||^2 进行训练。RBI 和 REINFORCE 的主要区别在于:(i)在 RBI 中,学习者只尝试模仿正确的行为,而在 REINFORCE 中,学习者也利用了不正确的行为进行学习;(ii)在 RBI 中,学习者使用ε- 贪婪策略,而在 REINFORCE 中,学习者使用的是模型自身产生的行为分布。2.1.2.3 前向预测(FORWARD PREDICTION,FP)FP 处理的是机器人答案奖励未知的情况,这意味着学习者说话后没有 + 1 或 0 标签。相反,该模型假设教师以对话语句的形式对机器人的答案给出文本形式的反馈 t,而模型则试图预测该文本反馈 t。假设 x 表示教师的问题,C=c_1, c_2, …, c_N 表示对话历史。在 FP 中,该模型首先利用多跳记忆网络将教师的初始问题 x 和对话历史 C 映射到向量表示 u。然后,模型将对 A 中所有可能的学生答案进行另一跳关注处理,同时添加包含对话中实际选择的候选人(例如 a)的信息:其中,y_(a^)表示学习者候选回答 a^ 的向量表示。β为表示学习者选择的实际动作 a 的 d 维向量。然后令 o 与 u 结合使用 softmax 预测教师的反馈 t:其中 x_ri 表示第 i 个响应的嵌入。在在线学习的环境中,教师给出文本反馈,学习者使用反馈更新其模型。针对在线学习场景,本文考虑两种扩展:ε- 贪婪探索:学生给出随机答案的概率为ε,学生给出其模型分配最大概率的答案的概率为 1-ε。这种方法使模型能够探索行为空间并发现潜在的正确答案。
数据平衡:将教师给出的回答集中在一起,然后在不同的聚类之间进行平衡训练。这是一种经验重演的方法,不过其采样是均匀分布的。例如,如果模型没有接收到足够的正反馈和负反馈,或是一个类过度占据主导地位,那么整个学习过程会退化为一个不管输入是什么、总是预测相同输出的模型。
作者建立了一个模拟器作为学习算法的实验平台。模拟器使用两个已有数据库用于在线学习的实验:(i)bAbI 数据库,该数据库包含 1000 个穿插入问题的模拟世界的短篇故事 [7];(ii)WikiMovies 数据库,该数据库基于开放电影数据库(OMDb)中的问题和答案构建,由超过 75k 个实体的大约 100k 个(模板化)问题组成 [7]。本文实验遵循如下设定:教师的反馈可以是文本反馈,也可以是数字奖励,或者两者都有,具体取决于任务的情况。对于每个数据库,共有 10 个任务,本文实验只考虑任务 6「部分反馈(partial feedback)」:当机器人回答正确时,教师会给出正面的文本反馈(对应 6 个可能的模板),并且只有 50% 的时间给予正面奖励。当机器人出错时,教师会给出包含答案的文本反馈。样本对话示例见图 4。与最初的实验设置不同[8],本文的模型训练是基于飞行模式的(on-the-fly)。在收到反馈和 / 或奖励后,更新模型(策略),然后将其部署到下一次或下一批任务中收集教师的反馈。这意味着模型的策略会影响用于训练它的数据,而在以前的工作中则不是这样的。图 4. bAbI(左)和 WikiMovies(右)的模拟器对话样本,教师的对话是黑色的,机器人的回答是红色的,(+)表示获得正面奖励最后,作者使用 Mechanical Turk 对 WikiMovies 进行了扩展,即使用真正的人类教师给出反馈,而不是使用模拟器生成反馈(https://github.com/facebook/MemNN/tree/master/HITL.)。实验中只有一个任务:向教师给出指示,让他们在他们认为合适的时候给予反馈。一般来说,每个独立的回答都包含反馈,比如(i)肯定句或否定句;(ii)包含答案的短语,(iii)提示,类似于模拟器中定义的设置。当然,人类给出的反馈并不是能够这样简单进行分类的,实际上人类反馈语言的词汇变异性要比这个大的多。具体的数据样本示例如图 5 所示。图 5. 使用 Mechanical Turk 的人类对话(基于 WikiMovies),人类教师的对话是黑色的,机器人是红色的,图中给出机器人正确回答(左)和错误回答(右)的示例首先,作者在不同批量大小、随机探索率和模型类型的情况下进行实验。图 6 和图 7 分别给出了 bAbI 和 WikiMovies 的结果(任务 6)。由实验结果可得出如下结论:一般情况下,RBI 和 FP 在强化学习环境下工作,但在随机探索下表现更好;如果没有附加探索的步骤,RBI 可能会陷入失败。即,RBI 需要探索有标记数据的随机噪声,否则它可能会预测得到一个标签子集而最终失败;在最优的情况下,REINFORCE 与最优探索概率为ε的 RBI 具有相似的性能;采用平衡或概率为ε的探索处理的 FP 均优于单独的 FP;对于 RBI 和 FP,性能在很大程度上与在线批处理大小是无关的。图 6. bAbI(任务 6)不同探索概率ε和批量大小的训练周期与测试准确度数据。随机探索对于基于奖励的(RBI)和正向预测(FP)都很重要。性能在很大程度上与批量大小无关,RBI 的性能与 REINFORCE 类似。在有监督的情况下,而不是强化学习,使用黄金标准标签可以实现 100% 的预测准确率。图 7. WikiMovies 中实验结果,训练时间与任务 6 测试准确度的比较,RBI 的探索概率为ε批次大小为 32(左上角面板),FP(右上角面板),RBI 的批次大小设置(左下角),RBI 的批次大小与 RBI、REINFORCE 和探索概率为ε=0.5 的 FP 的比较(右下角)。该模型对批次大小的选择具有鲁棒性。RBI 与 REINFORCE 表现相当。在有监督的情况下,而不是强化学习,使用黄金标准标签可以实现 80% 的预测准确率本文实验中使用 Turkers 来提问,然后对机器人的答案给出文本反馈。首先使用有监督的(即模仿)学习方法训练一个由 Turkers 提出的 1000 个问题的训练数据库,同时使用原始数据库提供的已知正确答案(无文本反馈)。接下来,使用经过训练的策略又收集了机器人对另外 10000 个问题的文本反馈。作者在这个数据库中比较了各种模型:RBI、FP 和 FP+RBI。当已知附加问题的正确答案时,可以给机器人正确回答的问题分配一个正向奖励。这些模型是在一个测试数据库中测试的,共有 8000 个问题(由 Turkers 制作),在一个相似大小的验证库上调整超参数。由于使用了来自 Turkers 的自然语言,导致这是一个比模拟器中的 WikiMovies 任务更难的任务,因此预期测试性能会更低。具体实验结果见表 1。实验结果表明 RBI 和 FP 都是有效的。当存在稀疏奖励时,FP 仍然能够通过文本反馈工作,而 RBI 只能在 r=0 时使用前 1000 个样本示例进行工作。由于 FP 根本不使用数字奖励,所以它对参数 r 是具有不变性的。FP 和 RBI 的组合结果优于单独使用 FP 和 RBI。表 1. 通过 Turkers 引入来自人类的反馈。为 10000 个模型预测提供文本反馈以及额外的稀疏二进制奖励。FP 和 RBI 的效果都很好,而 FP+RBI 的效果最优本文研究了使用文本反馈和数字奖励的端到端模型的对话学习。考虑到学习算法中可能存在的不稳定性,完全在线和迭代批处理都是可行的策略学习方法。其次,作者首次证明了 FP 方法可以在在线设置和真实的人类反馈中工作。总的来说,本文实验结果表明,从初始的固定数据库训练模型开始,然后以(半)在线的方式学习与人类的交互来改进模型的方法是可行的。而这个过程就是人机回圈(Human-in-the-Loop)学习。作者认为,未来的研究方向应该致力于在无止境(never-ending)的学习环境中实现上述过程。三、human-in-the-loop design with machine learning [6]自动生成带有个人偏好的设计一直是设计领域的一个持续挑战。在时装、家具设计等场景中,引入深度学习方法可以带有某些随机因素的生成图像作为设计的结果。例如,图像风格转换利用原始内容和风格特征生成图像。生成性仿生学设计则采用对抗性学习方法来生成包含设计目标和生物源特征的图像。然而,这些生成方法并没有考虑人的因素,即随机生成的图像结果并没有引入人类的认知。设计领域是一种与人高度相关的行业,在设计过程中考虑人的因素对设计至关重要。一个人对一个设计的偏好可以是很直观的,但是有时候个人可能也不知道真正的偏好是什么。因此,能够在图像生成过程中捕捉人类的偏好以生成与偏好相对应的图像可以显著改进 AI 辅助生成的设计。神经科学的最新进展,特别是基于深度学习方法的大脑解码,显示了利用脑电图(Electroencephalogram,EEG)、功能磁共振成像(Functional Magnetic Resonance Imaging,FMRI)和近红外光谱(Near-Infrared Spectroscopy,NIRS)等脑活动重建可见或想象中的图像具有巨大的应用潜力。这也为本文提出的人机回圈智能设计方法奠定了基础。本文尝试将人类认知加入到以深度学习为基础的设计过程中,以生成符合个人喜好的设计影像。人类的认知涉及许多因素,本文只探讨人类对潜在风格的认知偏好。作者提出了一种人机回圈智能设计方法:采用 EEG 脑信号条件在 GAN 框架中进行设计,以重构认知视觉相关的设计风格。图 8 为该方法的详细流程:本文研究重点是如何将人的认知融入到随机的人工智能设计过程中,从而生成具有人类偏好的设计影像。人类的认知是通过测量脑电信号 EEG 来捕捉的。该过程包括两个阶段:一个是学习生成函数的训练阶段:G_BD:B→D,该函数用于将脑电测量到的脑活动 B 映射到相应的设计图像 D;另一个是设计阶段,利用学习到的生成函数和特定的脑信号生成一个涉及人类偏好的产品。在训练阶段,当受试者观看设计的「真实」图像时,记录其脑电图信号。随后,基于 LSTM 的脑电编码器将脑信号 B_i 编码到与所见图像的设计语义相关的 EEG 特征中。将脑电特征作为生成条件嵌入到基于 GAN 的生成器中,生成模型重构出与原始图像具有相同设计语义的图像 D_i。在设计阶段,要求受试者想象一个他们喜欢的产品或设计的例子,然后将测量到的可能包含受试者偏好的设计特征的 EEG 信号编码输入到训练得到的生成器中。生成器生成包含与受试者想象相对应的设计特征的样本设计。图 9 给出了训练 EEG 编码器和图像生成器的过程。本文利用长短期记忆(LSTM)网络来跟踪脑电数据的时间动态变化情况,这些数据包含了脑电活动理解的基本信息。图 10 给出了本文使用的 EEG 特征编码器的结构。该编码器由一个标准的 LSTM 层和两个全连接层(输入的线性组合,然后是 ReLU 非线性)组成。在每个时刻 t,将时刻 t 的所有 EEG 信道的数据输入 LSTM 层,最后一个时刻 LSTM 层的输出作为全连接层的输入,ReLU 被附加在第一个全连接层之后,一个 Softmax 层被附加在最后一个全连接层之后。初始化学习率为 0.0001,并使用梯度下降法对模型参数进行端到端学习。将数据库分成 3 组:80% 的脑电数据用于训练,10% 的脑电数据用于验证,以及 10% 的脑电数据用于测试。生成网络采用的是 ACGAN 架构。它基于输入的特征向量生成图像,并且能够根据特定类别生成图像。该生成器由 5 个上采样层组成。首先,输入 64 维 EEG 特征和随机高斯噪声的 EEG 表示。然后,在第一个转置卷积层中对输入向量进行四次上采样,输出 512 个特征映射。再然后,在后续每个转置卷积层之后,将一半数量的特征映射和特征映射的大小进行翻倍。最后,得到具有三个彩色通道的 64x64 像素图像的最终输出。在每个转置卷积层之后添加批标准化处理和 LeakyReLU 非线性处理。识别器由两个模块组成:一个是用于提取图像特征的卷积模块,另一个是用于区分生成图像并识别图像类别的分类模块。卷积模块。识别器的卷积部分由 10 个卷积层组成,将 64 x 64 大小的彩色图像作为输入。第一层处理后得到 64 张特征图,而在第三层、第五层和第八层处理后可以得到 512 张特征图。特征图的大小从 64 x 64 开始,在 2、4、7、10 层之后的每个最大池化层后减半,在最后一层处理之后变成 4 x 4。在每个转置卷积层之后添加批标准化处理和 LeakyReLU 非线性处理。分类模块。经过卷积模块处理后,得到了 4×4×512 大小的数据样本。将数据延展后输入两个分类器中,一个是用于区分生成图像和真实图像的二值分类器,另一个是用于识别图像类别的多类分类器。二值分类器由两个全连接层组成。在第一层之后,输出大小是 1024,第二层之后是 1。在第一全连接层后附加 ReLU 激活函数,在第二全连接层后增加 sigmoid 层。多类分类器由三个全连接层组成。第一层将特征数量减少到 1024 个,第二层之后特征数量保持不变。然后,将数据输入最后一层,在该层中,特征的数量减少到图像类别的数量。在第一层和第二层之后附加 ReLU 激活函数,在最后一层全连接层之后添加 Softmax 层。EEG 研究包括 6 名学生志愿者(3 名女性和 3 名男性),年龄在 17-30 岁之间,视力正常或矫正视力为正常。所有受试者均同意参加 EEG 实验,并接受了大量的 EEG 实验训练。EEG 记录是使用电极帽和 64 个 Ag/AgCI 电极进行的,这些电极是根据扩展的国际 10/20 系统安装的。此外,增加了一个在线滤波器,以避免电源线受到污染。使用 Neuroscan Synamp2 放大器记录信号,并以 1000 赫兹采样。从左侧眶上电极和眶下电极记录眨眼,而水平眼动 EEG 则从左侧和右侧外眦侧面 15mm 处的电极记录。以前额(AFZ)作为接地电极,参比电极与左乳突相连。所有电极的阻抗保持在 5kΩ以下。刺激包括来自 ImageNet 的 5 个不同类别的产品图片(手提包、耳机、马克杯、手表和吉他),每个类别包括 50 个图像。图片大小调整为 500x500 像素,并裁剪到屏幕中央。受试者被要求观看更多的图像以解码大脑信号,从而从视觉图像中捕捉更多的特征。实验中独立收集了两次数据,完成了图像呈现实验和偏好图像实验。为了保证数据质量,每次运行前都增加了电极连接检查步骤。在实验中,受试者被安排在一个消音和电屏蔽的房间里,坐得很舒服。图像显示在屏幕的中心位置。在实验过程中,还为受试者提供了按键反馈。受试者可以随时停止实验。在图像呈现阶段,5 类图像分 5 次呈现,每次由 1 类 50 幅图像组成,分为 5 个块区,每个块区有 10 个不同的图像和 1 个重复的图像。为了保持注意力,要求受试者看到图像时就按下图像板上的按钮。在每个块区开始时,屏幕中央显示一个固定红色十字,持续 1000 毫秒。在每次运行结束时,增加 3000 毫秒作为休息时间。在偏好图像实验中,受试者被要求按照屏幕上显示的说明在脑海中想象他们喜欢的产品。这个步骤包括 5 个环节,每个环节包含 10 个块区。首先,在屏幕中央显示一个固定的红色十字,持续 1000 毫秒。之后,在屏幕中央显示一个指示,要求受试者可视化产品的首选视觉外观。在听到一声哔哔声后,他们被要求闭上眼睛想象 8 秒。在这之后,受试者被要求通过按下方框的按钮来评估他们的心理意象的正确性和生动性。每次运行前后增加 3000ms 刷新时间。图像呈现实验和偏好图像实验的实验过程示例分别见图 11 和图 12。图 13 给出了图像呈现实验和偏好图像实验的结果。图 13 中的灰色框显示了图像呈现实验的原始图像结果,作为基线算法对视觉图像重建模型的性能进行评估。从图像呈现实验中重建所见图像后,使用经过训练的模型从偏好图像实验中重建图像,如图 13 中的红色框所示。图 13. 可见图像重建呈现结果(灰色框,左)和图像偏好设计图像(红框,右)的重建结果为了评估脑信号条件生成设计的结果,作者进行了定性和定量评估实验。由定性评估结果可以看出,该方法成功地生成了具有多种颜色和形状特征的不同设计。定量评价结果是通过问卷调查得到的。由图 14 中结果可以,受试者将 73% 的包图像、60% 的耳机图像、61% 的马克杯图像、51% 的手表图像和 43% 的吉他图像确定为他们喜欢的设计。总的来说,平均有 57.6% 的图像被选为喜欢的图片。表 2 给出了 5 个类别产品的分类率。共 1500 个脑电数据(每类 300 个),其中 1200 个数据用于训练,150 个数据用于验证,150 个数据用于测试。在包含 5 个类别的测试库中,整体分类率为 71.5%。由上述实验结果可以看出,这些受大脑活动影响的设计图像可以包含人类偏好的设计风格。重建的想象图像比重建的可见图像具有更多的颜色和形状特征。偏好图像实验结果也显示,这些经由大脑活动的深度学习方法所生成的偏好产品,融合了从先前设计中学习到的各种产品的多种设计特征。因此可以推断,这些生成的设计包含了人类认知通过输入大脑信号到深度生成模型中而过滤掉的混合颜色和形状特征。设计师可以根据这些生成图像进行预先判断。例如,一个生成的包的图像有多种颜色,从中我们可以预测用户实际上想要一个非常活泼的包。同样,对于灰色的包,我们可以预测他们可能更喜欢办公室风格的包。这种对「灰色阴影」设计问题的鉴别分析可以应用于不同的设计过程。不过,从实验中也可以看出,使用本文提出的方法对于以形状为主导的产品设计比对以吉他等功能为主导的设计更容易被接受,其效果更好。这可能是由于脑电信号能更好地捕捉人类的形状偏好。本文提出了一种基于机器学习人机回圈的设计方法,以自动生成考虑人的偏好的设计。实验结果表明,利用受脑电图像特征约束的图像重建模型,可以生成具有偏好设计风格的设计。虽然在本文的实验中所提出的方法只适用于五个产品设计案例,但作者认为,可以将其扩展应用于其他设计案例以及不同的设计任务中,如设计评估和品牌策略等。在本文研究工作中,由于模型训练过程中的数据有限,案例研究仅包含了五类产品的设计语义。作者认为,后续可以收集其他类别的数据,以便使模型具有更多功能。本文的研究结果可以帮助设计师直观地看到用户可能喜欢的东西,从而更好的理解用户的意图。本文提出了一种新的设计认知分析方法,为人类认知内容的交流提供了一种新的途径。将这种方法嵌入到不同的设计过程中,可以帮助设计者更准确地理解用户的需求和偏好。本文讨论的是人机回圈方法,它利用结合人类的反应信息和机器智能来创建机器学习模型。与经典的人工智能方法不同,人机回圈强调「人」在模型的多次循环迭代过程中的参与作用。目前,还没有关于人机回圈的典型定义和严格的方法界定。我们选择了三篇涉及不同领域的、谈到利用人机回圈技术的文章进行解读。其中,第一篇文章是在可穿戴智能设备的设计过程中引入人机回圈技术,主要通过将身体模拟信号引入到模型的优化设计过程中,实现了对可穿戴设备的优化。第二篇文章是在在线学习的智能机器人中引入人机回圈技术,使得人机对话机器人能够根据在线学习环境反馈的情况进行不断学习和调整以改进对话效果。第三篇文章是在设计领域中引入人机回圈技术,这里所引入的「人」的交互具体是脑电信号 EEG。先基于原始 EEG 信号生成特征,再利用生成的 EEG 特征训练 GAN 模型来生成设计图像。利用这些设计图像,可以帮助设计师更好的理解用户需求。在这三篇文章中,所使用的人工智能方法或模型都是一些常用的基本模型,其主要创新点在于不同的「人类信号」的引入,例如肌肉骨骼模拟信号、对话文本数据、脑电信号等,而不是传统方法中所提取的各种图像特征、局部特征、全局特征、三维特征等。随着更多领域中基础数据库的构建和更多「人」类信号的尝试,人机回圈方法有望在更多实用领域中发挥更大的作用。[1] Xin D , Ma L , Liu J , et al. Accelerating Human-in-the-loop Machine Learning: Challenges and Opportunities[C]// the Second Workshop. 2018. https://dl.acm.org/doi/abs/10.1145/3209889.3209897[2] https://hai.stanford.edu/blog/humans-loop-design-interactive-ai-systems[3] Ye Ding, Myunghee Kim, Scott Kuindersma, Conor J. Walsh, Human-in-the-loop optimization of hip assistance with a soft exosuit during walking,SCIENCE ROBOTICS 2018, https://robotics.sciencemag.org/content/robotics/3/15/eaar5438.full.pdf[4] Jiwei Li, et al, Dialogue Learning With Human-In-The-Loop, ICLR 2017, https://arxiv.org/pdf/1611.09823.pdf [5] Sainbayar Sukhbaatar, JasonWeston, Rob Fergus, et al. End-to-end memory networks. In Advances in neural information processing systems, pp. 2440–2448, 2015.[6] Wang P, Peng D, et al. Human-in-the-Loop Design with Machine Learning, https://www.researchgate.net/publication/334711475_Human-in-the-Loop_Design_with_Machine_Learning[7] Jason Weston, Antoine Bordes, Sumit Chopra, Alexander M Rush, Bart van Merri¨enboer, Armand Joulin, and Tomas Mikolov. Towards ai-complete question answering: A set of prerequisite toy tasks. arXiv preprint arXiv:1502.05698, 2015.[8] Jason Weston. Dialog-based language learning. arXiv preprint arXiv:1604.06045, 2016.
本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。