“对话数据将是企业数字化转型下一阶段的重点。不管是对外营销服务,还是企业内部管理培训、考核等情境中,数据都是以对话形式存储的。但过去只是存下来,没有进行结构化的表示和挖掘,并提取出智能服务。未来在大模型上,这件事可以变得更容易,并且成本更低。”中关村科金技术副总裁张杰博士在首届生成智能产业峰会上分享道。
3月20日,首届生成智能产业峰会在北京成功召开。本次峰会由人工智能关键技术和应用评测工业和信息化部重点实验室、中国信息通信研究院云计算与大数据研究所主办,南京新一代人工智能研究院承办。
中关村科金技术副总裁张杰博士受邀出席现场,发表《大模型在ToB场景下的挑战与实践》主题演讲,并获聘成为人工智能关键技术和应用评测重点实验室人工智能工程化推进委员会“生成式人工智能工作组”专家委员会成员。
本文对张杰博士的主题演讲内容进行了编辑整理。
ToB赛道上的挑战
大模型不是新鲜事,2018年以后就已经出现各种预训练语言模型,但最近引起各界广泛关注的主要原因是大家看到了大模型的广泛前景。我们可以把大模型想象成一座冰山,冰山浮在水面上的部分,是我们看到它带来的直观效果,火爆是因为大家“看到”了水面以下,大模型对未来产来的深远影响和技术趋势。
大模型的生成能力大家有目共睹,可以生成代码、对话、图片甚至是短视频,另外在上下文理解和多模态上也能带来很好的体验。在对话中我们还能感受到它具有简单的推理能力,一些算术题都能准确回答。我们能够体验到这些直观效果的原因在于,大模型是一个亿级参数的神经网络模型,可以通过大规模的无标注语言、无标注文本语料,自监督学习复杂的上下文联系,进而产生推理能力。
大模型其实是一种新的知识表达方式。原来我们用文档或者知识库记载知识,数据库里的表示方式是符号化的。但形成神经网络变为参数化,并且有了世界知识和抽象的推理能力后,大模型所表现出的多任务、小样本甚至是零样本学习能力,直接打破了我们以前固有的认知,即“通用的不好用,好用的不通用”。现在发现,大规模语言模型也能带来跨任务的提升,小样本也能产生非常好的效果。
对于我们研究人工智能和机器学习的人来讲,大模型代表着强人工智能方向,也将带来研究范式的转变。十几、二十年前,我们处理各种各样的机器学习任务时,需要调用不同模型、选择多种算法,比如 LR 模型(Logistic Regression逻辑回归模型)或者 SVM 模型(Stochastic Volatility Model随机波动率模型)等,针对每项任务还要做大量标注。
现在我们只需要一个大规模语言模型就够了。面对各种 AI 任务,想训练一个模型或者找到答案时,只需要尝试一些提示词,顶多再给出几个样例,它就能很好的解决任务,并能大大降低训练模型成本。过程就像我们学习使用搜索引擎时一样,大脑掌握搜索方法后,接到一项任务时就知道怎么把问题凝结为几个简单的搜索词,输入搜索框就能得到潜在答案。
但现阶段的大规模语言模型并不是万能的,未来仍然面临一些挑战,我们归纳出了六点。
第一,模型规模非常大。在 ToB 场景下,大规模语言模型没有办法做到实时响应,需要对模型再做压缩或小型化。大模型相当于老师,针对具体场景灌入一些小规模数据,让老师培养出学生,这个小规模模型就可以非常快速的响应需求,并且在具体场景里以很高的性能完成任务。
第二,大规模语言模型“一本正经地胡说八道”的现象,常被人诟病,这就说明大规模语言模型在事实知识方面还有提升空间。此外,怎么把实时更新和迭代的领域知识灌入到大模型里也是一个挑战。
第三,多模态融合效果还需提升。多模态模型本质是用语言解释视觉,视觉再解释语言,但目前语言和视觉之间的连接,仍然存在条件概率上的关联。如果用语言表达了一个小概率事件,生成出的图片或者视频效果可能就不太好。比如说“红色的桃花树底下有一只白色的绵羊”,大模型会生成的非常好,但如果是“白色的桃花树底下有一只红色的绵羊”,效果就会差一些。
第四,在数理逻辑和符号推理方面仍然欠缺。大模型思维链的推理能力是基于语言模型能力生成的。虽然可以灌入大量的试题或者是代码注释等无标注样本,把语言能力包装成简单的数学运算能力,但若要运行更深次的符号推理,效果是比较差的。未来可以尝试在大规模语言模型上外挂一个领域知识库,把参数化和符号化的知识两相结合,在具体行业应用上才能保证效果足够好。
第五,缺乏可解释性。模型内部的运作机制中,是没有显式的逻辑推理与判断的,因此无法保证其准确性,回答和推理过程始终是个黑盒。
第六,伦理与安全问题。大模型还需加深对于道德伦理、社会准则的理解,与人类价值观对齐,应对更加复杂的伦理问题;另外需要在安全性与可用性之间做平衡,而目前仍存在解锁伦理限制的风险。
文本生成场景实践
中关村科金自成立以来一直关注企业服务赛道的对话场景,我们认为未来几年企业数字化转型仍然是大趋势。前几年企业的数字化转型主要是围绕业务系统和订单数据,未来在大模型基础上,非结构化的对话交互行为数据也可以做到更细粒度的拆分和挖掘。
对话数据将成为企业数字化转型下一阶段的重点。不管是对外营销服务,还是企业内部管理培训、考核等情境中,数据都是以对话形式存储的。但过去只是存下来,没有进行结构化的表示和挖掘,并提取出智能服务。未来在大模型的应用上,数据挖掘和提取可以变得更容易,并且成本更低。
比如在对外营销服务方面,最开始的时候,各个公司都有一套CRM系统,用以存储客户属性数据和交易数据;前几年各个公司开始用CDP系统,存储数字化的客户轨迹数据,比如页面停留时长、页面访问逻辑和路径等,但是对客户的文本和语音对话并没有做到更深层的开发。
企业内部的运营内控和陪练培训也同样如此。以前需要把领域里知识统一归纳,放到领域知识库。但有了大规模语言模型后,我们可以把领域里流程性和技能性的知识形式化,再放到领域知识库里。当然过程当中还会遇到各种各样的挑战,比如对话场景和对话数据模态非常多,会涉及到语音识别、动作识别等多种技术。
因此,中关村科金以对话式AI为核心技术,自主研发了包括大规模对话语言模型、知识图谱、语音识别、语音生成等AI技术的对话引擎。通过应用对话引擎尝试解决以上问题。对话引擎可以同时支持各种各样对话场景,其背后的大规模语言模型相当于一个“参数化的大脑”,拥有更深更好的语言理解能力和语言生成能力,还有简单的通用推理能力。在这个大模型上,我们外挂一个领域知识库,代表“符号化的大脑”,里边是领域里的事实知识和流程性、技能性知识,它能保证语言模型在可控的范围内给用户提供尽可能正确的答案。
在通用语言模型和领域知识库上,产品和流程还要经过一些合理设计,从而让人和机器形成闭环效果,让人类语言和大规模语言模型的机器语言对齐,最终让机器在人类的标注或者反馈里持续学习和提升。
对话引擎里涉及到的关键技术有四点,一个是在语言模型上要做领域微调,各个领域和场景都会有自己的语言特色,需要领域知识库规范,对语义空间进行微调,从而增强语言的理解和识别能力。
另外为了防止一本正经地胡说八道,要让大模型生成的内容更可控,需要有领域提示工程,同时为了避免大炮打蚊子的嫌疑,需要模型压缩,提升在实际场景应用中的实时性。
这其中最重要的环节是挖掘出领域里的流程性知识,灌入到语言模型里,再和人类不断反馈的闭环中学到最佳的流程实践,并且显示这个最佳流程实践是什么。
在探索大模型实践的过程中,我们尝试了几个场景,也和客户共创了一些小的试点项目。第一个是坐席助手。呼叫中心的坐席销售流动性比较大,但领域里技能性的知识要求又高,这就需要借助辅助化的助手,帮助坐席或者销售复盘日常工作,提升技能。
具体实现上,需要把线上的文本数据,或者是呼叫中心里的语音数据通过 ASR 转写成文本,利用语言模型的文本理解能力分析客户的潜在意图和需求,再实时生成对话流程,告诉销售客户下一阶段最有可能往哪几个方向跳转,往哪个方向引导成单的概率会比较大。另外也可以复盘整通对话里造成流单的问题是什么,同样的问题金牌销售会怎么处理,把同境案例提供给销售,用以不断提升销售话术水平。
另外一个场景是在财富管理领域。财富管理的业务规模增长比较快,但背后的理财师团队规模并不随着业务增长而保持线性增长,因为高级的理财师是很难培养的,同样需要一个助手帮助理财师触达客户。因为在理财场景中和客户保持高频度触达是非常重要的,这样才能防止高净值客户流失。
以前理财师为了维系客户关系,与客户保持高频触达,会手工编写营销文本或者转发研报。有了智能助手以后,可以自动生成营销文案,大大降低手工编写营销案例的工作内容。理财师只需在助手系统里选择相应客户,系统会自动绘制客户画像,再根据画像生成个性化的投资要素信息组合,比如期限、费率、时长或者是风险偏好等,完成后理财师就知道需要从哪些研报里挖掘对应的话术素材,制定怎样的营销策略,同时将这些信息灌入到大模型中里后,便能按照理财师的语言风格生成对应的营销文案。
第三个尝试是远程营业厅和基于企业内部的陪练、培训助手,这些应用场景都会涉及到虚拟数字人技术。为此我们开发了一个“数字人创作平台”,让用户可以快捷和低成本的定制虚拟助手形象,并且按照不同的时间或节日,更换服装和背景模板。
未来产业趋势及机会展望
大模型将带来AI产业链技术及商业模式变迁。链条最底层是芯片或者光模块硬件厂商,之上是各种云计算厂商,大模型会逐渐成为云计算厂商的标配,通过自研或并购的方式投资大模型研发,MaaS(模型即服务)模式的业务占比会增加。
大模型开发厂商群体中,第一梯队厂商如谷歌或者Facebook短期内依然会保持技术领先,在多模态、复杂推理、安全性方面持续挖掘大模型的潜能;第二梯队厂商则会依赖各自优势加强投入,争抢基础模型方面的技术人才,缩短代际技术差距。
对于我们这类企业服务赛道技术厂商而言,短期之内最主要是通过领域知识库和提示工程方法,积累行业know-how能力。应用层主要分为ToC和ToB两大领域,ToC领域未来将集中在生成创意方面,ToB领域主要需要关注对话场景和推理能力两大方面,对话场景具体包含外呼、客服、培训陪练,推理场景包含虚拟员工助理、Prompt-Ops。
最后总结一下,我们认为大模型打开了一层技术的天花板,不仅为老场景带来新增值,还开拓了新场景。
- 对话数据将是企业数字化转型下一阶段的重点。
- 对话生成领域目前商业化场景比较清晰的是营销、客服和办公助手。
- 对话引擎比较好的路径是构建在预训练语言模型上,通过外挂知识系统、提示工程、模型蒸馏等手段,提升特定场景下大模型输出内容的可控性、准确性、可解释性,并在应用场景中形成闭环。
- 关键技术挑战是领域里的流程性知识怎么和大规模语言模型有效结合,怎么将流程性知识灌入语言模型,再通过闭环将不断迭代总结更新的流程实时反馈回来,并且以一个显性的、可解释的方式表示。
作为国内领先的对话式AI技术解决方案提供商,中关村科金自主研发了包括大规模对话语言模型、知识图谱、语音识别、语音生成等AI技术的对话引擎。基于该引擎,围绕企业的各种对话场景,打造了智能外呼营销、智能客服、数字人员工、远程营业厅、陪练质检、坐席助手等多个对话式AI产品,已为金融、政务、零售、医疗健康等领域的900余家企业提供营销服一体化的综合解决方案。未来我们将持续坚持在对话引擎上的技术投入,探索落地对话生成的商业化场景,帮助更多企业实现创新业务增长。