或许不久之后,Siri就能看懂手机屏幕并帮你点外卖了。
屏幕实体(On-screen Entities):用户在与设备交互时,屏幕上显示的实体或信息。 对话实体(Conversational Entities):与对话相关的实体。这些实体可能来自用户之前的发言(例如,当用户说「给妈妈打电话」时,「妈妈」的联系方式就是相关的实体),或者来自虚拟助手(例如,当助手为用户提供一系列地点或闹钟供选择时)。 后台实体(Background Entities):这些是与用户当前与设备交互的上下文相关的实体,但不一定是用户直接与虚拟助手互动产生的对话历史的一部分;例如,开始响起的闹钟或在背景中播放的音乐。




论文地址:https://arxiv.org/pdf/2403.20329.pdf 论文标题:ReALM: Reference Resolution As Language Modeling


基于类型的; 描述性的。

