一个 token 就能控制模型快些解答或慢点思考。
System 1:系统 1,速度快,基于直觉。
System 2:系统 2,速度更慢,更加深思熟虑。

论文标题:Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
论文地址:https://arxiv.org/pdf/2410.09918


该团队注意到,即便 Searchformer 是在完整的 A* 搜索轨迹上训练的,但它也会生成更短的勾勒搜索过程的轨迹。
研究表明,人类在做决策时往往依赖捷径和模式,这一概念被称为系统 1 思维。
D1:丢弃一个 close 子句;
D2:丢弃一个子句中的成本 token;
D3:丢弃一个 create 子句。
Level 1:去除搜索轨迹中所有 close 子句。
Level 2:更进一步,额外丢弃所有成本 token。
Level 3:更加激进,进一步随机丢弃 30% 的 create 子句。
Level 4:丢弃整条搜索轨迹。

快速模式


慢速模式

与搜索动态引导的比较


