AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文名称:AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training 论文链接:https://arxiv.org/abs/2309.17179 代码链接:https://github.com/waterhorse1/LLM_Tree_Search
TSLLM 是一个普遍适用和可扩展的框架,通过学习价值函数可应用于几乎任何任务,以及任何大小的语言模型。 TSLLM 在不同问题上验证了树搜索能增强大语言模型推理阶段表现的同时,也进一步验证了其迭代增强语言模型作为一个语言模型训练新范式的潜力。 在设计上,TSLLM 支持逐句/词元细粒度的搜索。 使用可靠鲁棒的价值函数作为状态评估,TSLLM 支持包括简单的 BFS/DFS,传统 MCTS,AlphaZero 式的 MCTS-α,MCTS-Rollout 等算法。 TSLLM进行了全面且公平的对比。例如,为了实现与非搜索算法(如 CoT/CoT-SC)的公平对比,TSLLM 通过统计总体计算量的方式衡量不同算法的效果与效率。
算法的合理对比。树搜索算法天生会带来更高的计算复杂度,合理的算法对比应在相似的计算量上进行。 选择合理基线和设定。例如,团队发现一个经常被忽略的基线算法:Majority-Vote + Outcome Reward Model。实验中团队发现其可以作为简单却非常强大的基线,在GSM8K上甚至可以超过树搜索算法。同时团队严格避免了不合理的实验设定:如利用测试集的真值进行树搜索回溯。