人能逆向思维,llm 也可以吗?北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明,llm 确实可以,并且逆向思维还能帮助提升 llm 的正向推理能力!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文一作 Justin Chih-Yao Chen 的推文简单来说,正向思维就是从问题开始,一步步地得出答案;而逆向思维则是先从一个预测答案开始,逆推到原始问题。组合使用正向和逆向思维可让我们验证解答的正确性并找到可能的错误。举个简单例子,如果小明有 2 个苹果,小红有 3 个苹果,那么他们一共有多少个苹果?使用正向推理,我们可以得出 2 + 3 = 5。再使用逆向推理,我们可以从共有 5 个苹果的结论开始,然后根据小明有 2 个来逆向得知小红有 3 个。这些数值与原始问题相符,故此可以验证 5 这个答案的正确性。如果正向推理出错了,比如答案是 6 个,那么逆向推理时就会得到与原始问题不一样的数值:小红有 4 个苹果。这种矛盾可让我们重新检视自己的推理过程哪里有误。大型语言模型(LLM)的数学能力也能通过正向 - 逆向推理得到提升,原因有二:
- 数学本身是高度结构化的,因此正向和逆向推理之间存在明确的逆反关系;
- 只需替换名称或数值等变量,就可以创建出新的数学问题。
那么问题来了:逆向思维能否应用于更广泛、结构性较差的领域?此外,这些方法通常是测试时使用,目的是验证:给定一个解,让 LLM 逆向思考并查看正向推理是否正确。虽然它们比其它测试时方法(例如自我一致性)的表现稍微好一点,但还
是存在未解的疑问:我们能否训练一个本身就能逆向思维的模型,从而提升其正向推理效果,而不是在测试时使用逆向推理进行验证?近日,北卡罗来纳大学教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一个联合团队为上面两个问题提供了解答。他们发布的论文表明,逆向思维可以显著 LLM 的推理能力,并且不限于数学任务。他们还提出了一个名叫 RevThink 的框架,可将逆向思维「灌输」给语言模型。
- 论文标题:Reverse Thinking Makes LLMs Stronger Reasoners
- 论文地址:https://arxiv.org/pdf/2411.19865
RevThink 主要包含两个阶段:数据增强和全新的学习目标。首先,对于推理数据集,该团队使用了一个更大、能力更强的教师模型来对其进行增强。我们知道,一般来说,推理基准数据由一个问题和一个答案构成。那么该如何增强它呢?该团队的方法是通过对教师模式使用少样本提示来(few-shot prompting)生成三种新数据:正向推理、逆向问题、逆向推理。其中正向和逆向推理都会使用思维链。只有当数据点的正向推理准确(与 ground truth 相符)且逆向推理与原始问题一致(通过提示教师模型进行验证)时,该数据点才会被保留下来。完成数据集增强之后,该团队还提出了三个用于训练更小的学生模型的关键目标。
- 生成逆向问题会促使学生模型「思考」如何逆向一个问题并确定要问的正确问题;
- 最后,解决这个逆向问题可以增强学生模型逆向推理的能力。
在测试时,首先会使用问题来询问该学生模型,而它只会生成前向推理 —— 类似于标准的零样本推理。本质上讲,这个流程是在训练过程中内化了逆向推理的能力,同时还能保证测试时间计算与零样本方法一样高效。如图 1 传统的监督式微调侧重于从问题到答案的单向推理。相比之下,RevThink 基于新提出的数据增强方法和目标,通过学习两个方向的推理而引入了双向思维。这能为模型带来更大的提升。该团队通过实验验证了 RevThink 的有效性。具体来说,他们使用的教师模型是 Gemini-1.5-Pro-001,学生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。训练中,他们使用了 LoRA 微调,秩设为 32。所有比较方法都使用了 vllm 和贪婪解码。他们也选择了多种任务进行评估,包括常识推理(StrategyQA、CommonsenseQA、ARCchallenge),数学推理(MATH、GSM8K),表格数据推理(TabMWP)、自然语言推理(ANLI),逻辑推理(Date Understanding)。参与比较的方法大致可分为三类:零样本方法、知识蒸馏(包含符号知识蒸馏和逐步蒸馏)和数据增强(包含问题重新表述、问题增强、答案增强)。更多实验设置请参阅原论文。首先,RevThink 的平均性能表现很好,在不同数据集和模型上都优于基线。与学生模型的零样本性能相比,RevThink 使用 Mistral 时实现了 12.68% 的平均提升,使用 Gemma 时实现了 14.37% 的平均提升。此外,相比于符号知识蒸馏(SKD)和逐步蒸馏(Distill Step-by-Step)—— 依赖于使用来自教师模型的正确推理链来执行监督式微调,RevThink 有 6.44% 至 7.15% 的显著提升。与基于数据增强的基线方法相比,RevThink 带来的增益也更为显著,特别是在常识推理、表格推理和日期理解方面。虽然其中一些增强方法(例如答案增强 (AnsAug))对于数学推理很有效,但它们为其它领域带来的改进较少。这表明数学是一个更结构化的领域,会随着数据的增加而更好地扩展。相比之下,RevThink 在各种推理任务上都能带来稳定的提升。并且表 3 表明,在留存数据集上进行评估时,RevThink 在领域外数学数据集上也能带来更大的增益,表现出了更好的泛化能力。下面还列出了 RevThink 的更多优势,相关详情请访问原论文:
- 逆向问题生成可提高性能,但充分利用新的数据集可获得最佳性能。
- RevThink 的目标比使用指令调整的单独实例更有效。
- 只需稍多一点 token,RevThink 就能获得更大提升。
- RevThink 在可逆问题和中等难度问题上表现出了更大的提升。
相关推荐:
实用AI工具:提升效率、优化生活的科技利器
AI写文章机器人:开启智能写作新时代
怎么用AI写文:让创作更轻松,效率翻倍
seo有什么技术平台,seo有什么技术平台推广 ,ai露珠
SEO助手怎么操作:提高网站排名的秘密武器
2024年AI写文章生成器推荐:让创作轻松高效,提升写作水平
seo竞价做的什么工作,seo 竞价 ,三星ai苹果ai
ChatGPT40不收费版本:科技革新,智能助手助力生活与工作,ai医疗武器有哪些
网站优化杭州:助力企业发展,提升网络竞争力
在线生成文章让写作变得更轻松!
seo是什么币,seo是什么意思啊视频教程 ,李沁ai换脸被
seo用什么手法,seo方式 ,ai山水画国画
seo营销方法是什么,seo营销模式 ,成长与勇气ai图片
网站优化应该怎么做?让网站流量翻倍的秘诀
作文AI自动生成:让写作变得轻松有趣
提升网站排名,SEO专业培训班带你走在时代前沿
怎么优化网站排名,让你的站点脱颖而出!
AI写作免费生成工具,让创作从未如此轻松!
AI写稿子:开启高效创作新时代
AI写作自动生成:助您开启高效创作新时代
ChatGPT回答问题,网页无法线下滚动?解决方案轻松get!,谷歌AI铃声
ChatGPT一经发布,便受到了用户的狂热追捧,引爆人工智能热潮,十代ai达人办公本
SEO项目指的是什么,seo项目指的是什么意思 ,X.ai.yy
网站生成AI:让网站建设变得简单、高效、智能化
好用的AI写作工具免费,提升创作效率不容错过!
能写方案的AI:为企业赋能的智能助手
AI缩短短文-提升创作效率,写作新体验,光速写作业ai写作app
AI一键生成文章,写作新境界
好用的AI写作软件免费推荐:创作新境界!
文章生成AI:让写作轻松高效的神奇工具
文章创作AI:引领智能写作的新时代
提升写作效率,释放创意潜力文章生成AI软件的未来
seo是什么的意思,seo是什么东西 ,策划ai写作
杭州网站优化:提升排名,助力企业发展
Deepseek入局搜索混战:颠覆传统,引领未来
ChatGPTApp怎么调大字体?提升阅读体验,让文字更清晰,推荐ai音频
好用的AI写作软件,让创作更高效
AI写作自动生成免费:轻松实现内容创作,提升工作效率
ChatGPT198元永久会员,开启智慧之门,体验AI的极致服务!,老孙教ai
AI免费写文:创作新时代的高效助手
自动撰写文章,助力写作效率全面升级!
自媒体与伪原创:时代下的“创意”迷雾
做SEO排名,如何让你的网站脱颖而出?
深度市场的利器DeepSeek软件,你不可错过的智能助手
为什么新手做seo好做,为什么要懂seo ,ai变医院
seo权重指的是什么,seo权重如何提升 ,百度文库ai助手写作查重率高吗
品牌搜索引擎优化:提升品牌影响力与市场竞争力的关键策略
AI网页生成:轻松构建智能网站,提升品牌竞争力,杭州专业ai智能教育
seo是什么化学元素,seo表示什么 ,小熊 ai
AI写作免费一键生成3000字,轻松解决写作难题