推理,2345AI导航，精选免费好用的人工智能工具箱。专注于全球优质AI产品、教程和资源分享。涵盖了AI绘画，AI游戏，AI视频，AI网址大全，AI工具软件，AI搜索、AI写作、AI剪辑、AI动画、AI3D、AI游戏、AI营销等等。持续关注技术及行业动态，优质内容持续更新。

新智元报道编辑，peter东乔杨，新智元导读，在面对复杂的推理任务时，SFT往往让大模型显得力不从心，最近，CMU等机构的华人团队提出了，批判性微调，CFT，方法，仅在50K样本上训练，就在大多数基准...

3周前

02160

新智元报道编辑，犀牛KingHZ，新智元导读，CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊，在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳...

3周前

02380

新智元报道编辑，英智，新智元导读，还在惊叹预言家的神奇，如今LLM也掌握了预测未来的，超能力，！研究人员通过自我博弈和直接偏好优化，让LLM摆脱人工数据依赖，大幅提升预测能力，最近，有个爆火的话题，L...

4周前

01180

新智元报道编辑，LRS，新智元导读，STP，自博弈定理证明器，让模型扮演，猜想者，和，证明者，，互相提供训练信号，在有限的数据下实现了无限自我改进，在Lean和Isabelle验证器上的表现显著优于现...

4周前

01120

新智元报道编辑，编辑部HNYZ，新智元导读，OpenAI的重磅炸弹GPT，4.5，刚刚如期上线了！它并不是推理模型，但是规模最大、知识最丰富，最鲜明的特点就是情商高、很类人，Pro版用户和付费开发者已...

4周前

01960

新智元报道编辑，Aeneas好困，新智元导读，给DeepSeek，R1推理指导，它的数学推理能力就开始暴涨，更令人吃惊是，Qwen2.5，14B居然给出了此前从未见过的希尔伯特问题的反例！而人类为此耗...

4周前

01700

新智元报道编辑，好困犀牛，新智元导读，推理模型在复杂任务上表现惊艳，缺点是低下的token效率，UCSD清华等机构的研究人员发现，问题根源在于模型的，自我怀疑，！研究团队提出了Dynasor，CoT，...

4周前

01600

新智元报道编辑，桃子好困，新智元导读，32B小模型在超硬核，时间线索，推理谜题中，一举击败了o1、o3，mini、DeepSeek，R1，核心秘密武器便是GRPO，最关键的是训练成本暴降100倍，用上...

4周前

01780

推理