让SFT重新伟大!CMU等华人学者提出全新 媲美复刻版DeepSeek 批判式微调 新智元报道编辑,peter东乔杨,新智元导读,在面对复杂的推理任务时,SFT往往让大模型显得力不从心,最近,CMU等机构的华人团队提出了,批判性微调,CFT,方法,仅在50K样本上训练,就在大多数基准... AI资讯# DeepSeek# sft# 华人学者 3周前02160
15B硬刚GPT 新智元报道编辑,犀牛KingHZ,新智元导读,CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊,在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳... AI资讯# 4# GPT# token 3周前02380
LLM自学成才变身 !预测未来能力大幅提升 预言家 新智元报道编辑,英智,新智元导读,还在惊叹预言家的神奇,如今LLM也掌握了预测未来的,超能力,!研究人员通过自我博弈和直接偏好优化,让LLM摆脱人工数据依赖,大幅提升预测能力,最近,有个爆火的话题,L... AI资讯# 推理# 样本# 轨迹 4周前01180
超越DeepSeek推理 无限迭代 效率更高!斯坦福马腾宇新作 有限数据 新智元报道编辑,LRS,新智元导读,STP,自博弈定理证明器,让模型扮演,猜想者,和,证明者,,互相提供训练信号,在有限的数据下实现了无限自我改进,在Lean和Isabelle验证器上的表现显著优于现... AI资讯# DeepSeek# 定理# 推理 4周前01120
刚刚 GPT 新智元报道编辑,编辑部HNYZ,新智元导读,OpenAI的重磅炸弹GPT,4.5,刚刚如期上线了!它并不是推理模型,但是规模最大、知识最丰富,最鲜明的特点就是情商高、很类人,Pro版用户和付费开发者已... AI资讯# ethan# GPT# OpenAI 4周前01960
NP难问题接近被AI破解!南航牛津爆改DeepSeek 新智元报道编辑,Aeneas好困,新智元导读,给DeepSeek,R1推理指导,它的数学推理能力就开始暴涨,更令人吃惊是,Qwen2.5,14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗... AI资讯# DeepSeek# 中国南方航空# 多项式 4周前01700
Dynasor 思维扫描术 AI话痨终结者!UCSD清华提出 新智元报道编辑,好困犀牛,新智元导读,推理模型在复杂任务上表现惊艳,缺点是低下的token效率,UCSD清华等机构的研究人员发现,问题根源在于模型的,自我怀疑,!研究团队提出了Dynasor,CoT,... AI资讯# cot# dynasor# token 4周前01600
32B击败DeepSeek 新智元报道编辑,桃子好困,新智元导读,32B小模型在超硬核,时间线索,推理谜题中,一举击败了o1、o3,mini、DeepSeek,R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍,用上... AI资讯# DeepSeek# mini# 云计算费用 4周前01780