GPU也能跑DeepSeek同款GRPO!显存只需1 古董 新智元报道编辑,KingHZ,新智元导读,开源微调神器Unsloth带着黑科技又来了,短短两周后,再次优化DeepSeek,R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1,10!开源微... AI资讯# DeepSeek# gpu# 上下文 4周前03980
RIP方法让模型性能狂飙60% LeCun力荐!进化算法淘汰77%低质数据 新智元报道编辑,peter东乔杨,新智元导读,近日,Meta等机构发表的论文介绍了一种通过进化算法构造高质量数据集的方法,拒绝指令偏好,RIP,,得到了YannLeCun的转赞,相比未经过滤的数据,使... AI资讯# rip# 实验# 样本 1个月前02140
3B模型爆发超强推理!微软论文实锤涌现 10美元成功复现DeepSeek顿悟时刻 新智元报道编辑,Aeneas好困,新智元导读,不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了,来自荷兰的开发者采用轻量级的RL算法Reinforce,Lite,把复刻成本降到了史上最低!同... AI资讯# DeepSeek# 微软# 知名企业 1个月前02100
DeepSeek 新智元报道编辑,编辑部,新智元导读,斯坦福和普林斯顿研究者发现,DeepSeek,R1生成的自定义CUDA内核,完爆了o1和Claude3.5Sonnet,拿下总排名第一,虽然目前只能在不到20%任务... AI资讯# DeepSeek# 信号# 斯坦福 1个月前02100
Dynasor 思维扫描术 AI话痨终结者!UCSD清华提出 新智元报道编辑,好困犀牛,新智元导读,推理模型在复杂任务上表现惊艳,缺点是低下的token效率,UCSD清华等机构的研究人员发现,问题根源在于模型的,自我怀疑,!研究团队提出了Dynasor,CoT,... AI资讯# cot# dynasor# token 1个月前02000
全球首次!2B复现DeepSeek 新智元报道编辑,编辑部HNZ,新智元导读,由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek,R1,啊哈时刻,!就在刚刚,我们在未经监督微调... AI资讯# DeepSeek# rl# 云计算费用 1个月前01980
!GPT LLM平均得分90 轻松拿捏高等数学 新智元报道编辑,KingHZ,新智元导读,在32道高等数学测试中,LLM表现出色,平均能得分90.4,按百分制计算,GPT,4o和MistralAI更是几乎没错!向量计算、几何分析、积分计算、优化问题... AI资讯# 向量# 定理# 微积分 4周前01940
Grok DeepSeek效应初现 新智元报道编辑,KingHZ,新智元导读,DeepSeek和xAI相继用R1和Grok,3证明,预训练ScalingLaw不是OpenAI的护城河,将来95%的算力将用在推理,而不是现在的训练和推理各... AI资讯# DeepSeek# OpenAI# 云计算费用 1个月前01920
32B击败DeepSeek 新智元报道编辑,桃子好困,新智元导读,32B小模型在超硬核,时间线索,推理谜题中,一举击败了o1、o3,mini、DeepSeek,R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍,用上... AI资讯# DeepSeek# mini# 云计算费用 1个月前01920
Ilya向全世界宣布 预训练结束了!全球AI数据耗尽 超级智能才是未来 新智元报道编辑,Aeneas好困,新智元导读,全球顶会NeurIPS2024中,Ilya登场演讲,向全世界宣告,预训练结束了!数据如同化石燃料般难以再生,未来,AI的发展方向就是具备自我意识的超级智能... AI资讯# ilya# 大模型# 深度学习 1个月前01860