让SFT重新伟大!CMU等华人学者提出全新 媲美复刻版DeepSeek 批判式微调 新智元报道编辑,peter东乔杨,新智元导读,在面对复杂的推理任务时,SFT往往让大模型显得力不从心,最近,CMU等机构的华人团队提出了,批判性微调,CFT,方法,仅在50K样本上训练,就在大多数基准... AI资讯# DeepSeek# sft# 华人学者 3周前02000
跨架构知识蒸馏 全面超越SOTA 精度效率双冠王!时序预测新范式TimeDistill 新智元报道编辑,LRST,新智元导读,TimeDistill通过知识蒸馏,将复杂模型,如Transformer和CNN,的预测能力迁移到轻量级的MLP模型中,专注于提取多尺度和多周期模式,显著提升ML... AI资讯# timedistill# 实验# 尺度 3周前02420
大闹白宫 马斯克 !美政府12000人将被GSAi优化 100万块GPU巨兽年底建成 xAI 新智元报道编辑,NJY,新智元导读,美政府掀起了一阵AIFirst狂潮,而幕后推手正是科技狂人马斯克,他领衔的DOGE正打造一款AI神器GSAi,要提升政府内部12000名员工的效率,甚至还要开发一款... AI资讯# spacex# 埃隆# 埃隆·马斯克 3周前02600
Scaling另有他用 Ilya错了 ViT大佬力挺谷歌1000亿数据新发现 新智元报道编辑,KingHZ,新智元导读,谷歌发布了1000亿文本,图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练ScalingLaw,虽然对模型性能提升不明显,但对于小... AI资讯# scaling# 云计算费用# 模态 3周前02140
AI评委 !顺利通过资格考试 制成 准博士生把导师履历论文输入ChatGPT 新智元报道编辑,英智,新智元导读,AI竟能精准模拟博士生资格考试,只需将评委的履历和论文输入ChatGPT,就能创建数字形象,模拟面试问题,顺利通过考试,美国学生发现了ChatGPT的创意新用途!20... AI资讯# ChatGPT# 博士生# 学术 3周前02280
AGI还需70年!清华人大预测届时GPU总价达4000万倍苹果市值 10²⁶参数 新智元报道编辑,桃子犀牛,新智元导读,AGI明年降临,清华人大最新研究给狂热的AI世界泼了一盆冷水,人类距离真正的AGI,还有整整70年!若要实现,自主级智能,需要惊人的10²⁶参数,所需GPU总价竟... AI资讯# agi# gpu# 摩尔 3周前02020
15B硬刚GPT 新智元报道编辑,犀牛KingHZ,新智元导读,CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊,在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳... AI资讯# 4# GPT# token 3周前02220
GPU也能跑DeepSeek同款GRPO!显存只需1 古董 新智元报道编辑,KingHZ,新智元导读,开源微调神器Unsloth带着黑科技又来了,短短两周后,再次优化DeepSeek,R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1,10!开源微... AI资讯# DeepSeek# gpu# 上下文 3周前03220
机器人操作全能 具身智能新时代!VLA迎来最强基础模型Magma UI导航 新智元报道编辑,LRS,新智元导读,Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境,通过标记集合,SoM,和标记轨迹,ToM,技术,将视觉语言数据转化为可操作任务,... AI资讯# 云计算费用# 智能体# 机器人 3周前02340
1次搭建完胜1亿次编码 万能手 MCP硅谷疯传!Anthropic协议解锁智能体 新智元报道编辑,编辑部HNY,新智元导读,AI智能体领域Type,C来了!Manus及其开源复现诞生,一夜捧红了MCP,工具调用,访问外部数据,一个协议就够了,上一周,智能体迎来里程碑式的一周,从Ma... AI资讯# mcp# 应用程序# 数据源 3周前02600