XiaoWen

帅气的我简直无法用语言描述!

让SFT重新伟大!CMU等华人学者提出全新 媲美复刻版DeepSeek 批判式微调

新智元报道编辑,peter东乔杨,新智元导读,在面对复杂的推理任务时,SFT往往让大模型显得力不从心,最近,CMU等机构的华人团队提出了,批判性微调,CFT,方法,仅在50K样本上训练,就在大多数基准...
3周前
02000

跨架构知识蒸馏 全面超越SOTA 精度效率双冠王!时序预测新范式TimeDistill

新智元报道编辑,LRST,新智元导读,TimeDistill通过知识蒸馏,将复杂模型,如Transformer和CNN,的预测能力迁移到轻量级的MLP模型中,专注于提取多尺度和多周期模式,显著提升ML...
3周前
02420

大闹白宫 马斯克 !美政府12000人将被GSAi优化 100万块GPU巨兽年底建成 xAI

新智元报道编辑,NJY,新智元导读,美政府掀起了一阵AIFirst狂潮,而幕后推手正是科技狂人马斯克,他领衔的DOGE正打造一款AI神器GSAi,要提升政府内部12000名员工的效率,甚至还要开发一款...
3周前
02600

Scaling另有他用 Ilya错了 ViT大佬力挺谷歌1000亿数据新发现

新智元报道编辑,KingHZ,新智元导读,谷歌发布了1000亿文本,图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练ScalingLaw,虽然对模型性能提升不明显,但对于小...
3周前
02140

AI评委 !顺利通过资格考试 制成 准博士生把导师履历论文输入ChatGPT

新智元报道编辑,英智,新智元导读,AI竟能精准模拟博士生资格考试,只需将评委的履历和论文输入ChatGPT,就能创建数字形象,模拟面试问题,顺利通过考试,美国学生发现了ChatGPT的创意新用途!20...
3周前
02280

AGI还需70年!清华人大预测届时GPU总价达4000万倍苹果市值 10²⁶参数

新智元报道编辑,桃子犀牛,新智元导读,AGI明年降临,清华人大最新研究给狂热的AI世界泼了一盆冷水,人类距离真正的AGI,还有整整70年!若要实现,自主级智能,需要惊人的10²⁶参数,所需GPU总价竟...
3周前
02020

15B硬刚GPT

新智元报道编辑,犀牛KingHZ,新智元导读,CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊,在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳...
3周前
02220

GPU也能跑DeepSeek同款GRPO!显存只需1 古董

新智元报道编辑,KingHZ,新智元导读,开源微调神器Unsloth带着黑科技又来了,短短两周后,再次优化DeepSeek,R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1,10!开源微...
3周前
03220

机器人操作全能 具身智能新时代!VLA迎来最强基础模型Magma UI导航

新智元报道编辑,LRS,新智元导读,Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境,通过标记集合,SoM,和标记轨迹,ToM,技术,将视觉语言数据转化为可操作任务,...
3周前
02340

1次搭建完胜1亿次编码 万能手 MCP硅谷疯传!Anthropic协议解锁智能体

新智元报道编辑,编辑部HNY,新智元导读,AI智能体领域Type,C来了!Manus及其开源复现诞生,一夜捧红了MCP,工具调用,访问外部数据,一个协议就够了,上一周,智能体迎来里程碑式的一周,从Ma...
3周前
02600