DeepSeek

新智元报道编辑,编辑部,新智元导读,斯坦福和普林斯顿研究者发现,DeepSeek,R1生成的自定义CUDA内核,完爆了o1和Claude3.5Sonnet,拿下总排名第一,虽然目前只能在不到20%任务...
1个月前
02100

32B击败DeepSeek

新智元报道编辑,桃子好困,新智元导读,32B小模型在超硬核,时间线索,推理谜题中,一举击败了o1、o3,mini、DeepSeek,R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍,用上...
1个月前
01920