32B击败DeepSeek

新智元报道编辑,桃子好困,新智元导读,32B小模型在超硬核,时间线索,推理谜题中,一举击败了o1、o3,mini、DeepSeek,R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍,用上...
1个月前
02100