全面增强LLM推理

新智元报道编辑,LRST,新智元导读,基于内置思维链的思考方法为解决多轮会话中存在的问题提供了研究方向,按照思考方法收集训练数据集,通过有监督学习微调大语言模型;训练一个一致性奖励模型,并将该模型用作...
4周前
01320

智源BGE

新智元报道编辑,编辑部HYZ,新智元导读,智源联手多所顶尖高校发布的多模态向量模型BGE,VL,重塑了AI检索领域的游戏规则,它凭借独创的MegaPairs合成数据技术,在图文检索、组合图像检索等多项...
4周前
01060

32B击败DeepSeek

新智元报道编辑,桃子好困,新智元导读,32B小模型在超硬核,时间线索,推理谜题中,一举击败了o1、o3,mini、DeepSeek,R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍,用上...
4周前
01680