超越DeepSeek推理 无限迭代 效率更高!斯坦福马腾宇新作 有限数据 新智元报道编辑,LRS,新智元导读,STP,自博弈定理证明器,让模型扮演,猜想者,和,证明者,,互相提供训练信号,在有限的数据下实现了无限自我改进,在Lean和Isabelle验证器上的表现显著优于现... AI资讯# DeepSeek# 定理# 推理 4周前01220