新榜訊 1 月 10 日,微軟亞洲研究院的全華班研究團隊重磅推出 rStar-Math 算法,此創(chuàng)新推理方法大幅提高了小型語言模型(SLMs)處理數(shù)學(xué)問題的能力。在 MATH 基準(zhǔn)測試中,rStar-Math 讓 Qwen2.5-Math-7B 模型的準(zhǔn)確率由 58.8%飆升至 90.0%,成功超越 OpenAI 的 o1-preview 模型。 據(jù)悉,該技術(shù)借助蒙特卡洛樹搜索(MCTS)模擬人類的“深度思考”,還要求模型在輸出時同步給出自然語言的推理步驟及 Python 代碼。歷經(jīng)四輪自我演進,rStar-Math 在多項基準(zhǔn)測試中收獲顯著成果,在美國數(shù)學(xué)邀請賽(AIME)中解決了 53.3%的問題,表現(xiàn)位居同類型的前 20%。 論文鏈接:https://arxiv.org/pdf/2501.04519