開云世界杯官網(wǎng) - 世界杯(中國) 英偉達(dá)推出 AI 框架 Polar,讓 Codex 跑分暴漲 594.74%

導(dǎo)語:英偉達(dá)磋磨團(tuán)隊本周發(fā)布開源框架 Polar,在不禁錮原有器用調(diào)用、高下文組織和補丁提交樣子的前提下,讓 Codex、Claude Code、Qwen Code 等現(xiàn)存智能體框架接入 GRPO(廣義相對戰(zhàn)略優(yōu)化)檢會。
IT 之家? 5 月 28 日音塵,英偉達(dá)磋磨團(tuán)隊本周發(fā)布開源框架 Polar,在不禁錮原有器用調(diào)用、高下文組織和補丁提交樣子的前提下,讓 Codex、Claude Code、Qwen Code 等現(xiàn)存智能體框架接入 GRPO(廣義相對戰(zhàn)略優(yōu)化)檢會。

IT 之家注:GRPO 是一種面向強化學(xué)習(xí)檢會的優(yōu)化步調(diào),會依據(jù)獎勵信號診療模子戰(zhàn)略,讓模子在多步方案任務(wù)里學(xué)會更優(yōu)動作。
本文里,GRPO 主要用于代碼智能體檢會,讓模子在信得過器用調(diào)用和補丁提交經(jīng)由中捏續(xù)糾正發(fā)揚。
論文指出智能體強化學(xué)習(xí)正從單步任務(wù)轉(zhuǎn)向長經(jīng)由任務(wù),比如代碼倉庫修改、瀏覽器操作和操作系統(tǒng)交互。這類任務(wù)經(jīng)常依賴現(xiàn)成實施框架,包含多輪調(diào)用、器用使用、高下文壓縮和子智能體互助。
現(xiàn)存難點在于,這些框架很難徑直改寫成傳統(tǒng)強化學(xué)習(xí)環(huán)境接口,一朝強行接入,還可能丟失重要檢會信號。
英偉達(dá) Polar 并非重寫智能體框架,聚焦在模子 API 范圍放棄智能體,基本不蛻變原有 harness。
harness 指 Codex CLI、Claude Code、Qwen Code、Pi 這類智能體運行外殼。傳統(tǒng)強化學(xué)習(xí)基礎(chǔ)設(shè)施時常條件把這類邏輯改寫到近似 ? env.init ? ( ) 、env.step ? ( ) 、env.reset ? ( ) 的環(huán)境接口里,接入資本高,開云足球世界杯中國官網(wǎng)入口還可能丟失原生實施細(xì)節(jié)。
pg娛樂麻將胡了中國最新版APP下載
Polar 的核神思劃,是把智能體與模子之間的接口看成檢會范圍,而不是把實施框架自身改釀成環(huán)境。
它在實施框架和推理作事器之間放棄模子智能體,兼容 Anthropic、OpenAI、Google 作風(fēng)央求,轉(zhuǎn)發(fā)央求時紀(jì)錄教唆詞、采樣 Token、對數(shù)概率和反應(yīng)踐諾,再把這些信息重建成可供檢會器徒然的軌跡。
在系統(tǒng)結(jié)構(gòu)上,Polar 由 rollout server 和 gateway node 構(gòu)成。前者負(fù)職守務(wù)提交、會話診療、情狀捏久化和回調(diào)采納;后者老成會話實施全生命周期,包括運行時啟動、實施框架準(zhǔn)備、軌跡構(gòu)建、約束評測和資源回收。
論文還把開動化、運行中、后解決拆到孤苦職責(zé)池,并建筑 READY 緩沖區(qū),讓運行時預(yù)熱和評測預(yù)熱在后臺并行,減少長尾任務(wù)對 GPU 檢會的攪擾。
實驗部分聚焦軟件工程任務(wù)。基于兼并個 Qwen3.5-4B 底座模子,在 Codex、Claude Code、Qwen Code、Pi 4 種代碼實施框架上,Polar 配合 GRPO(組相對戰(zhàn)略優(yōu)化)檢會后,在 SWE-Bench Verified 的 pass@1 分?jǐn)?shù)區(qū)分從 3.8% 升遷到 26.4%(增漲 594.74%)、29.8% 升遷到 34.6%、34.6% 升遷到 35.2%、34.2% 升遷到 40.4%。
在約束方面,prefix_merging 比較 per_request,把 3 個檢會設(shè)施中的更新數(shù)從 1185 次降到 218 次,墻鐘時分從 189.5 分鐘裁減到 35.2 分鐘,約快 5.39 倍;rollout GPU 平均應(yīng)用率也從 20.4% 升到 87.7%。
(著作為作家孤苦不雅點開云世界杯官網(wǎng) - 世界杯(中國),不代表艾瑞網(wǎng)態(tài)度)