在數(shù)學(xué)、科學(xué)和醫(yī)學(xué)等復(fù)雜場(chǎng)景中輕松完成任務(wù)。
多知7月26日消息,斯坦福大學(xué)在今年上旬開(kāi)源了一款名為 OctoTools 的 AI Agent。該工具能夠結(jié)合超過(guò)11種不同的工具,以應(yīng)對(duì)復(fù)雜的推理任務(wù)。
據(jù)了解,傳統(tǒng)的AI助手通常依賴于單一模型或有限的工具集,很難處理需要多步驟推理、特定領(lǐng)域知識(shí)或外部工具集成的復(fù)雜任務(wù)。例如,當(dāng)解決視覺(jué)謎題時(shí),需要精細(xì)圖像理解和基于文本的混合推理……
基于此,斯坦福開(kāi)源了OctoTools,這是一個(gè)融合了11種不同工具專用于復(fù)雜推理的AI Agent。
研究人員在16個(gè)不同的任務(wù)(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上驗(yàn)證了OctoTools的通用性,比GPT-4o的平均準(zhǔn)確率提高了9.3%,這使得它能夠在數(shù)學(xué)、科學(xué)和醫(yī)學(xué)等復(fù)雜場(chǎng)景中輕松完成任務(wù)。
目前用戶可以通過(guò) OctoTools 更好地解決視覺(jué)謎題或進(jìn)行基于文本的推理,提升工作效率。
OctoTools 技術(shù)原理:
工具卡片(Tool Cards):工具卡片是 OctoTools 的核心組件之一,封裝了工具的元數(shù)據(jù)和功能。每個(gè)工具卡片定義了工具的輸入輸出格式、功能描述和調(diào)用方式?! ?/p>
規(guī)劃器(Planner):規(guī)劃器基于語(yǔ)言模型,負(fù)責(zé)生成從全局視角的初步計(jì)劃。根據(jù)用戶查詢和可用工具,制定一個(gè)高層次的解決方案路徑?! ?/p>
執(zhí)行器(Executor):執(zhí)行器將規(guī)劃器生成的文本指令轉(zhuǎn)換為可執(zhí)行的命令,運(yùn)行這些命令獲取中間結(jié)果。
多步推理過(guò)程:基于多步推理逐步解決問(wèn)題。在每一步中,規(guī)劃器根據(jù)當(dāng)前上下文生成新的行動(dòng)指令,執(zhí)行器執(zhí)行指令獲取結(jié)果,然后更新上下文。
論文鏈接:https://arxiv.org/pdf/2502.11271
代碼鏈接:https://github.com/octotools/octotools