欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

4 月 26 日消息, 科技 媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準,通過約束滿足問題(CSPs)框架,評估模型在推理任務中識別和獲取缺失信息的能力。

現實挑戰與信息獲取需求

大型語言模型(LLMs)在推理任務中廣受關注,涵蓋數學、邏輯、規劃和編碼等領域。然而,現實世界的應用場景常常充滿不確定性。

用戶在提出數學問題時常忽略重要細節,機器人等自主系統也必須在部分可觀測的環境中工作。這種理想化完整信息設定與現實不完備問題之間的矛盾,迫使 LLMs 發展主動信息獲取能力。

IT之家援引博文介紹,識別信息缺口并生成針對性地澄清問題,成為模型在模糊場景中提供準確解決方案的關鍵。

QuestBench:評估信息缺口的新框架

為應對信息獲取挑戰,研究者推出了 QuestBench 基準,專門評估 LLMs 在推理任務中識別缺失信息的能力。

該基準將問題形式化為約束滿足問題(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一個未知變量值即可解決目標變量的問題。

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

QuestBench 覆蓋邏輯推理(Logic-Q)、規劃(Planning-Q)和小學數學(GSM-Q / GSME-Q)三個領域,按變量數量、約束數量、搜索深度和暴力搜索所需猜測次數四個難度軸分類,精準揭示模型的推理策略和性能瓶頸。

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

模型性能與未來改進空間

QuestBench 測試了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等領先模型,覆蓋零樣本、思維鏈和四樣本設置。測試于 2024 年 6 月至 2025 年 3 月間進行,涉及 288 個 GSM-Q 和 151 個 GSME-Q 任務。

結果表明,思維鏈提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在規劃任務中表現最佳。開源模型在邏輯推理上具競爭力,但在復雜數學問題上表現不佳。

研究指出,當前模型在簡單代數問題上表現尚可,但隨著問題復雜性增加,性能顯著下降,凸顯了在信息缺口識別和澄清能力上的改進空間。

【來源: IT之家】

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 美女视频久久 | 欧美一级毛片片免费 | 久久精品在线免费观看 | 在线视频免费国产成人 | a毛片视频免费观看影院 | 在线播放日韩 | 久草视频在线免费播放 | 国产美女mm131爽爽爽免费 | 久久青草免费91线频观看站街 | 99热热久久这里只有精品166 | 日韩欧美一区二区久久黑人 | 中文字幕一区在线播放 | 色久网站| 成人欧美一区二区三区黑人免费 | 精品国产一区二区三区四 | 亚洲日本一区二区三区高清在线 | 在线日韩一区 | 国产欧美一区二区三区免费看 | 狼狼色丁香久久女婷婷综合 | 色综合综合色 | 国产精品伦理一二三区伦理 | 特级毛片免费视频观看 | 中文有码第一页 | 欧美做爰孕妇群 | 中文字幕在线视频观看 | 日本一级毛片视频 | 91久久亚洲精品一区二区 | 亚洲图片综合区 | 九九免费观看全部免费视频 | 亚洲欧美国产另类 | 亚洲欧美日韩激情在线观看 | 成人免费黄色 | 一级二级毛片 | 久久久久综合网 | 国产成人亚洲综合网站不卡 | 99精品视频在线观看免费播放 | 亚洲成年 | 国产综合区 | 四虎免费在线观看视频 | 久久香蕉国产线看观看亚洲片 | 深夜影院在线观看 |