我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
IT之家 8 月 7 日消息,科羅拉多大學(xué)博爾德分校的研究人員在《計算語(yǔ)言學(xué)協(xié)會(huì )研究發(fā)現》上發(fā)表了一篇論文,揭示了大型語(yǔ)言模型(LLM)在解決數獨問(wèn)題時(shí)的局限性,尤其是其在解釋決策過(guò)程中的不足。
研究人員發(fā)現,即使是相對簡(jiǎn)單的 6×6 數獨,大多數大型語(yǔ)言模型在沒(méi)有外部輔助工具的情況下也難以解決。這一現象反映出 LLM 在邏輯推理方面的短板。數獨的本質(zhì)并非數學(xué)運算,而是一種符號邏輯游戲,需要從整體出發(fā),找到符合邏輯的解題順序,而 LLM 往往會(huì )按照訓練數據中類(lèi)似情況的模式,逐個(gè)填充空缺,這種逐個(gè)推理的方式難以應對數獨的復雜邏輯。
而且,當研究人員要求這些模型展示解題過(guò)程時(shí),結果令人失望。大多數情況下,模型無(wú)法準確、透明地解釋其決策過(guò)程。有時(shí)它們會(huì )給出看似合理的解釋?zhuān)@些解釋并不符合實(shí)際的解題步驟;有時(shí)甚至會(huì )給出與問(wèn)題完全無(wú)關(guān)的回答,例如在一次測試中,OpenAI 的 o4 推理模型在被問(wèn)及數獨問(wèn)題時(shí),突然開(kāi)始談?wù)摰し鸬奶鞖忸A報。
科羅拉多大學(xué)計算機科學(xué)教授阿舒托什?特里維迪(Ashutosh Trivedi)指出,如果生成式 AI 工具不能準確、透明地解釋其決策過(guò)程,那么隨著(zhù)我們越來(lái)越多地將生活和決策權交給這些工具,就必須保持謹慎。他強調:“我們希望這些解釋能夠透明地反映 AI 做出決策的原因,而不是 AI 為了迎合人類(lèi)而提供人類(lèi)可能喜歡的解釋。”
IT之家注意到,這種解釋能力的缺失并非僅在數獨問(wèn)題上體現。研究人員還發(fā)現,LLM 在其他邏輯游戲(如國際象棋和漢諾塔問(wèn)題)中也存在類(lèi)似問(wèn)題。以國際象棋為例,LLM 雖然能夠找到合理的下一步棋,但往往無(wú)法像人類(lèi)高手那樣提前規劃多步棋局,甚至有時(shí)會(huì )違反規則移動(dòng)棋子,導致局面陷入混亂。
此外,研究人員還指出,解釋能力對于 AI 的應用至關(guān)重要。隨著(zhù) AI 在駕駛、稅務(wù)處理、商業(yè)決策和重要文件翻譯等領(lǐng)域的應用逐漸增加,其解釋能力將成為衡量其可靠性的關(guān)鍵因素。特里維迪教授警告說(shuō):“如果 AI 的解釋是為了錯誤的原因而進(jìn)行的,那么這種解釋就非常接近于操縱。我們必須非常謹慎地對待這些解釋的透明度。”
研究顯示:AI 解 6x6 數獨都費勁,解釋決策時(shí)還答非所問(wèn) 11:07:16
大疆跨界掃地機器人:堆料足但難出頭,背后藏著(zhù)更大的野心 10:11:40
12國華裔大學(xué)生在皖熱議“AI與跨文化交流” 10:09:43
99元小訂6分鐘破萬(wàn)!全新小鵬P7亮相,何小鵬:希望重回20萬(wàn)以上市場(chǎng)前三 10:08:34
OpenAI向美國政府提供ChatGPT企業(yè)版:每個(gè)機構每年1美元 10:07:08
蘋(píng)果 iOS 26 新特性:低電量動(dòng)畫(huà)上線(xiàn),脈沖式提醒 iPhone 用戶(hù) 09:52:20