ResponsibleTA 提升 LLM 可靠性,任務完成更安全、更高效 即時看
機器之心專欄
機器之心編輯部
(相關資料圖)
AI 智能助手照進現實。
近幾個月,ChatGPT、GPT-4 等大語言模型(LLM)展現出突破性的理解、推理、生成、泛化和對齊能力,對各行各業的研究方式和生產效率均帶來廣泛而深遠的變革及影響。此外,LLM 還展現出在真實世界的開放場景中解決復雜問題的能力,使科幻電影中無所不能的 AI 智能助手照進了現實。
在實現自然場景中的任務自動化時,一個復雜的任務往往由多個子任務構成,這需要多個模型或 APIs 的協作。如何確保 LLM 和執行器之間高效、安全、穩定地協同工作,是構建 Responsible AI ,以及讓 LLM 可靠地為人類提供服務的關鍵問題。
為了解決這個問題,來自微軟亞洲研究院的研究團隊提出 Responsible Task Automation ( ResponsibleTA ) 框架,提升 LLM 和執行器之間協同工作的安全性和有效性。
論文鏈接:https://arxiv.org/pdf/2306.01242.pdf項目主頁:https://task-automation-research.github.io/responsible_task_automation/
方法
本文通過提出一個新的任務自動化框架,通過可行性檢測,完成度檢驗,用戶隱私保護等三個模塊,提高了大語言模型作為任務助手的可靠性,為未來的人機交互提供了一種可行的方式。
該系統框架包含基于 LLM 的中央處理單元、指令執行器、指令可行性預測器、指令完成度檢驗器和安全性保護器。
Responsible Task Automation ( ResponsibleTA ) 框架示意圖當 ResponsibleTA 接收到復雜任務對應的高層級指令時,安全性檢測自動將包含用戶隱私的命令實體替換成對應的占位符,然后將去隱私化的指令發送給部署在云端的 LLM,LLM 據此規劃實現該負責任務目標的單步指令,然后發送給的部署在本地的執行器實際執行相關操作。從 Responsible AI 的角度出發,該框架賦予 LLM 三個新的能力:
1)可行性預測:ResponsibleTA 框架針對 LLM 和執行器的協同,開發設計了可行性預測模塊。該模塊用于對 LLM 的輸出進行可行性判斷,及時攔截不可行的執行指令,從而規避在執行這些指令的過程中產生的不可控風險。當 LLM 輸出的指令判斷為「不可行」時,可行性預測期會將其分析結果返回給 LLM,并要求其重新進行任務規劃,力求將合理可行性的指令交付給執行器,提升任務自動化的成功率。
2)完成度檢驗:ResponsibleTA 框架設計了一個完成度檢驗器,用于在執行器每次執行結束后自動檢查其執行結果是否符合預期。該模塊根據執行器執行后的即時狀態,判斷 LLM 當前規劃是否完成,并提供及時補救的可能。當執行狀態判定為「未完成」時,完成度檢驗器會要求 LLM 啟動 replanning,使其能夠及時調整任務規劃。
完成度檢驗器和上述可行性預測器,分別在 LLM 輸出指令的執行前后,對指令的合理性和執行的完成性進行校驗,為任務自動化的可靠性提供了雙重保險。
3)用戶隱私保護:ResponsibleTA 框架還設置了用戶隱私保護機制,該機制通過一個本地記憶單元實現。當用戶將高層級命令發送給部署在云端的大語言模型時,ResponsibleTA 中的隱私保護模塊自動將命令中的隱私信息(如:用戶名、密碼、地址等)替換成對應的占位符,而當大語言模型將規劃的低層級指令發送給部署在本地的執行器是,占位符會被自動替換成對應的真實信息。于此方式,用戶的隱私信息僅在本地被存儲和被使用,無需發送至云端,從而避免在傳輸和使用中的不可控風險。
針對 ResponsibleTA 中的可行性預測和完成度檢查功能,其研究團隊在 UI 任務自動化場景下提出并對比了兩種不同的技術路線,并在實驗部分詳細分析了這兩種技術路線的特點。以可行性預測為例,第一種技術方案通過 Prompting 的方式利用大語言模型內部知識進行判斷。具體地,研究者訓練了一個屏幕解析模型將 UI 頁面解析成所含 UI 元素的語言描述,并將和指令一起輸入給 GPT-4 模型,讓 GPT-4 判斷當前指令的可行性。具體方案如下圖所示。
基于 prompt engineering 的(指令)可行性預測器實現方案另一種技術方案在于訓練一個專用的多模態模型,該模型接收 UI 頁面的視覺信號和對應的語言指令為輸入,輸出該指令的可行性判定結果,具體結構如下圖。
基于專用模型的(指令)可行性預測器實現方案完成度檢驗器的實現方案于可行性預測器類似,在此不詳細贅述。
實驗
該工作的作者首先對 ResponsibleTA 中的關鍵模塊進行定性實驗,驗證其有效性,并對比不同實現方式的特點。據下表所示實驗結果,作者認為專用模型能夠提供更優的實驗結果但需要收集特定任務對應的數據和標注用于模型訓練,而基于 LLM 的技術方案也能達到不錯的效果,并在實際部署的成本和靈活性方面具有優勢。
可行性預測器和完成度檢驗器的定性實驗結果作者還在真實世界的實際使用場景中進行 online testing, 并匯報了基線模型,具有可行性預測器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 個實際 UI 任務執行過程中的具體表現。作者觀察到所提出的可行性預測器和完成度檢驗器能夠避免執行不可理 / 不可行的指令,并能通過讓 LLM 進行 replanning 的方式進行及時補救,從而提升任務自動化的成功率。
真實世界中實例研究定量結果。表格中的數字表示 「有效執行步數 / 總共執行步數 (人類專家執行步數)」。此外,作者還通過具體的案例分析直觀地展現了 ResponsibleTA 框架中的關鍵模型如何對一個失敗案例進行補救,使其成為一個成功案例。
案例分析:進入亞馬遜網站并將最便宜的充電器添加至購物車。THE END
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
相關閱讀
-
ResponsibleTA 提升 LLM 可靠性,任務完成更安全、更高效 即時看
機器之心專欄機器之心編輯部AI智能助手照進現實。近幾個月,ChatGPT、G
-
大地震下如何存活,蘋果三份 1986 年文檔公開(附下載地址)_即時看
IT之家6月22日消息,蘋果公司在主推iPhone和Mac的過程中,也制造了很多
-
信息:佳能即將發布 V100 相機,主打 vlog 市場?
根據網絡上的最新傳聞,佳能即將擴展其V系列視頻記錄相機。目前產品線
-
小長假第1天,A股迎來2個利好!節后的方向定了?|新動態
行情,沒有好壞,只有節奏,不要盯著大盤指數了,雖然我知道大多數人都
-
端午臨近 市場消費升溫
傳統習俗帶動端午花束熱賣,用艾草葉、玉簪葉、菖蒲葉等組成的裝飾花、
-
【世界新視野】氫穩富氫水杯 H1 華為商城開啟眾測 快速科技制氫
【宅秘新聞】近日,氫穩富氫水杯H1在華為商城開啟眾測活動,正式發售價
-
環球速訊:內地買家攪動香港樓市,馮小剛離場凈賺 6000 萬港元,豪宅成交量大漲
本文來源:時代財經作者:林心林內地豪客再次攪動了香港樓市。圖片來源
-
全球今熱點:全國首部漸凍人康復系列片之《言語障礙康復》在崇川首發
交匯點訊6月16日下午,凝聚了崇川區幸福街道暖“凍”愛心聯盟所有成員
-
針對中國,一場“瘋狂騙局”在澳上演
在政府、右翼智庫、軍火工業和操縱公眾思維的媒體的共同壓制下,異見聲
-
iPhone SE 4 遙遙無期,平價 5G 蘋果手機或絕跡?_今熱點
巴克萊銀行分析師布萊恩柯蒂斯(BlayneCurtis)和湯姆奧馬利(TomO & 039;Malle
-
聚焦:白色手機消失了?安啦,數量不多,但還是有的
手機的配色越來越豐富,各種顏色和材質的搭配讓手機變得更加個性化和時
-
諾蘭專訪:AI 不是原子彈,但將其捧上神壇最危險
這可能是英國著名導演克里斯托弗·諾蘭,發布新片最好的時機,沒有之一
-
河北格力旗艦店 618 盛大開業 充分展現了渠道改革下的市場活力-今日觀點
關注雷科技(leitech),這里有深扒爆料,這里有酷玩評測,還有良心家電I
-
天天新動態:特斯拉的美國友商們入華,會被中國新勢力“卷”回老家嗎?
圖片來源@視覺中國文|電車通瘦田無人耕,耕開有人爭。繼本月初曝出美國
-
每日資訊:只買百萬醫療險有意義嗎?一年交多少錢?
有意義。雖然百萬醫療險在提供醫療保障方面具有一定的價值,夠買百萬醫
-
團體意外險怎么購買?多少錢?
購買團體意外險通常需要以下幾個步驟:選擇保險公司:首先,您需要選擇
-
扎克伯格不服馬斯克嘲諷,兩大科技領袖將上演籠斗大戲|消息
IT之家6月22日消息,在埃隆馬斯克最近在推特上發文說他愿意和扎克伯格
-
微軟確認 Xbox Series X 和 XGP 訂閱服務即將漲價
鈦媒體App6月22日消息,當地時間周三,微軟全球傳播主管KariPerez在向
-
對話藍晶微生物:科學家建工廠,要做 game changer 就別無選擇
訪、文|凌梓郡衛詩婕編輯|衛詩婕江蘇鹽城濱海區矗立著高大的白色風車
-
推特恢復向谷歌支付云服務費用 每日速訊
鈦媒體App6月22日消息,據市場消息,推特已經恢復向谷歌云支付服務費用
-
高盛上調日本股市目標位,預計半年度財報可能有驚喜 熱資訊
高盛上調日本股市目標位,稱對于日本企業改革的預期以及相對于海外市場
-
全球熱訊:蘋果宣布推出 visionOS 軟件開發包,開發者下月可在 Vision Pro 硬件上測試 app
蘋果公司北京時間6月22日宣布推出visionOS軟件開發包(SDK),支持開發
-
視焦點訊!微軟在香港正式推出 Bing 聊天機器人
6月22日,據《香港經濟日報》報道,微軟在香港正式推出Bing聊天機器人
-
美股牛市不穩?高盛:若美經濟步入衰退 標普 500 料大跌 23%|全球滾動
財聯社6月22日訊(編輯黃君芝)高盛(GoldmanSachs)在最新報告中表示
-
《秀我中國 | 新時代中國鄉村志(第四集):千年梯田 十年新生》
松花江網,是經國家互聯網信息辦公室批準的國家一類新聞網站,吉林省重
-
華貴人壽保險可信嗎?怎么買? 天天時訊
可信。監管合規性:華貴人壽保險嚴格遵守監管機構的規章制度,按照法律
-
增額終身壽險定義是什么?有什么用?-焦點觀察
增額終身壽險是一種壽險,它與傳統的終身壽險相比,在保障的基礎上增加
-
太平百萬醫療優缺點有哪些?一年交多少錢?-環球速訊
優點:全面保障:太平百萬醫療保險提供了全面的醫療保障,覆蓋住院醫療
-
環球看熱訊:泰康健康有約終身重大疾病保險H款怎么樣?靠譜嗎?
泰康健康有約終身重大疾病保險H款是一款特定類型的重大疾病保險產品。
-
商業意外險的賠償范圍有哪些?一年多少錢?
商業意外險的賠償范圍通常包括以下幾個方面:醫療費用賠償:商業意外險
精彩推薦
閱讀排行
精彩推送
- 天璣曲面屏之王!vivo X90s 上...
- 谷歌幽默新廣告嘲笑 iPhone 過...
- 全球球精選!保護中國海外投資利...
- 天天信息:賈躍亭發文致歉!
- 天天快資訊丨微軟在香港正式推出...
- “超市界海底撈”董事長宣布退休...
- 高新區召開危化品重大事故隱患專...
- 每日消息!美國文學亨利詹姆斯課...
- 最新:百萬醫療保險購買流程是什...
- 速訊:泰康人壽逸安衛年金險亮點...
- 平安百萬醫療電話是多少?電話投...
- 福祿康瑞2018重疾險20年后可以拿...
- 世界速讀:國壽康寧終身重大疾病...
- 周浩 在創新路上奮勇前行
- 今日播報!電力微網格織出居民“...
- 世界最資訊丨端午出游好去處,OP...
- 環球熱點!通用機器人里程碑?谷...
- 通訊!中國柔性 OLED 市占首超...
- 福特 CEO 嘲諷特斯拉 Cybertr...
- 三年虧損 614 億,東航“玩不...
- 理想吹響城市 NOA 號角:激光...
- 共享按摩椅,我一秒鐘都不想坐|...
- 每日看點!華為爆出大動作!將有...
- “中國天眼”發現迄今軌道周期最...
- 哪種百萬醫療險保證續保?續保流...
- 泰康人壽逸安衛有什么投保規則?...
- tomo放療百萬醫療可以報銷嗎?百...
- 少兒百萬醫療保險推薦?有必要買...
- 每日資訊:水滴百萬醫療險保障范...
- 內地買家攪動香港樓市,馮小剛離...