首頁 > 新聞 > 智能 > 正文

        面向現實世界場景,多語言大數據集 PRESTO 來了

        2023-04-07 21:13:28來源:ZAKER科技  

        機器之心報道

        機器之心編輯部


        (資料圖片僅供參考)

        PRESTO –一個多語言數據集,用于解析現實的面向任務的對話。

        虛擬助理正日益融入我們的日常生活。它們可以幫助我們完成很多事情:從設置鬧鐘到在地圖導航,甚至可以幫助殘疾人更容易地管理他們的家。隨著我們使用這些助手,我們也越來越習慣于使用自然語言來完成那些我們曾經用手完成的任務。

        構建強大虛擬助理所面臨的最大挑戰之一是確定用戶想要什么,以及完成這些任務需要哪些信息。在自然語言處理(NLP)的相關文獻中,這件事被定義為一個面向特定任務的對話解析任務,其中給定的對話需要由系統解析,以理解用戶意圖并執行操作來實現該意圖。

        基于定制化的數據集,如 MultiWOZ、TOP、SMCalFlow 等,學術界在處理面向特定任務的對話方面取得了一些進展。但這些數據集缺乏模型訓練所需的典型語音場景,無法優化語言模型性能,仍然有很大的進步空間。由此產生的模型往往表現不佳,用戶對互動功能的效果有一些失望。相關的語音場景涉及內容修改場景、不流暢的對話語序場景、不同語言混合使用場景,以及使用圍繞用戶環境的結構化上下文,其中可能涉及用戶的筆記、智能家居、聯系人列表等。

        例如以下對話,該對話說明了用戶需要修改其話語時的一個常見實例:

        體現了用戶修訂的對話實例。

        虛擬助理誤解了用戶的請求,并試圖撥打不正確的聯系人。因此,用戶必須修改他們的話語以糾正助手的錯誤。為了正確地解析最后一句話,助理還需要解釋用戶特指的內容 — 在這種情況下,它需要知道用戶在他們的手機中保存了一個聯系人名單,它應該參考這個名單。

        另一類對虛擬助理具有挑戰性的困難場景是混合語言采場景,當用戶在對助理講話時從一種語言切換到另一種語言時,就會發生語言混合使用。例如下面的話語:

        英語和德語文本混合使用的對話示意圖。

        在本例中,用戶從英語切換到德語,其中「vier Uhr」在德語中的意思是「四點鐘」。

        為了推進解析這種現實存在的復雜語言文本的研究,近日,谷歌助手團隊和哥倫比亞大學俞舟教授合作推出一個名為 PRESTO 的新數據集,這是一個用于解析現實任務對話的多語言數據集,其中包括大約 50 萬人與虛擬助理之間的現實對話。

        該數據集涵蓋六種不同的語言,包括用戶在使用助手時可能遇到的多種對話場景,包括用戶定制改變、不流暢的對話語序場景、不同語言混合使用場景。數據集還包括結構化的上下文,例如用戶的聯系人列表。PRESTO 對各種場景進行了標注,使人們能夠創建不同的測試集來分別分析這些語言場景的模型性能。

        論文鏈接:https://arxiv.org/abs/2303.08954

        研究者發現,這些場景中的一些更容易建模,只需很少的樣本,而另一些場景則需要更多的訓練數據。

        數據集特征

        涉及六種語言

        我們數據集中的所有對話都是由語言對應的原生使用者提供,包括六種語言 —— 英語、法語、德語、印地語、日語和西班牙語。這與其他數據集,如 MTOP 和 MASSIVE 形成了鮮明對比。上述數據集僅將話語從英語翻譯成其他語言,并不一定反映以非英語為母語的人的語言模式。

        結構化上下文

        用戶在與虛擬助理交互時,通常會使用存儲在設備中的信息,如筆記、聯系人和列表。然而,助手通常無法訪問此上下文,這可能導致在處理用戶話語時出現解析錯誤。為了解決這個問題,PRESTO 包括三種類型的結構化上下文、注釋、列表和聯系人,以及用戶話語及其解析。列表、筆記和聯系人由每種語言的母語使用者在數據收集過程中編寫。有了這樣的上下文,研究者可以探索如何使用這些信息來提高解析面向任務的對話模型的性能。

        PRESTO 中的每個例子都包括:輸入 —— 用戶的虛擬狀態(上下文)、一個或多個用戶的對話,以及虛擬助理的回應(對話)。輸出 —— 對話中最后一個用戶話語的語義解析(parse)。

        內容修改場景

        用戶在與虛擬助理交談時,修改或糾正自己的話語是很常見的。這些修改發生的原因有很多 —— 助手可能在理解話語方面犯了錯誤,或者用戶在發表話語時改變了他們的想法,例如圖二。其他例子包括取消自己的請求(「不要添加任何東西?!梗┗蛟谕粋€語詞中糾正自己(「添加面包 — 不,不,等等 — 在我的購物清單上添加小麥面包?!梗?。在 PRESTO 的所有例子中,大約有 27% 的例子有某種類型的用戶修改,并且在數據集中有明確的標記。

        語言混合使用場景

        截至 2022 年,世界上大約有 43% 的人口是雙語的。因此,許多用戶在與虛擬助手交談時都會轉換語言。在建立 PRESTO 的過程中,研究者要求雙語數據貢獻者對語言混合使用的語料進行注釋,這些語料約占數據集中所有語料的 14%。

        來自 PRESTO 的印地語 - 英語、西班牙語 - 英語和德語 - 英語編碼混合語料的例子。

        非流暢的對話語序場景

        由于人們和虛擬助手的對話中存在很多口語表達,類似重復的短語或填充詞這樣的斷續語在用戶的話語中是無處不在的。像 DISFL-QA 這樣的數據集注意到現有的 NLP 文獻中存在這樣的場景,開始致力于跨域這種鴻溝。在本文的工作中,研究者考慮了六種語言下的對話。其中,英語、日語和法語中帶有填充詞或重復的語料的例子。

        主要發現

        研究者對上述每一種場景都進行了有針對性的實驗,他們使用 PRESTO 數據集訓練出一些基于 mT5 的模型,并使用介于預測解析和人工注釋解析之間的一種精確匹配方法來對模型進行評估。下面展示了對內容修改場景、非流程的對話語序場景和語言混合使用場景這三種場景中,在不同的訓練數據數量下的性能結果。

        隨著訓練數據量的增加,對各種語言場景和完整測試集進行 K-shot 的結果。

        可以發現,對目標場景進行零樣本學習得到的性能較差,這說明在數據集中使用目標場景中設計的文本來提高性能是有必要的。模型在非流程的對話語序場景和語言混合使用場景下的表現比用戶判讀要好得多(精確匹配準確度相差 40 多分)。

        結論

        在該工作中,作者介紹了 PRESTO,一個用于解析面向對話任務的多語言數據集。該數據集涵蓋了用戶與虛擬助理的日常對話中的各種真實痛點,這些痛點是當前 NLP 社區中現有數據集所缺乏的。

        PRESTO 包括大約 50 萬個由英語、法語、德語、印地語、日語和西班牙語六種語言的母語使用者貢獻的話語。研究者創建了專門的測試集來評估每一種場景 —— 內容修改場景、非流程的對話語序場景和語言混合使用場景以及結構化的上下文。實驗的結果表明,當目標場景不包含在訓練集中時,零樣本的表現較差,這表明需要使用此類語句來提高性能。

        同時研究者注意到,內容修改場景、非流程的對話語序場景更容易通過增加更多的數據來完成建模,而語言混合使用場景下即使有更多的樣本,也依然難以建模。

        隨著這個數據集的發布,研究者預期能帶來新一輪的探索熱潮,他們希望研究界能在用戶每天日常聊天場景下進行研究,并且能取得進展。

        THE END

        轉載請聯系本公眾號獲得授權

        投稿或尋求報道:content@jiqizhixin.com

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        亚洲综合一区国产精品| 亚洲成人高清在线| 亚洲av无码一区二区三区四区| 亚洲国产精品白丝在线观看| 久久久久亚洲AV无码专区体验| 婷婷久久久亚洲欧洲日产国码AV| 欧洲亚洲国产清在高| 亚洲小说区图片区另类春色| 亚洲毛片αv无线播放一区| 国产亚洲精品福利在线无卡一| 伊人婷婷综合缴情亚洲五月| 国产美女亚洲精品久久久综合| 亚洲中文字幕在线观看| 亚洲综合精品香蕉久久网| 伊人久久亚洲综合| 亚洲精品国产精品乱码在线观看| 亚洲精品国精品久久99热一| 国产成人无码综合亚洲日韩| 亚洲电影中文字幕| 久久综合亚洲色一区二区三区| 亚洲综合视频在线观看| 亚洲AV综合色区无码二区偷拍| 亚洲三级高清免费| 亚洲成av人片天堂网无码】| 在线91精品亚洲网站精品成人| 一本色道久久88亚洲综合 | 亚洲日韩人妻第一页| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 亚洲国产成人a精品不卡在线| 亚洲人成色7777在线观看不卡| 久久伊人亚洲AV无码网站| 亚洲精品夜夜夜妓女网| 久久国产亚洲观看| 亚洲毛片免费观看| 91在线亚洲综合在线| 亚洲AV网一区二区三区 | 亚洲欧洲日产国产最新| 中文日韩亚洲欧美制服| 在线精品自拍亚洲第一区| 国产亚洲精品成人AA片新蒲金| 久久国产亚洲观看|