大模型下探音視頻 AI 市場,戰爭才剛剛開始
大模型面向產業落地的難點是什么?
1. 當下,基于生成式的人工智能技術(AIGC),仍然需要海量數據進行訓練才能得到一個回復質量較高的模型算法,初期訓練成本非常之高。這對于傾向自研基礎大模型的企業是必須要過的門檻。
(相關資料圖)
2. 對于給出算法更加精準、訓練成本更低、對于用戶調取更方便的模型,這一方面的提升空間較為明晰。在媒體、游戲、營銷等行業已經看到比較多典型的內容生成場景,但 AIGC 技術并不能適用于所有場景,且在商業層面的實際回報率尚未明朗。
3. 從市場需求的共性來看,企業對 AI 技術更關心,關心怎么跟業務融合,但同時也會有些擔憂或緊張,新技術會不會對業務帶來沖擊。與此同時,各國對人工智能和數據獲取監管的法律條文,以及對 " 類 ChatGPT" 的支持力度,也在反映這種觀望態度。
過去半年,整個科技圈有關 AIGC 創新的新聞鋪天蓋地,但一頓操作猛如虎之后,還有更多仍在 " 來的路上 "。
6 月 1 日,阿里云宣布通義大模型進展,聚焦音視頻 AI 的 " 通義聽悟 " 正式亮相,成為國內首個開放公測的大模型應用產品。
通義聽悟其前身是早在 2021 年研發投入市場的 " 聽悟 " 產品,此次除了集成阿里通義千問大模型的理解與摘要能力外,還融合了阿里最先進的語音語義、多模態算法等技術。公測期間,聽悟用戶可通過每日登陸等多種任務領取免費轉寫時長,阿里云官方多個平臺也會放大量 20 小時的轉寫口令碼。除此之外,聽悟企業版還在與釘釘 " 釘閃記 "、夸克 APP、阿里云盤等進行能力進行集成。
此舉對于國內的 AI 語音技術服務商以及 " 類 ChatGPT" 應用企業,并不是個好消息。
從聽悟到通義聽悟
結合當前的官方定義來看,通義聽悟具備 " 聽 " 與 " 悟 " 能力,即 " 聽力好 ",能高準確度生成會議記錄、區分不同發言人," 悟性高 ",可形成摘要、總結全文及每個發言人觀點、整理關注重點和待辦事項。
這其實也明確了外界對 AI 音視頻技術產品的一個重要期待:要讓 AI 理解人類,并且以人類可理解的方式表達出來。AI 理解人類,意味著不只要聽到表面語義,甚至還要理解人的情緒和意圖;AI 表達,則意味著在文本生成、內容摘要、風格及情緒表達上要有所突破。同時結合多模態技術,不只是文字、音頻,還有圖像、視頻等方式傳遞給 AI 理解。
這個過程,在沒有大模型技術應用前,就已經存在諸多細節性挑戰。但在阿里云 CTO 周靖人看來,有了通義大模型的加持,阿里將多年積累的語音技術,以及多模態的能力有機結合起來,最終形成今天的通義聽悟。" ‘知其然不知所以然’是產品沒有大模型的局限性,過去的聽悟只能做到將語音文字轉錄出來,但背后的整理、理解、信息收取,是依靠人來完成的。之前也曾用過小模型,但結果并不好。" 周靖人在會后的交流活動中指出。
以語音識別 TTS 為例,聽悟內置了語音識別模型 Paraformer,它首次在工業級應用層面解決了端到端識別效果與效率兼顧的難題。配合 GPU 推理,不同版本的 Paraformer 可將推理效率提升 5~10 倍,同時,Paraformer 使用了 6 倍下采樣的低幀率建模方案,可將計算量降低近 6 倍,支持大模型的高效推理。
說話人識別模型 CAM++,相較于如 ECAPA-TDNN 和 ResNet 模型,在準確識別和高效計算的同時,還實現了整體優解。在行業主流的中英文測試集 VoxCeleb 和 CN-Celeb 上均刷新了最優準確率,并且在計算效率和推理速度上有著明顯優勢。
而此次聽悟上線測試的通義千問大模型的信息摘要能力,為保證抽取出的摘要信息的事實準確,大幅度減少幻覺,團隊還融合了在推理、對齊和對話問答等方面的研究成果。如在推理能力方面,2022 年團隊提出了基于大語言模型的知識探測與推理利用的框架 Proton。
對手會是訊飛嗎?
業內普遍一個聲音是," 很多產品因為大模型的到來會重新再做一遍 ",接入大模型能力,或將改變的是產品的業務邏輯、交互模式,甚至是收費模式。
從通義聽悟當前的產品界面上看,針對的仍然是比較高頻的場景,往往跟對話或交流相關,如上述提及的總結、翻譯、內容摘取,其本質上是對內容語義的理解輸出。據官方描述,其定位為一款工作學習 AI 助手,瞄準具有高知識附加值的音視頻內容場景,如開會、上課、訪談、培訓、面試、直播、看視頻、聽播客等,能通過大模型等最新 AI 技術快速提煉和沉淀知識。
通義聽悟的技術負責人鄢志杰一直都在從事智能語音交互相關工作,他解釋道," 目前展示的視頻轉文字,仍然是將視頻里的音頻進行文字轉換,尚未展示出視頻直接轉文字的理解過程。未來會進行多模態的理解,不僅要有音頻轉文字,還要輔助以視頻和視覺的模態對內容進行更好的理解。"
下一步,通義聽悟會被各種各樣的業務系統集成,集成到智能化服務中,開發者可根據實際場景,最終打造基于業務場景的 MaaS 服務," 通義聽悟一定會推出企業版,為企業場景所定制,每個企業也都會有不同的需求,也有數據安全、數據隱私等方面的要求。" 周靖人補充道。
那么,通義聽悟的對手會是訊飛嗎?
事實上,音視頻是人機交互的重要入口,市面上成熟的 AI 音視頻產品并不在少數,除了訊飛、搜狗、網易有道等具備軟硬件能力的服務商外,飛書妙記、騰訊會議等互聯網公司孵化的企業辦公生產力工具,也同樣具備相似的能力。可能的區別在于,背后的 AI 技術邏輯,是否會因大模型的到來而徹底改變。
科大訊飛于上月發布星火大模型,其中軟件產品訊飛聽見會寫已經搭載大模型開放使用,在收費模式上已經給市場參考標準——根據單次 AI 能力的使用(單次字數不超過 8000 字)按月 / 季 / 年會員收費。
互聯網公司在這方面的積累也從未缺席,在不斷豐富 AI 技術體系的同時,也在迅速推進大模型 + 的創新。例如從早期的 iDST 實驗室到達摩院,阿里 2019 年開始投入大模型,2021 年訓練實現 10 萬億參數的多模態大模型 M6,2022 年發布通義大模型,到如今的通義千問、通義聽悟已經在逐步產業化融合。
《中國人工智能大模型地圖研究報告》指出,據不完全統計,中國 10 億級參數規模以上大模型已發布了 79 個,特別是在自然語言理解、機器視覺、多模態等方面,出現了多個在行業有影響力的大模型。上述提及的網易有道則基于教育場景推出了 " 子曰 " 大模型,出門問問的 " 序列猴子 " 則面向多模態生成能力的大語言模型……
可見,能容納后來者的賽道,依然存在尚未挖掘的價值空間,更何況大模型將帶來新的變量。
(本文首發鈦媒體 APP,作者 | 楊麗)
責任編輯:hnmd003
相關閱讀
相關閱讀
-
大模型下探音視頻 AI 市場,戰爭才剛剛開始
圖片來源:視覺中國大模型面向產業落地的難點是什么?1 當下,基于生成
-
中華人民共和國刑法第一百三十三條內容是什么?危險駕駛罪的量刑標準是什么?
醉駕如果沒有發生交通事故,情節輕微的能從寬免刑。醉駕情節嚴重的可能構成危險駕駛罪,一般處拘役,并...
-
每日精選:這家企業估值50億美元!腦機接口概念大漲,關注兩條主線
美國硅谷企業家埃隆·馬斯克參與創辦的腦機接口企業“神經連接”公司雖
-
全國職工數字化應用技術技能大賽決賽開幕
2023年6月7日,全國職工數字化應用技術技能大賽決賽開幕式在福建省福州海峽國際會展中心舉行。大賽設置焊...
-
年金險基本保額是什么意思?保額一般有多少? 世界今頭條
年金險基本保額是指投保人在購買年金險時,所確定的最低保障金額。也就
-
環球觀熱點:保險公司年金險好不好?怎么選?
好。保險公司年金險屬于固定收益類投資品種,在風險控制方面比較可靠。
-
年金險期滿可以拿回本金嗎?年金險的好處有哪些?
不一定。因為年金險的本金是用來購買保險的,所以在購買年金險時,被保
-
年金險從什么時候領取劃算?年金險領取的方式是什么?|環球聚焦
要根據情況定。有部分年金險產品,在投保后的第五年就可以開始領取返還
-
增額壽險與年金險的區別是什么?要怎么買?
首先,在領取方式方面,年金險在繳納保費后會按照約定周期固定領取養老
-
富瑞:維持太平洋航運買入評級 目標價降至3.1港元|世界時快訊
富瑞發布研究報告稱,維持太平洋航運(02343)“買入”評級,仍看好干
-
短期有價證券是速動資產嗎?短期有價證券包括哪些?
短期有價證券是速動資產嗎?短期有價證券是指投資者可在比較短的一段時間內,到期后可以將其兌現的金融資...
-
即時焦點:弘和仁愛醫療延長兩筆可換股債券的到期日
6月7日,弘和仁愛醫療公布,于2023年6月6日,公司與譽鋒訂立譽峰修訂契
-
將燈具與昆曲巧妙結合,南林這場設計展亮點多多_全球速遞
現代快報訊(通訊員雷蕾記者于露文 攝)古色古香的桌椅、結合昆曲元素
-
天璣 9300 全大核 CPU 架構狂撼市場,聯發科再度問鼎出貨量第一
根據CounterpointResearch發布的報告,全球手機芯片市場掀起了一股驚濤
-
天天速訊:三星將于 7 月底發布 Galaxy Z Fold 5 和 Flip 5,能否延續優勢地位?
三星宣布,今年的GalaxyUnpacked2023活動將于7月下旬在韓國首爾舉行,
-
環球要聞:商湯與上海 AI 實驗室等發布“書生 · 浦語”大模型
品玩6月7日訊,據商湯科技官方消息,商湯科技、上海AI實驗室聯合香港中
-
天天亮點!西部數據推出 WD_BLACK C50 擴展卡:Xbox Series X/S 專用,提供最大 1TB 產品
西部數據宣布,正式推出WD_BLACKC50擴展卡,屬于高性能的黑盤產品。這
-
股票跌停能賣出嗎?股票跌停買入危險嗎?
股票跌停能賣出嗎?跌停的股票是可以賣出的,股票監管層對股票每天上漲和下跌額度進行限制,一般控制在10...
-
股市為什么會跌?股票虧了死守會回本嗎?
股市為什么會跌?原因之一:獲利回吐導致股價大幅下跌。當股票突然大幅上漲,中之間的跌幅很小時,可以快...
-
企業法人是指什么?企業法人需要承擔的責任與風險
企業法人是指什么?企業法人,是指以營利為目的,獨立地從事商品生產和經營活動的社會經濟組織。在西方某...
-
全球要聞:一起來看看視頻怎么快速轉音頻吧
它的【視頻轉音頻】功能可以幫助我們在保證音頻效果的情況下,快速的將
-
新資訊:助力高考“益”起追夢,貝殼“高考服務站”為夢想護航
十年寒窗終不負。6月7日,一年一度的全國高考拉開帷幕。據悉,今年高考
-
熱議:下一波5G技術發展在哪,蘋果XR產品如何?愛立信中國區總裁方迎回應
鳳凰網科技訊6月7日上午消息,愛立信夏季媒體溝通會于2023中國國際信息
-
長安汽車:未收到供應商“函件”,每年磋商供應價格是行業一貫做法
長安汽車:未收到供應商“函件”,每年磋商供應價格是行業一貫做法針對
-
【環球快播報】滬蘇浙皖簽署文旅發展框架協議 擬打造長三角文旅一體化新樣本
《協議》聚焦共同構建世界級高品質文化和旅游目的地,把實施擴大內需戰
-
蔡司或將停止生產攝影鏡頭 Batis 等系列產品落下帷幕
相信不少攝影師都發現,蔡司在2019年4月發布Otus100mmf 1 4定焦鏡頭后
-
環球訊息:榮耀 Magic V2 通過 3C 認證,依舊是 66W 快充,輕薄或超華為
國內這幾年折疊屏手機產品線已相對豐富,類如華為、榮耀、小米、vivo、
-
華為孟晚舟:生成式 AI 等技術正快速融入金融業務-每日快看
鈦媒體App6月7日消息,在華為全球智慧金融峰會2023上,華為輪值董事長
-
美版貼吧數據不讓大模型白嫖了!年費 2000 萬,Stable Diffusion 等上百個社區炸鍋:暫停服務
Reddit:我們的目標就三個,搞錢、搞錢、還是**的搞錢!不想被白嫖的Re
-
三星電子與現代汽車于車載芯片解決方案首次合作,預計于 2025 年正式落地投用
美通社消息,近日,三星電子宣布其最新的汽車處理器ExynosAutoV920已定
精彩推薦
閱讀排行
精彩推送
- 年金險交了一年不交了行嗎?退保...
- 環球頭條:中國人民人壽年金險利...
- 五險二金中的年金是什么?企業年...
- 全球新動態:年金險月領和年領的...
- 今日關注:年金險能一次性領取嗎...
- “花錢吃剩菜”,買嗎?
- 世界速遞!4000臺哪吒汽車發運海外
- 每日報道:油車危!特斯拉Model...
- 福特因起火風險在美國召回12.5萬...
- 公民的政治權利主要有什么?政治...
- 林權證的作用是什么?林權證可以...
- 吸毒是違法還是犯罪?吸毒者一般...
- 共有產權房是什么意思?共有產權...
- 黨內警告處分有什么影響?黨內警...
- 履約能力是什么意思?履約能力從...
- 富格林:曝光阻撓出金黑幕 強勁...
- 債務承擔是效力待定嗎?債務承擔...
- 世界首家女子馬球俱樂部落地仙女...
- 被刪除的 Sam Altman 談話紀...
- 618 好物選購,想要辦公娛樂皆...
- 華碩發布新款 Vivobook 16 OL...
- 索尼,愛上種田
- Reddit 宣布將解雇 5% 左右的員工
- 投資 30 億終定檔,《封神三部...
- 環球即時看!阿里、百度、值得買...
- 孟晚舟亮相!華為重磅宣布!國內...
- 【世界播資訊】拉薩市人社部門開...
- 有限責任公司是什么意思?有限責...
- 公司請喪假需要什么證明?請喪假...
- 什么是期房?期房延期交房可以退...