什么樣的方案,奪得了 CVPR 自動駕駛挑戰(zhàn)賽冠軍?
機器之心報道
編輯:小舟
【資料圖】
自動駕駛中的三維占用預測難題,一場比賽給出了解決方案。
道路錯綜復雜、交通工具形態(tài)各異、行人密集,這是當前城市道路交通的現(xiàn)狀,也是自動駕駛領域面臨的現(xiàn)實挑戰(zhàn)。為了應對這一挑戰(zhàn),感知和理解三維環(huán)境至關重要。
在傳統(tǒng)的三維物體檢測任務中,前景物體通常由三維邊界框表示。然而,這種方法存在一些弊端,一方面,現(xiàn)實世界的物體幾何形狀非常復雜,無法用簡單的三維框表示;另一方面,這種方法容易忽略背景元素的感知。對于實現(xiàn)全面的 L4/L5 自動駕駛,傳統(tǒng)的三維感知方法是遠遠不夠的。
最近,端到端自動駕駛研討會 ( End-to-End Autonomous Driving Workshop ) 聯(lián)合視覺中心自動駕駛研討會 ( Vision-Centric Autonomous Driving Workshop ) 在 CVPR 2023 上舉辦了自動駕駛挑戰(zhàn)賽,其中就包括三維占用預測(3D occupancy prediction)賽道。
圖 1 CVPR2023 自動駕駛挑戰(zhàn)賽三維占用預測是自動駕駛領域的新興任務,要求對車輛行駛場景進行細粒度建模,對于實現(xiàn)自動駕駛的通用感知能力有著重要意義。比賽提供基于 nuScenes 數(shù)據(jù)集的大規(guī)模占用預測評估基準,對三維空間進行體素化表示,并在三維占用任務的基礎上結合兩項新任務:估計三維空間中體素的占據(jù)狀態(tài)和語義信息。整個任務旨在在給定多視角圖像的情況下對三維空間進行密集預測。
本次比賽是三維占用感知領域的首個國際頂尖權威賽事,吸引了業(yè)界和學界的廣泛關注。比賽共有 149 個團隊參與角逐,其中包括來自小米汽車,華為,42dot,海康威視的業(yè)界團隊,也有來自北京大學,浙江大學,中國科學院等科研院所的學術界團隊。
最終,來自英偉達 ( NVIDIA ) 和南京大學的團隊在激烈的競爭中脫穎而出,同時贏得了三維占用預測任務的冠軍和最佳創(chuàng)新獎兩個重磅獎項。下面我們來看一下冠軍團隊的獲獎方案。
冠軍方案
不同于以往比賽對于數(shù)據(jù)利用方面的限制,本次自動駕駛比賽允許參賽者使用額外的開源數(shù)據(jù)或者模型進行數(shù)據(jù)驅動算法的探索。因此在本次比賽中,英偉達和南大的研究人員在設計高效的模型結構的基礎上,也在大模型的訓練方面進行了探索,將模型參數(shù)擴展到 10 億量級,達到過去常用 3D 感知模型的 10 倍以上。
憑借先進的模型結構設計和大模型強大的表征能力,該團隊提出的方案 FB-OCC 實現(xiàn)了單模型 50+% mIoU 的出色性能,并最終取得了 54.19% mIoU 的最佳成績。
網(wǎng)絡架構
FB-OCC 的主要創(chuàng)新在于使用了前向和后向投影相結合的三維空間建模方式。
如圖 2 所示,在前向投影過程中,參考 LSS 投影范式,F(xiàn)B-OCC 會根據(jù)每個像素的深度分布生成場景對應的三維體素 ( 3D voxel ) 表征。同時,由于 LSS 范式生產(chǎn)的特征傾向于稀疏且不均勻,F(xiàn)B-OCC 引入反向投影機制來優(yōu)化稀疏的場景特征。
圖 2 網(wǎng)絡架構圖此外,考慮到計算負擔,F(xiàn)B-OCC 在方向投影的過程中會將場景特征壓縮為鳥瞰圖 ( BEV ) 表征,最后將三維體素表征和鳥瞰圖表征相結合。結合后得到的三維體素特征在后續(xù)還會經(jīng)過額外的體素編碼器 ( Voxel encoder ) 來增強特征感受野。
大規(guī)模模型探索
增加模型參數(shù)量是提升模型精度的最便捷的方式,但在三維視覺感知領域,研究人員發(fā)現(xiàn)更大規(guī)模的模型更容易產(chǎn)生過擬合現(xiàn)象,而現(xiàn)有主流感知模型的參數(shù)仍在 100M 量級。
在本次比賽中,F(xiàn)B-OCC 模型嘗試使用 10 億參數(shù)量級的 InternImage 主干網(wǎng)絡,模型總體參數(shù)量是現(xiàn)有常用模型的十倍以上。大模型訓練通常需要大數(shù)據(jù)與之匹配,但受限于自動駕駛數(shù)據(jù)采集標注的高昂成本,開源的三維感知數(shù)據(jù)集并不足以支撐 10 億參數(shù)規(guī)模的模型。
針對這個痛點,F(xiàn)B-OCC 使用了多輪預訓練機制。由于可獲取的二維感知數(shù)據(jù)集遠遠豐富于三維感知數(shù)據(jù),F(xiàn)B-OCC 首先在大規(guī)模開源數(shù)據(jù)集 Objects365 上進行通用目標檢測預訓練。然后,如圖 3 所示,F(xiàn)B-OCC 引入深度和語義聯(lián)合預訓練來建立二維感知和三維感知的橋梁。
圖 3 深度和語義聯(lián)合預訓練為了生成語義分割標簽,F(xiàn)B-OCC 還使用 Meta 的 SAM 模型來進行自動標注,分別使用框提示和點提示來生成不同類別的語義。經(jīng)過多輪預訓練后,大規(guī)模模型在占用感知任務上可以避免嚴重的過擬合問題。
實驗結果
研究團隊在實驗中證明了 FB-OCC 的出色性能。如表 1 所示,F(xiàn)B-OCC 在 ResNet-50 主干網(wǎng)絡以及 256x704 分辨率的輸入圖像下,借助時序融合、深度監(jiān)督等技術,模型性能從最初的 23.12% mIoU 增長至 42.06% mIoU。
表 1 小規(guī)模模型的消融實驗結果為了獲得更好的精度,F(xiàn)B-OCC 使用了更大參數(shù)量的模型。如表 2 所示,在 400M 的模型規(guī)模下,F(xiàn)B-OCC 獲得了單模型 50+% mIoU 的效果。借助 InternImage 主干網(wǎng)絡,10 億參數(shù)量級的模型進一步取得了 52.79% 的極佳效果。
表 2 不同模型規(guī)模下的效果最終,F(xiàn)B-OCC 多個模型的集成結果取得了目前測試集上最高的準確率 —— 54.19%,贏得了比賽的冠軍并被授予最佳創(chuàng)新獎。FB-OCC 為自動駕駛中復雜的三維占用預測問題貢獻了新的思路。
THE END
轉載請聯(lián)系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
8.7 億元!華為成立新公司,所屬行業(yè)的中國產(chǎn)銷規(guī)模處全球之首 焦點熱門
華為的業(yè)務涵蓋了電信設備、消費者業(yè)務、企業(yè)業(yè)務和云服務等多個領域。
2023-06-19
相關閱讀
-
什么樣的方案,奪得了 CVPR 自動駕駛挑戰(zhàn)賽冠軍?
機器之心報道編輯:小舟自動駕駛中的三維占用預測難題,一場比賽給出了
-
聚焦:馬云非公開會議內(nèi)容首次曝光:“淘天”架構要扁平化,誰有阻力我來搞定
回歸淘寶、回歸用戶、回歸互聯(lián)網(wǎng)。文丨祝穎麗編輯丨高洪浩《晚點LatePo
-
銀行人的“存款保衛(wèi)戰(zhàn)”:利率一降再降,拉存款難上加難|今亮點
本文來源:時代周報作者:阿力米熱不論是線上還是線下,銀行理財經(jīng)理瘋
-
當前最新:樓陽生到省地質(zhì)研究院調(diào)研
6月19日,省委書記樓陽生到省地質(zhì)研究院,調(diào)研地質(zhì)科學創(chuàng)新、事業(yè)單位
-
wtkj是什么意思 天天熱議
歡迎來到本次問答,我將為大家詳細解答“wtkj到底代表什么”的問題。科
-
銀行人的“存款保衛(wèi)戰(zhàn)”:利率一降再降,拉存款難上加難-速訊
不論是線上還是線下,銀行理財經(jīng)理瘋狂開啟了攬客模式,激情營銷。“三
-
當前短訊!年金保險需要健康告知嗎?到期后可取出來嗎?
在購買年金保險時,通常需要填寫健康告知表或進行健康問詢。 健康告知
-
抖音Vs美團:生活服務之戰(zhàn)“醉翁之意不在酒” 世界快資訊
圖片來源@視覺中國生活服務賽道的雙雄對決,激戰(zhàn)正酣。日前,據(jù)《晚
-
環(huán)球快看點丨小米折戟印度,九年白干了?
“進印趕考”快十年,人們似乎習慣了小米在印度市場的高歌猛進。所
-
新華全媒+|新疆裕民:夏糧收購“錢等糧”保豐收
近期,新疆多地夏糧收購在即,中國農(nóng)業(yè)發(fā)展銀行新疆分行充分發(fā)揮糧食收
-
海南椰島法定代表人變更段守奇接替王曉晴|世界熱門
近日,海南椰島(600238)發(fā)生工商變更,法定代表人由王曉晴變更為段守
-
全球即時:賈躍亭“9年詐騙”計劃:薛定諤的220萬豪車,與被“割”的央視大樓設計師家族
從FF屢次延期交付的背后,是巨大的資金問題的投射,如果未來賈老板不能
-
訊息:卷王極兔,快遞中間商難賺差價
圖片來源@視覺中國文|商業(yè)數(shù)據(jù)派,作者|劉俊宏近日,極兔速運(以下稱
-
極星成立戰(zhàn)略合資企業(yè) 持續(xù)加速中國市場發(fā)展
2023年6月19日,上海——全球豪華純電高性能汽車品牌Polestar極星(納
-
8.7 億元!華為成立新公司,所屬行業(yè)的中國產(chǎn)銷規(guī)模處全球之首 焦點熱門
華為的業(yè)務涵蓋了電信設備、消費者業(yè)務、企業(yè)業(yè)務和云服務等多個領域。
-
ROG 掌機震撼發(fā)布,多項全能搭配顯示器,解鎖超多玩法-世界今頭條
6月13日,華碩ROG玩家國度召開了夏季新品發(fā)布會。本次發(fā)布會以盡掌控·
-
蘋果股價重返歷史高位,能否保持“避風港”屬性取決于業(yè)績的持續(xù)性
紅周刊本刊編輯部|張一雪2023蘋果全球開發(fā)者大會(WWDC)結束一周后,
-
長江、珠江流域或現(xiàn)超警以上洪水 水利部針對10省區(qū)啟動水旱災害防御Ⅳ級應急響應
中國能源新聞網(wǎng)是由國家能源局主管,中國電力報社、中電傳媒股份有限公
-
環(huán)球熱點評!華住與法國雅高合作的兩家杭州酒店開業(yè) 宜必思3年內(nèi)將達500家店
據(jù)華住集團方面透露,截至2023年3月,雙方合作在營酒店472家,待開業(yè)酒
-
養(yǎng)老年金和養(yǎng)老保險一樣嗎?沖突嗎?|天天新資訊
不一樣。 雖然養(yǎng)老年金和養(yǎng)老保險都與養(yǎng)老有關,但它們在概念和運作方
-
世界觀焦點:養(yǎng)老保險是企業(yè)年金嗎?怎么買最劃算?
不是。 養(yǎng)老保險和企業(yè)年金雖然都與養(yǎng)老有關,但并不完全相同。養(yǎng)老保
-
安聯(lián)安享豐年年金保險怎么樣?怎么買? 環(huán)球快播報
安聯(lián)安享豐年年金保險是一款備受認可的養(yǎng)老保險。 它提供了穩(wěn)定的長期
國泰航空公布改善舉措:決定招聘內(nèi)地空乘!8月起內(nèi)地航班均有普通話廣播_環(huán)球最新
據(jù)媒體報道,6月19日,國泰航空(00293 HK)行政總裁林紹波向全體員工
全球焦點!職業(yè)年金和養(yǎng)老保險一樣嗎?退休時能拿回嗎?
不一樣。 1、性質(zhì)不同:職業(yè)年金補充養(yǎng)老保障制度,養(yǎng)老保險是國家和社
續(xù)航620km 上汽通用別克E4將今日上市
續(xù)航620km上汽通用別克E4將今日上市日前,車質(zhì)網(wǎng)從上汽通用別克官方獲
天津擬調(diào)整公積金貸款上限:首套房最高可貸100萬元
近日,天津市住房公積金管理中心發(fā)布公告,對個人住房公積金貸款、提取
央視曝光原神動漫計劃,中國影視之夜提前爆料
央視在中國影視之夜上揭幕:《原神》動漫將于2023年上映。
【熱聞】蘋果:將升級 iPhone 15 硬件,積極為頭顯鋪路
6月19日消息,知名分析師郭明錤剛剛發(fā)文指出,蘋果將積極升級硬件產(chǎn)品
環(huán)球微頭條丨大模型 2.0 時代的優(yōu)化與突破
貝克街探案官作者車行運大模型可以讓無人駕駛更智能今年6月份,各大廠
精彩推薦
閱讀排行
精彩推送
- 機構:人們對生成式人工智能欠缺...
- 喜馬拉雅申請 AI 開放平臺商標...
- 理想汽車負責人:我們在 ChatGP...
- 每日快訊!618,我為什么不買了?
- 三大股指放量收跌,AI 概念逆勢...
- 全球快消息!頭部券商交易系統(tǒng)出...
- 世界視訊!不負期待 珠山塾院...
- 朔州市平魯區(qū)李林中學(關于朔州...
- 新資訊:吳三桂為什么反清失敗_...
- 太平財富年金保險條款是什么?怎...
- 【新視野】被騙買了理財保險怎么...
- 中融其樂融融年金險保障怎樣?優(yōu)...
- 獨生子女年金保險怎么樣?怎么領...
- 福享連連年金保險是真的嗎?怎么...
- 實時焦點:北京京西大悅城6月18...
- 小鵬汽車法務部曬立案書_全球實時
- “雙星”合并,極星汽車與星紀魅...
- 錢還不夠用?法拉第未來繼續(xù)延遲...
- 每日短訊:我國資本市場雙向開放...
- 卓誼生物擬沖刺深交所主板IPO上...
- 持續(xù)高溫,小心熱射?。〕R姲Y狀...
- 每日消息!OPPO K11x 綜合體驗...
- 新資訊:華為高級副總裁:有眼力...
- 市場消息:土耳其反壟斷委員會開...
- MacBook Air 15 分析解讀:這...
- 夏日炎炎如何為設備安全供電?你...
- 去年因“打雞血”言論出圈的國泰...
- 此輪存款“降息”緣何又快又急?...
- 三大平臺“王炸”紛飛 暑期檔電...
- 每日聚焦:實驗艙、神舟、天舟、...