奇瑞官網
當前位置:首頁 > 無人駕駛 > 正文

DriveGPT如何改變自動駕駛?

發布日期:瀏覽量:3084

導讀:2023年,生成式大模型ChatGPT的出現給沉寂許久的AI市場添了一把猛烈的火,業界甚至有人將其比喻成“AI的iPhone時刻”。從ChatGPT誕生起,業內就在探討它將如何與智能駕駛相結合,近日,毫末將這種設想變成了落地的產品。

4月11日,毫末智行在北京舉辦了第八屆毫末AI DAY,發布了自動駕駛生成式大模型產品DriveGPT。


圖片來源:毫末智行

一、DriveGPT如何改變自動駕駛?

自動駕駛行業發展到現在,面臨的一個非常大的技術問題在于Corner case(長尾難題)。

從技術的角度看,以往自動駕駛系統認知環境主要靠人工手寫規則,但自然界中的場景無窮無盡,相應的規則也沒有窮盡,自動駕駛技術的發展非常受限。

為解決這個問題,業內一直在用機器學習替代傳統的規則式部分,力求實現端到端的自動駕駛:輸入感知數據——機器學習輸出規劃決策數據。

毫末認為,生成式大模型GPT可以幫助解決認知決策問題,最終實現端到端的自動駕駛。

什么是GPT?

GPT的定義是生成式預訓練Transformer大模型,用語言學的邏輯理解,輸入一個詞,GPT會根據現實中的分布推測下一個該出現的單詞是什么,每生成完一個,會把過去的東西加上,當做新的輸入猜測下一個是什么,這種生成式模型就可以生成對話。

以中文自然語言為例,單字或單詞就是Token,把Token輸入到模型,輸出就是下一個字詞的概率。

而DriveGPT實際上指的是自動駕駛界的生成式預訓練大模型,將場景Token化,毫末將其稱之為Drive Languag。

Drive Language將駕駛空間進行離散化處理,每一個Token都是場景的一小部分。目前毫末擁有50萬個左右的Token詞表空間。如果輸入一連串過去已經發生的場景Token序列,模型就可以根據歷史,生成未來所有可能的場景。

具體解釋,只要輸入目前的駕駛環境,包括車輛本身的狀態、周圍障礙物的狀態、道路環境等,DriveGPT就會生成未來可能發生的一系列交通狀態,就像多個平行宇宙,并根據每一種狀態做出不同的決策:前面車輛變道時需要怎么做,不變道時需要怎么做。并且,這種決策會形成完整的證據鏈。


圖片來源:毫末智行

概括來說,毫末認為,DriveGPT雪湖·海若三個能力:

1.可以按概率生成很多個場景序列,每個場景都是一個全局的場景,每個場景序列都是未來有可能發生的一種實際情況。

2.在所有場景序列都產生的情況下,能把場景中最關注的自車行為軌跡量化出來,也就是生成場景的同時,便會產生自車未來的軌跡信息。

3.有了這段軌跡之后,DriveGPT雪湖·海若還能在生成場景序列、軌跡的同時,輸出整個決策邏輯鏈。

在模型優化方面,DriveGPT雪湖·海若主要是通過引入真實人駕接管數據建立RLHF(人類反饋強化學習)技術,對自動駕駛認知決策模型進行持續優化。

此外,還具有場景識別的能力,在毫末智行演示的場景中,普通的解決方案標注一張圖片需要大約5遠,DriveGPT雪湖·海若只需要0.5元,這個能力將會向行業伙伴開放。


圖片來源:毫末智行

另外一點,由于DriveGPT的決策具有完整的邏輯推理鏈,它也可以提升人機共駕的體驗。通過DriveGPT技術,未來人機交互界面(HMI)可以告訴駕駛者,它為什么做出這樣的決策,在某種程度上它可以提升用戶對自動駕駛系統的信任感。

毫末智行技術副總裁艾銳表示,目前毫末還沒有做這樣的系統,但理論上看,HMI可以通過語音的方式與駕駛者交流?!拔铱梢园阉斫鉃橐粋€導航意圖,你想選一個更快的路還是選一個收費更少的路。從這個角度來說,我覺得DriveGPT后面的想像空間很大。它能實時接收人的反饋之后,也許在大家使用自動駕駛的時候,就不是默默地坐在那里看著了,會有一個更深度的交互?!卑J說。

二、毫末如何實現DriveGPT

大模型訓練并不是一個簡單的事情,毫末也解釋了DriveGPT背后需要的能力。

最基礎的當然是算力,模型參數規模達到 1200 億,需要非常強大的算力支持。今年1月,毫末和火山引擎共同發布了其自建智算中心,毫末雪湖·綠洲MANA OASIS。OASIS的算力高達67億億次/秒,存儲帶寬2T/秒,通信帶寬達到800G/秒。

還需要訓練和推理框架的支持。因此,毫末也做了以下三方面的升級。

1.訓練穩定性的保障和升級。

毫末在大模型訓練框架的基礎上,與火山引擎共同建立了全套訓練保障框架,通過訓練保障框架,毫末實現了異常任務分鐘級捕獲和恢復能力,可以保證千卡任務連續訓練數月沒有任何非正常中斷。

2. 彈性調度資源的升級。

由于每天不同時段回傳的數據量差異巨大,需要訓練平臺具備彈性調度能力,自適應數據規模大小。毫末將增量學習技術推廣到大模型訓練,構建了一個大模型持續學習系統,研發了任務級彈性伸縮調度器,分鐘級調度資源,集群計算資源利用率達到95%。

3.吞吐效率的升級。

在傳統的訓練框架中,算子流程很長,毫末通過引入火山引擎提供的Lego算之庫實現算子融合,使端到端吞吐提升84%。

此外,還有一個基礎能力就是數據,畢竟DriveGPT雪湖·海若需要引入真實的人駕接管數據來優化模型。

在數據來源方面,毫末公布了智能駕駛產品最新的進展:

截止目前,毫末智能輔助駕駛用戶行駛里程已經突破4000萬公里。毫末城市NOH在北京、保定、上海等城市開啟泛化測試,落地即可體驗到毫末的城市NOH功能。

首款搭載HPilot3.0系統的新摩卡車型也即將在近期重磅上市,第二款搭載毫末HPilot3.0系統的車型魏牌藍山也將在今年年內上市。

同時,乘用車高級別輔助駕駛領域,毫末智行已獲得三家主機廠定點合同,相關項目已經在交付中。

三、不依賴雷達,MANA視覺感知升級

除DriveGPT外,毫末此次還重點介紹了MANA在視覺感知上的進展。

此前,毫末的感知視覺自監督大模型是互監督,用激光雷達作為監督信號訓練視覺,目前已經升級到純視覺。

視覺感知的核心目的是恢復真實世界的動靜態信息和紋理分布,因此毫末對視覺自監督大模型做了一次架構升級,將預測環境的三維結構,速度場和紋理分布融合到一個訓練目標里面,使其能從容應對各種具體任務。目前毫末視覺自監督大模型的數據集超過400萬Clips,感知性能提升20%。

此外,毫末還將魚眼相機引入視覺BEV的感知框架當中,在泊車場景可做到在15米范圍內達測量精度30cm,2米內精度高于10cm。

擁有這些能力之后,毫末開始嘗試去掉超聲波雷達,在純視覺三維重建方面,通過視覺自監督大模型技術,毫末不依賴激光雷達,就能將收集的大量量產回傳視頻轉化為可用于BEV模型訓練的帶3D標注的真值數據。

通過對NeRF的升級,毫末表示可以做到重建誤差小于10cm,并且對于場景中的動態物體也能做到很好的重建和渲染,達到肉眼基本看不出差異的程度。

由于單趟重建有時會受到遮擋的影響,毫末也嘗試了多趟重建的方式。即多輛車在不同時間經過同一地方,可以將數據合在一起做多趟重建。目前毫末已經實現了更高的場景還原度,重建效率提升5倍,同時,還可在重建之后編輯場景合成難以收集的Corner Case。


圖片來源:毫末智行

小結:

從毫末的布局中,我們也可以窺見自動駕駛行業的一動向。

首先,汽車行業價格戰的影響已經傳導至上游智駕供應鏈領域,“降本”成為重中之重,毫末在AI DAY中表示,要用1/3的成本做同等功能的方案。

在降本的壓力之下,高精地圖,甚至激光雷達這種高價格的產品都在逐漸被拋棄。在輔助駕駛領域,玩家都在向特斯拉看齊,走輕地圖和純視覺的道路。

另外,除感知之外,行業還越來越重視決策規劃。感知尚可以用硬件堆砌,做決策規劃則是綜合能力的硬比拼,包括算力等基礎設施、真實的道路數據和數據處理能力、算法模型等等??傊?,輔助駕駛領域的競爭,已經越來越殘酷了。

版權說明:“華夏EV網”轉載作品均注明出處,本網未注明出處和轉載的,是出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性。如轉作品侵犯署名權,或有其他諸如版權、肖像權、知識產權等方面的傷害,并非本網故意為之,在接到相關權利人通知后將立即加以更正。

文章標簽:

本文網址:http://www.jzjwddj.cn/articleshow-499.html

分享到:
相關文章
查看更多
9久9久女女免费精品视频在线观看_在线观看视频一区二区三区福利_免费福利片