小米 SU7 ,智駕方案為何不選華為路線
作者|張霽欣
編輯|冒詩陽
汽車像素(ID:autopix)原創(chuàng)
幾天前,小米 SU7 部分推送了最新的先鋒版智能駕駛系統(tǒng),全國都能開、車位到車位,能力超越很多頭部新勢力。小米的智駕能力,為什么可以快速迭代?我們今天來聊聊,這套很有爭議的技術。
2023 年下半年開始,端到端智駕大模型,被公認是實現(xiàn)高階智能駕駛的技術方向。
將海量真實,或仿真的駕駛數(shù)據(jù)搜集起來,輸入給 AI 大模型進行訓練。訓練成熟以后,未來的 AI 將可以模仿老司機的駕駛方式,來幫助人類開車。
這套技術先是特斯拉在做,后來小鵬、理想、蔚來、小米,甚至比亞迪。可以說所有前沿車企,人手一個 AI 大模型。但隨后,大家發(fā)現(xiàn)一個問題,沒有人真正追上特斯拉,甚至在很多層面上,差距還越來越大了。
要解決大模型的問題,國內車企分成了兩派,一個是華為、小鵬為代表的,繼續(xù)加強訓練。這需要非常大量、優(yōu)質的訓練數(shù)據(jù)。比如小鵬大模型的訓練數(shù)據(jù)量,已經(jīng)達到了 2000 萬 clips。這是起步晚的小米所做不到的,它積累的數(shù)據(jù)量僅有 300 萬。
如果硬要學小鵬,需要大量的車在路上收集數(shù)據(jù),回傳之后訓練,最快也得一年才能追趕上。這個時間,對于小米來說,有點太久了。
于是小米、理想為代表,國內車企有了第二種方案。在智駕大模型的基礎上,加上一個數(shù)據(jù)體量沒那么大的 VLM 模型,作為輔助。
VLM 的全稱,是視覺語言模型,可以把圖像用文字描述出來,這就需要先理解圖像的內容,現(xiàn)在的智駕大模型是通過大量訓練,做出的肌肉記憶,優(yōu)勢是反應快,但它不能真的像人類一樣,理解場景、思考推斷,關鍵時候能變通。
VLM 就是幫忙解決這個問題的,比如這樣一個場景。

現(xiàn)在的智駕大模型,可以準確識別出紅框中的要素,并根據(jù)大數(shù)據(jù)提供的駕駛經(jīng)驗,快速做出決策,這個決策大部分時候都沒問題,而且可能很老練,但并不意味著智駕大模型能夠理解這個場景,知道這里在發(fā)生什么。比如行人、車輛、紅綠燈之間可能的關系,未來會發(fā)生什么變化。
VLM 在這時,可以對場景進行解讀,給到補充信息,它能夠理解,這是個紅燈場景,所以行人在穿過馬路,而自己在左轉道上,準備等綠燈左轉。
簡單來說,VLM 就是一個 “看圖說話” 能力強的模型,可以輔助 “解讀” 很多信息,比如判斷哪一條是公交車道、潮汐車道等等。以上這些問題,如果僅靠智駕大模型,需要海量的數(shù)據(jù)來訓練,才能做到接近 100% 的準確度。訓練不夠時,VLM 像是一個外掛的教練,坐在副駕上,輔助端到端大模型開車
既然這么好,為什么其他車企不用呢?
VLM 最大的問題,是延遲。這個模型要分析和理解場景,所以在車端算力受限時,需要比較長的時間。比如理想的 VLM ,從感知到出結果,大概需要一秒鐘左右。要知道,車速在 80 km/h 的時候,一秒鐘可以行駛 22 米,這個延遲,是不滿足智能駕駛實時性需求的。
另一個問題,是訓練的難度。雖然 VLM 模型所需要的數(shù)據(jù)量,不像智駕大模型那么大,但要求更刁鉆,需要在每個訓練數(shù)據(jù)中,都提供圖像和文本的對應。這就只能通過人工,做視覺問答標注,過程復雜且耗時。最終的質量也難以保證,畢竟不同人,對于同一個場景的理解,會有偏差,寫成文本,差異就更大了。
VLM 能短期內,彌補端到端大模型下限低的問題,給智駕大模型那 0.1% 的問題兜底。但長期來看,這種并列多個模型的路線,并不是智駕的最終局。
本文為汽車像素(autopix)原創(chuàng)內容
未經(jīng)授權,請勿轉載
原文標題 : 小米 SU7 ,智駕方案為何不選華為路線丨Pix視頻
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
推薦專題
- 1 改寫出行格局!充換電基建的五年蝶變
- 2 純視覺遭調查 特斯拉自動駕駛遇生死考驗
- 3 北京在全國首推“智駕險”,各車企智駕水平要“露底”?
- 4 VLA 與世界模型之爭:誰才是輔助駕駛的正確方向?
- 5 賣芯片還是賣平臺?地平線與黑芝麻智能悄然走出分水嶺
- 6 2026 百人會論壇:地平線|推艙駕融合的“智能體芯片”
- 7 為啥有人認為自動駕駛純視覺方案比激光雷達方案好?
- 8 「武漢蘿卜快跑」事件背后:有時停下是為了更快的奔跑
- 9 中國自動駕駛Robotaxi圍攻中東【附投票】:曹操出行、文遠知行、小馬智行、蘿卜快跑四路諸侯,誰才是真正的“沙漠之狐”?
- 10 2026百人會論壇:卓馭科技|從智駕到物理AI,沈劭劼說這是生存判斷不是戰(zhàn)略判斷


分享










