出租司機先別慌，智駕行業的程序員們會更早被 AI 搶飯碗

每項新技術從誕生到推廣，會經歷各個不同的階段，也會面臨各種不同的聲音。研發者為了找到技術最優解，可能會放棄已有多年的努力；而商業機構則更偏重于判斷技術落地的時機，以在合適的時機謀取最大的利益。

關于智能駕駛，國內各主機廠商們就一度有過很深的認知分歧。支持者認為它可以帶來「遙遙領先」的體驗，而反對者則拋出過「臭搞技術的」、「自動駕駛都是忽悠」等言論以表達不屑。

2024 年，隨著基于「端到端」的特斯拉智能駕駛軟件 FSD V12 版本正式推送，中國汽車廠商們對智能駕駛的態度，終于開始收斂了。

以新勢力造車代表蔚小理為例，各家對于「端到端」技術的追逐顯然開始發力了。

小鵬提出將端到端的大模型引入智駕系統，并表示今年要在智能化和訓練數據上投入 42 億元，目標是以后可以做到「兩天一次內部 OTA」。這是過去依靠人類維護數十萬行智能駕駛代碼的工作方式所不敢想象的效率提升。

蔚來也于近期重組了智能駕駛研發部，將傳統的感知和規模團隊合并為大模型團隊，核心也是推動基于神經網絡的范式迭代。

甚至過去被調侃為「摳廠」的理想，也在近期頻繁為智能化研發造勢。CEO 李想親自為「端到端」研發站臺，搬出諾貝爾經濟學家的快慢思考理論，以說明自家團隊找到了解決自動駕駛 conner case 的方向。

那么，讓各家廠商從非共識走向共識的端到端，為什么會有這么大的魔力？它如何改變了智能駕駛行業的范式，又將帶來怎樣的機遇和調整？

智駕的 GPT 時刻已經來過了

國內各廠商們迅速形成共識的重要原因，是特斯拉率先交出了一份讓人羨慕的端到端答卷。

今年 3 月，特斯拉正式推送了智能駕駛軟件 FSD V12.3 版本。這個版本的最大改變，就是把整個智駕系統工作的動力，從人類編寫的代碼，切換成了基于神經網絡的 AI 大模型。馬斯克用「Video in to Control out」來形容這種新的工作范式，即：AI 根據自己「看」到的路面信息，直接輸出駕駛操作，也就是業界常說的「端到端」（End-to-End）。

上個月，何小鵬在加州體驗了 FSD V12.3.6 版本。用他的話來說，FSD「很多路況處理都很絲滑」。這正是 AI 神經網絡相比于代碼驅動的最大優勢所在：在不同城市、不同路況下，大幅提高智駕系統的泛化學習能力。

翻譯成國內消費者們更熟悉的廣告營銷話術就是：全國（全球）都能開。

華為在去年9月喊出「全國都能開」的宣傳語 | 來源：極客公園

當然，這個結論在現階段還只是一個美好的心愿。在實際操作過程中，還需要數據、算法、算力等 AI 基礎設施的全力加持和訓練，才可能接近「AI 變得和人類駕駛員一樣聰明」這個目標。

但對于同行們來說，FSD V12 版本意義重大。它驗證了神經網絡真的可以取代人類編寫的代碼，甚至可以做得更好更高效。

這意味著不用再等 N 年，智能駕駛行業里的 ChatGPT 時刻其實已經到來了。想想阿里張勇曾經說過的那句話：所有軟件都值得用 AI 重做一遍。FSD V12 正是給了同行一個新的方向和信心：所有智駕的技術棧，都可以用端到端重做一遍。

在 FSD V12 beta 版本發布的時候，馬斯克說過，這一版本把前一版本的 30 萬行代碼壓縮到了 2000 行，相當于不到百分之一的水平。

新技術棧里的智駕比拼，不會演變為比誰人更多的反創新內卷游戲。如果 AI 的效率真能達到何小鵬所說的兩天一次內部 OTA，那逐條寫規則、改 bug 的人海戰術就可以宣布徹底過時。

所以智駕行業還需要那么多程序員嗎？筆者無法給出準確的答案，但可以肯定的是，智駕程序員的工作內容也將發生一系列改變。只會寫 if else 規則的程序員，大概率會早于出租車、網約車司機們被 AI 取代。

困在數據里

在投資機構辰韜資本上個月發布的《端到端自動駕駛行業研究報告》中，30 余位自動駕駛行業受訪者，只有 13% 表示對端到端技術持相對謹慎的「觀望」態度，其余均表達了更積極的「預研」甚至「全力投入」的態度。端到端已經在行業從業者里成為了共識。

但事實上，目前還沒有任何一家企業（包括特斯拉在內），可以做到「原教旨主義端到端」。也就是把自動駕駛的所有環節都集中在同一個大的模型里，真正達到和人類一樣的「輸入視覺信號，輸出踏板和方向盤操作」。

大部分國內主機廠現階段所做的核心努力，是打通感知和決策模塊。這其中的關鍵，就是取消模塊之間的人工定義結果，更多用特征向量傳遞無損信息。

端到端自動駕駛的架構演進示意圖 | 圖片來源：辰韜資本

在端到端之前，傳統自動駕駛架構來源于機器人領域，分為感知、規劃、控制等不同模塊。不同模塊由不同團隊開發，在模塊與模塊之間，主要通過人工定義的接口傳遞信息。舉個最簡單的例子，對于車輛是否壓線行駛這個現象，在傳統感知模塊里就可以用最簡單的計算機二進制語言進行表征。

而打通感知和決策模塊的最大好處，就是可以涵蓋更多現實世界中規則無法準確描述的「灰度場景」。例如，當你開車時，并不需要知道前車精確的行駛速度，或者它是否壓線，只需要關注相對位置變化就好。

在這個基礎上，基于生成式 AI 的理論，期待神經網絡模型也能在大量輸入后產生智能涌現，成為 AI 智能體。

這一切的基礎都來源數據，也就是「喂」給模型的訓練素材。但是，和基于文字的語言大模型不同，智駕模型并不容易找到足夠的公開視頻數據作為訓練素材。

前述《端到端自動駕駛行業研究報告》顯示，目前規模最大的公開數據集只有 1200 小時數據。而根據馬斯克 2023 年的說法，特斯拉在端到端的初期，就投入了近 4 萬小時的視頻進行訓練。

相比其他車企，特斯拉數據的優勢主要就在于量產車多。

目前，特斯拉在全球共交付了超過 600 萬輛汽車，而在中國積極布局智駕的新勢力里，量產車的數量只是特斯拉的零頭。再加上一貫的極簡 SKU 和全量預埋的智駕硬件，讓數據收集變得更加容易。

國內此前的常規做法，通常是依靠人工獲取道路信息。但是，要訓練出一個聰明的端到端模型，也需要盡量涵蓋足夠多邊緣場景（conner case）的數據。由于邊緣場景的出現非常隨機，有廠商曾經表示，僅靠人工數據采集，只能得到大約 2% 的有限數據。

此外，和特斯拉相比，國內廠商往往有著更復雜的 SKU。而不同車型之間，由于車輛尺寸、傳感器布局等不同，模型中的相關參數也需要重新進行對齊。

以華為系為例，鴻蒙智行過去一年多的時間里展現出了極強的終端銷售能力，但對于華為車 BU 服務的不同品牌、不同型號的車型來說，端到端落地后仍然需要工程師進行對齊和交付工作。對于有 2 個品牌 9 款車型的蔚來來說，同樣如此，他們把集成團隊重組到了交付團隊中。

在Sora發布后，馬斯克發推表示特斯拉用AI模擬真實世界駕駛 | 圖片來源：X截圖

有一種觀點是，以 Sora 為代表的文生視頻類產品有可能成為端到端模型的素材來源。但哪怕對馬斯克來說，用 AI 生成的內容訓練 AI，也還沒有得到公開認可。畢竟數據的數據對于模型訓練太重要了。要知道，一向對人力成本極致「摳門」的馬斯克，當年也在紐約雇了 1000 人團隊，來為特斯拉的道路視頻數據進行標注。

別被馬斯克「帶溝里」

聽起來，轉向端到端是一個自然而然的事，但刪除 30 萬行代碼，對過往組織架構打散重組，絕對不是一個容易做出的決定。事實上，連馬斯克也是半撞大運的走上了這條路。那個在 2022 年底第一次向他提出要學習 ChatGPT 搭建智能駕駛神經網絡的工程師，差一點就被老馬調去解決 Twitter 收購后的其他問題了。

訓出了端到端模型，相應的支持體系（包括算力等）也要足夠高效。蔚來智能駕駛研發副總裁任少卿在接受《騰訊深網》采訪時，表示如果沒有基本能力就強行上端到端，就等于在用「毒藥」。

他說：「如果你原來的代碼架構足夠清晰，你的（debug）測試量可能只有 1%。原先你花三天重新測 1%，現在不好意思，你花三天要重測 100%。所以你的數據驗證體系效率要足夠高?！?/p>

但是千萬別直接被特斯拉帶到溝里，端到端此刻只是證明了它具備提高工作效率的可能，但并沒有證明它就是通往自動駕駛的最終解法。

這一點和業界關于 Scaling Law 能否通向物理世界 AGI（通用人工智能）的認知是一致的：可以肯定，生成式人工智能可以具備更高的智能，但是否可以理解物理規律，并在自動駕駛、機器人等領域應用，學界尚無定律。在《端到端自動駕駛行業研究報告》，有超過一半的從業者不認為端到端是自動駕駛技術的終局解決方案。

對于自研智駕的主機廠來說，現階段最務實的做法，還是依托端到端讓智駕能力多快好省地落地。至于智駕軟件訂閱這件事，也許還需要更長的路。畢竟在中國市場上，硬件往往比軟件和服務好賣。

當然，大概率也沒有那么多人想成為馬斯克那樣的創新賭徒。放著好好的廉價車型不研發，去豪賭 Robotaxi，發布一推遲市值能跌上千億美元。更多的普通玩家，只是希望搭載了端到端的智駕軟件，能幫助硬件賣得更好。當然，如果還能順便賣得更貴，那就是最美妙的事了。

智駕的 GPT 時刻已經來過了

困在數據里

別被馬斯克「帶溝里」

最新文章