近日,特斯拉發(fā)布了其“完全自動駕駛”軟件的最新版本FSDV13.2并完成首批交付,此次更新新增停車啟動、自動換擋、目的地自動泊車等功能,特斯拉自動駕駛工程師Arek Sredzki指出,該系統(tǒng)的端到端網(wǎng)絡現(xiàn)在允許車輛將乘客從一個停車位運送到另一個停車位 (P2P)。
特斯拉FSD的每一次重大更新,都引得各大智駕玩家第一時間的關注,一如2024年年初,特斯拉推送FSD V12的測試版本,將城市街道駕駛的軟件棧升級為單一的端到端神經(jīng)網(wǎng)絡。這一變化帶來的“風暴”,在遠隔重洋的中國,同樣掀起一股端到端的技術熱潮。
目前,一些致力于在自動駕駛領域取得領先地位的車企和智駕供應商,已經(jīng)開始將端到端技術放在其宣傳的C位。
不出意外的是,對于“智駕第一梯隊”這一名頭,各大玩家抱有極大的興趣。就在2024年,涌現(xiàn)了一批號稱進入第一梯隊的車企或智駕供應商,無論其技術和產(chǎn)品能力有多花哨,端到端都成為其中必不可少的一個關鍵詞。
端到端究竟有怎樣的“魔力”,而又有怎樣的貓膩呢?
端到端的路徑差異
端到端與傳統(tǒng)自動駕駛算法的主要差別在于系統(tǒng)架構和數(shù)據(jù)處理方式。傳統(tǒng)自動駕駛算法通常采用模塊化部署策略,將感知、預測、規(guī)劃和控制等功能劃分為獨立的模塊,每個模塊獨立處理特定任務,信息逐級傳遞并可能被過濾或抽象,這種方式雖然結(jié)構清晰但存在誤差累積和信息丟失的問題。
而端到端架構則將整個駕駛過程視為一個整體,通過一個統(tǒng)一的神經(jīng)網(wǎng)絡模型直接從輸入的傳感器數(shù)據(jù)(如圖像、雷達信號等)映射到輸出的車輛控制指令,簡化了系統(tǒng)結(jié)構,減少了信息傳遞過程中的誤差,提高了系統(tǒng)的整體性和穩(wěn)定性。
相較而言,端到端算法更側(cè)重于數(shù)據(jù)驅(qū)動,通過大規(guī)模數(shù)據(jù)集的訓練來優(yōu)化模型性能,而傳統(tǒng)算法則更依賴于規(guī)則和有限的場景數(shù)據(jù)。
用一種比較通俗的說法,傳統(tǒng)的自動駕駛算法就像是分步驟做蛋糕,每一步都有專門的廚師負責,比如一個人負責打蛋,一個人負責加糖,另一個人負責攪拌,最后再由一個人來烤制。
在這種模式下,每個廚師都要把自己的工作做到最好,但過程僵化,他們之間可能不太知道其他人在做什么,信息傳遞可能出現(xiàn)偏差,有時候前面的廚師出了點小錯,后面的廚師可能沒法及時發(fā)現(xiàn)和調(diào)整,也浪費了時間。
而端到端則像是有一個特級大廚,他能夠從準備原料開始,一直到蛋糕出爐,都親自掌控。這個大廚不需要別人告訴他每一步該怎么做,他自己就能根據(jù)整個蛋糕的最終樣子來決定現(xiàn)在應該做什么。這樣一來,他就能更好地協(xié)調(diào)整個過程,減少錯誤,并且能快速學習升級調(diào)整,做出更符合要求的“食物”。
按照樸素的想法來看,既然已經(jīng)切換到端到端的技術競爭,那就從感知到?jīng)Q策規(guī)劃一步到位,而在實踐的過程中,行業(yè)已經(jīng)出現(xiàn)了所謂的one model一體化端到端和分段式端到端的路徑選擇差異。
一段式方案從感知到預測規(guī)劃無縫銜接,確保信息的完整傳遞,避免了多段式方案中可能出現(xiàn)的信息丟失問題。并且由于所有處理步驟集成在一個模型中,系統(tǒng)的整體響應速度可能會更快,這對于實時性要求極高的自動駕駛場景尤為重要。但一旦中間出現(xiàn)問題,整個系統(tǒng)就像一個“黑匣子”,難以進行精確調(diào)試。所有的處理步驟都緊密耦合在一起,使得問題的定位和解決變得更加復雜。
而“分段式端到端”,或叫“模塊化端到端”,通常將自動駕駛系統(tǒng)的感知和決策規(guī)劃兩個模塊分開,并在中間嵌入人工接口,以實現(xiàn)更靈活和可擴展的系統(tǒng)設計,但仍然保持端到端的整體性。值得注意的是,無論是分段式端到端還是一體式端到端方案,都實現(xiàn)了從基于規(guī)則的優(yōu)化向數(shù)據(jù)驅(qū)動的擬合的轉(zhuǎn)變。這一轉(zhuǎn)變使自動駕駛系統(tǒng)從依賴機械規(guī)則開發(fā)代碼的模式,進化到了基于神經(jīng)網(wǎng)絡的經(jīng)驗直覺模式。
但在一些觀點看來,分段式端到端的上限會更低。商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛更曾直言:“‘兩段式’方案就算再做10年,也成不了自動駕駛的‘ChatGPT’?!?/P>
前不久,黑芝麻智能公布其端到端算法參考模型,黑芝麻智能也指出:“現(xiàn)階段量產(chǎn)的端到端系統(tǒng),相當一部分采用了分段式架構,即將端到端系統(tǒng)分成幾個不同的模塊級聯(lián)而成。雖然這些模塊也使用AI模型進行工作,但各模塊之間仍存在人為定義的接口來傳輸數(shù)據(jù),這就必然導致有一定的信息損失,加上不同模塊經(jīng)常采用獨立訓練的模式,其效果并非全局最優(yōu)。”
黑芝麻智能的端到端智駕系統(tǒng),采用了One Model的架構。一端可輸入攝像頭、激光雷達、4D毫米波雷達、導航地圖等信息,另一端直接輸出駕駛決策所需要的信息,即本車的預期軌跡。
目前,大部分行業(yè)人士認為,一段式端到端開發(fā)難度較大,但一旦模型訓練完成,能力會非常強大,能夠全面理解和應對復雜場景。而分段式端到端,技術復雜度相對較低,更容易逐步推進和實現(xiàn),也有可能適合當前技術水平和資源條件。
就實際部署狀況來看,聲稱已部署或即將部署一段式端到端的車企和供應商包括Momenta、智己、廣汽豐田、理想、商湯科技、元戎啟行等,兩段式的代表則有小鵬、極氪,以及華為鴻蒙系等玩家。
今年10月,智己宣布攜手Momenta,聯(lián)合打造“一段式端到端直覺智駕大模型”,此“一段式端到端直覺式智駕大模型”,基于“長短期記憶模式”獨特架構打造,據(jù)介紹其能將模型訓練成本節(jié)省10-100倍,同時大幅提升迭代速度。
據(jù)Momenta CEO曹旭東透露,Momenta在去年已經(jīng)實現(xiàn)了兩段式端到端,感知的端到端和規(guī)控的端到端,今年上半年又實現(xiàn)了一段式端到端。
博世智能駕控中國區(qū)總裁吳永橋告訴蓋世汽車,從兩段式端到端逐步過渡到一段式端到端,最終實現(xiàn)世界模型的應用,這一路線圖逐漸成為業(yè)內(nèi)共識。能夠按照這一路線順利發(fā)展下去的關鍵在于資金支持和長期戰(zhàn)略定力。
據(jù)吳永橋判斷,到明年,在國內(nèi)應該只有1-2家企業(yè)能夠?qū)崿F(xiàn)一段式端到端。
從VLM到VLA
為進一步提升端到端系統(tǒng)決策的準確性和靈活性,目前,行業(yè)里流行的做法是端到端+VLM架構。
因為駕駛時需要多模態(tài)的感知交互系統(tǒng),用戶的視覺、聽覺以及周圍環(huán)境的變化,甚至個人情感的波動,都與駕駛行為密切相關,所以端到端+VLM的技術架構中,端到端系統(tǒng)負責處理感知、決策和執(zhí)行的全過程,而VLM則作為輔助系統(tǒng),提供對復雜交通場景的理解和語義解析。
這種架構下,兩個模型相對獨立工作,VLM主要在特定情況下為端到端系統(tǒng)提供建議或補充信息。
以理想端到端與VLM相結(jié)合的雙系統(tǒng)架構方案為例,其基于丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類兩套思維系統(tǒng)理論,將端到端系統(tǒng)(相當于系統(tǒng)1)與VLM視覺語言模型(相當于系統(tǒng)2)融合應用于自動駕駛技術方案中,旨在賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/P>
其中,系統(tǒng)1,即端到端模型,是一種直覺式、快速反應的機制,它直接從傳感器輸入(如攝像頭和激光雷達數(shù)據(jù))映射到行駛軌跡輸出,無需中間過程,是One Model一體化的模型。系統(tǒng)2,則是由一個22億參數(shù)的VLM視覺語言大模型實現(xiàn),它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。
理想方面表示,VLM整體的算法架構由一個統(tǒng)一的Transformel模型組成,將提示詞(Prompt)文本進行Tokenizer編碼,然后將前視120度和30度相機的圖像以及導航地圖信息進行視覺信息編碼,通過圖文對齊模塊進行模態(tài)對齊,統(tǒng)一交給Transformer模型進行自回歸推理。
與此同時,許多觀點認為端到端+VLA是端到端+VLM的下一個階段。端到端+VLA的技術架構將端到端系統(tǒng)與多模態(tài)大模型更徹底地結(jié)合,形成一個統(tǒng)一的模型框架。在這種架構下,多模態(tài)大模型不僅包含視覺和語言處理能力,還融入了動作控制,使得整個系統(tǒng)能夠更全面地理解和響應復雜的駕駛環(huán)境。
元戎啟行CEO周光告訴蓋世汽車,VLM可以想象成一個新手司機在開車,旁邊有個教練通過語言不斷指導他如何駕駛,比如“左轉(zhuǎn)”、“減速”等。這就像當前的端到端1.0版本,雖然比完全由新手獨自駕駛更安全一些,但并不是最佳方案。
而VLA則相當于讓教練親自來開車,顯然這種方式比學員跟著教練學要更加高效和安全。簡而言之,從VLM到VLA的進步就像是從有人指導的初學者變成了經(jīng)驗豐富的老手直接操作,后者相對更為先進且可靠。
“VLM到VLA最大的不同可能在于推理能力,尤其是在時間層面的推理。例如,基于規(guī)則的系統(tǒng)可能只有1秒的推理能力,端到端1.0可能有7秒,而VLA則能達到幾十秒的推理能力?!敝芄庹f到。據(jù)悉,元戎啟行將基于英偉達Thor芯片進行VLA模型的研發(fā),模型預計將于2025年正式推出。
不過,開發(fā)端到端+VLA模型顯然更需要大量的資源投入,包括算法研發(fā)、數(shù)據(jù)收集與處理、模型訓練等,這會增加企業(yè)的研發(fā)成本?,F(xiàn)在許多企業(yè)采取逐步推進的策略,先在現(xiàn)有技術上進行優(yōu)化和完善,再決定是否逐步引入新的技術元素。
理想汽車智能駕駛技術規(guī)劃高級總監(jiān)文治宇透露:“目前我們的研發(fā)團隊和數(shù)據(jù)團隊在做相關的嘗試,是不是有可能幫助解決一些智能駕駛的問題。關于這個方向我們后續(xù)也會持續(xù)跟進,也期待未來幾年行業(yè)能夠一起取得的進展?!?/P>
數(shù)據(jù)發(fā)生器:世界模型
盡管切換到端到端帶來的好處行業(yè)是普遍認可的,但是由此帶來的挑戰(zhàn)也是顯而易見的。其中首要的是對數(shù)據(jù)要求的高漲。商湯絕影指出,端到端智駕模型對于高質(zhì)量數(shù)據(jù)的需求呈指數(shù)級的增長。然而,受限于高階智駕的量產(chǎn)規(guī)模、算力資源,目前大多數(shù)車企和智駕公司都面臨相同的問題,即高質(zhì)量駕駛數(shù)據(jù)的獲取難度大、效率低、成本高。
王曉剛說到:“智駕高端局的競爭不止是車端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場在云端?!睘榇?,商湯絕影在前不久升級發(fā)布了“開悟”世界模型。
據(jù)介紹,“開悟”世界模型,可以滿足端到端模型訓練和仿真對于數(shù)據(jù)質(zhì)量的高要求??梢灾С侄鄻踊淖詣玉{駛場景及Corner case的可控生成。在真實的基礎上,開悟生成的場景視頻,時間最長為150秒、分辨率可達1080P、視角可以實現(xiàn)11V。
在這種情況下,世界模型在自動駕駛算法的開發(fā)體系中更多以數(shù)據(jù)生成器的角色存在。
今年的NIO IN 2024蔚來創(chuàng)新科技日上,蔚來也發(fā)布了其智能駕駛世界模型——NWM。該模型是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景,并尋找到最優(yōu)決策。
理想也在運用云端世界模型對其快慢雙系統(tǒng)進行能力的訓練和考試,從而使這套系統(tǒng)能夠快速迭代。
而在去年的計算機領域的國際頂級會議 CVPR 上,特斯拉 AI負責人Ashok Elluswamy早已明確提到,特斯拉正在試圖構建一個更加通用的世界模型,它能夠預測未來,能夠幫助神經(jīng)網(wǎng)絡自主學習,能夠像一個神經(jīng)網(wǎng)絡模擬器發(fā)揮作用,甚至能夠以AI的方式生成3D空間。
Ashok Elluswamy強調(diào),特斯拉之所以能夠構建上述基礎大模型,主要得益于特斯拉擁有龐大的數(shù)據(jù)體量和強大的算力基礎。
值得注意的是,端到端對算力的要求可能并沒有想象的那般龐大,周光指出,端到端跟VLA的算力要求沒有語言大模型那么大,因為它們本身是要部署到端側(cè)的AI?!敖裉煳覀冎v的車端的端到端+VLA跟真正的大語言模型比起來,只是個小網(wǎng)絡?!敝芄庹f到。
盡管并非所有企業(yè)都有特斯拉一般的數(shù)據(jù)和算力規(guī)模,但并沒有打消諸多玩家的競爭積極性,周光坦言:“算力、車隊數(shù)量、數(shù)據(jù)等對系統(tǒng)能力的提升很關鍵,但前提是算法足夠優(yōu)秀,關鍵點還是企業(yè)的模型能力?!?/P>
端到端的研發(fā)推進固然困難重重,諸多企業(yè)也正在拿出自家的拿手好戲?qū)で蠼鉀Q方案,至于對于大模型可解釋性方面的顧慮,似乎已經(jīng)愈發(fā)消減。與能夠顯著提升的性能相比,可解釋性成為一個次要考量因素,而且,目前各家實行的端到端方案,基本上都有兜底規(guī)則進行安全冗余。
奇瑞汽車副總經(jīng)理&大卓智能CEO谷俊麗表示:“我們面臨的是越來越大的AI模型,它需要龐大的數(shù)據(jù)和算力支持,所有核心研發(fā)的能力將變成三大要素:數(shù)據(jù)、云計算以及頂級AI科學家。其他則是圍繞量產(chǎn)體系的構建,更重要的是產(chǎn)品定義的能力?!?/P>
今年奇瑞全球創(chuàng)新大會上推出的智駕大模型,也是通過云端世界模型生成豐富場景,形成感知大模型加規(guī)劃大模型模擬人腦行為決策,預計將實現(xiàn)兩段式端到端方案量產(chǎn)上車:2025年進一步整合感知大模型和規(guī)劃大模型實現(xiàn)一段式端到端大模型量產(chǎn)上車;到2027年實現(xiàn)基于VLA多模態(tài)大模型量產(chǎn)。
可以預見的是,端到端的落地或?qū)⒋龠M其依賴的上游工具鏈和芯片等技術的加速發(fā)展,以及進一步提升了數(shù)據(jù)和AI人才的重要性,可能會催生新的產(chǎn)業(yè)分工和商業(yè)模式。
至于端到端是否就是自動駕駛的終極方案,行業(yè)眾說紛紜。王曉剛也曾對蓋世汽車說到:“端到端技術并非終點,未來還有通用人工智能、多模態(tài)等新技術不斷涌現(xiàn)和突破?!?/P>
這一輪端到端的技術競爭,無論是卷數(shù)據(jù)、卷算法、卷人才,或許只是為了在愈發(fā)猛烈的淘汰賽中,卷出一個未來。
上一篇:鴻蒙智行享界車標曝光