理想全量推車(chē)位到車(chē)位的不等于高速像城區(qū)NoA一樣架構(gòu)也切換成端到端,端到端架構(gòu)下的高速NoA優(yōu)勢(shì)在于,克服上一代架構(gòu)的斷點(diǎn)問(wèn)題,但高速場(chǎng)景又需要更多的仿真測(cè)試驗(yàn)證,所以會(huì)在更成熟的時(shí)候再切端到端。
高速版NoA和城市NoA統(tǒng)一在端到端架構(gòu)下訓(xùn)練,會(huì)造成城市NoA表現(xiàn)的回退(某種程度上高速駕駛數(shù)據(jù)是對(duì)城區(qū)駕駛數(shù)據(jù)的污染),但理想在近幾個(gè)月“基本解決了問(wèn)題(但無(wú)法透露具體細(xì)節(jié))”,目前在訓(xùn)練模型進(jìn)一步穩(wěn)定。
理想目前全量推給用戶版本,端到端網(wǎng)絡(luò)是用500萬(wàn)Clips(視頻片段)訓(xùn)練的,內(nèi)部測(cè)試的版本使用6-700萬(wàn)Clips,年底預(yù)計(jì)用1000萬(wàn)Clips,用多少Clips的主要限制是云端算力儲(chǔ)備。
理想的智駕方案是端到端+VLM,兩者的工作邏輯是VLM一直提供信息給端到端決策做參考,但有時(shí)候VLM信息被使用的權(quán)重很低,有時(shí)候權(quán)重很高(比如在學(xué)校、高架、施工之類(lèi))。何時(shí)、何種場(chǎng)景高權(quán)重地使用VLM的信息,是由人類(lèi)工程師來(lái)定義的,但按產(chǎn)品經(jīng)理的說(shuō)法,不是用手動(dòng)規(guī)則而是通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。
高速ETC這個(gè)場(chǎng)景理想是靠VLM的能力去解決的,VLM這個(gè)更大的模型去識(shí)別前面是不是收費(fèi)站,哪條道是ETC,哪個(gè)道能走,以及有沒(méi)有臨時(shí)管制。
相比于端到端在訓(xùn)練時(shí)用大量數(shù)據(jù),VLM對(duì)數(shù)據(jù)使用效率更高。比如端到端解決一個(gè)場(chǎng)景可能需要用幾萬(wàn)到幾十萬(wàn)Clips訓(xùn)練,VLM可能只要幾千就夠了。另外端到端網(wǎng)絡(luò)目前運(yùn)行速率10hz,VLM慢一些,但最近從3-4hz優(yōu)化到了5-6hz。
數(shù)據(jù)很重要,所以車(chē)的保有量很重要,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化的收集、標(biāo)注也很重要,理想目前數(shù)據(jù)標(biāo)注自動(dòng)化率在95-97%之間,剩下的主要是人工復(fù)檢。并且端到端和VLM的自動(dòng)化標(biāo)注不太一樣,提取VLM相關(guān)的Clips的時(shí)機(jī)通常會(huì)早一點(diǎn),因?yàn)閂LM幀率低,要多看一會(huì)兒。
理想對(duì)萬(wàn)人團(tuán)的數(shù)據(jù)回傳很倚重(基本都是智駕重度用戶),針對(duì)他們定制了一套對(duì)舒適維度更嚴(yán)格的數(shù)據(jù)回傳觸發(fā)標(biāo)準(zhǔn),每個(gè)萬(wàn)人團(tuán)用戶大概每2-3分鐘就會(huì)觸發(fā)一次帶原始數(shù)據(jù)的Clips上傳,每個(gè)Clips時(shí)長(zhǎng)15秒,數(shù)據(jù)量一般在幾百兆大小,流量成本不到一塊錢(qián),但因?yàn)榭偭看?,?shù)據(jù)上傳的流量成本非常高。

