在晚高峰的車(chē)流中,一輛自動(dòng)駕駛車(chē)輛突然減速——前方,一輛高速行駛的車(chē)輛突然強(qiáng)行并線(xiàn)。在這千鈞一發(fā)之際,車(chē)載系統(tǒng)迅速識(shí)別風(fēng)險(xiǎn)并預(yù)測(cè)可能路徑,最終在安全距離實(shí)現(xiàn)了優(yōu)雅避讓?zhuān)€(wěn)妥化解潛在碰撞。這一反應(yīng)能力,得益于計(jì)算機(jī)視覺(jué)和人工智能的迅猛發(fā)展,特別是讓機(jī)器“看懂三維世界”的技術(shù)進(jìn)步。具備三維空間理解能力,是通往通用人工智能的關(guān)鍵一步,而視覺(jué)無(wú)疑是人類(lèi)與智能系統(tǒng)之間最自然、最高效的交互橋梁。

在這個(gè)領(lǐng)域中,香港中文大學(xué)(深圳)蔣理教授是一顆冉冉升起的新星。她長(zhǎng)期致力于三維場(chǎng)景感知、表征學(xué)習(xí)、自動(dòng)駕駛和世界模型等方向的研究,目標(biāo)是賦予機(jī)器理解、建模并與真實(shí)三維世界互動(dòng)的能力。

7月3日,在聯(lián)合國(guó)工業(yè)發(fā)展組織投資和技術(shù)促進(jìn)辦公室(中國(guó)·北京)與東壁科技數(shù)據(jù)有限責(zé)任公司聯(lián)合發(fā)布的聚焦全球人工智能科研人才榜單中,蔣理教授憑借在人工智能領(lǐng)域的卓越貢獻(xiàn)和突出成就,成功入選“全球人工智能女性人才榜TOP50”榜單。這位青年科學(xué)家正在用三維視覺(jué)重塑智能系統(tǒng)的“世界觀(guān)”,為人工智能邁入復(fù)雜真實(shí)世界奠定堅(jiān)實(shí)基礎(chǔ)。

?

讓實(shí)驗(yàn)室技術(shù)駛?cè)氍F(xiàn)實(shí)車(chē)道:直面真實(shí)世界的復(fù)雜性

真正的創(chuàng)新必須直面現(xiàn)實(shí)世界的復(fù)雜性,蔣理教授始終堅(jiān)持“從問(wèn)題中來(lái),到應(yīng)用中去”,以解決真實(shí)世界中的技術(shù)難題為導(dǎo)向,推動(dòng)前沿算法向產(chǎn)業(yè)落地邁進(jìn)。在自動(dòng)駕駛領(lǐng)域,蔣教授團(tuán)隊(duì)提出的三維場(chǎng)景感知模型和運(yùn)動(dòng)預(yù)測(cè)模型已經(jīng)具備較強(qiáng)的工程可用性,可直接應(yīng)用于自動(dòng)駕駛系統(tǒng)中,以支持動(dòng)態(tài)環(huán)境中的物體識(shí)別與行為預(yù)測(cè)。

面對(duì)動(dòng)態(tài)交通場(chǎng)景中瞬息萬(wàn)變的運(yùn)動(dòng)預(yù)測(cè)難題,蔣理教授團(tuán)隊(duì)提出了具有代表性的 Motion Transformer(MTR)系列模型,創(chuàng)新性地將Transformer架構(gòu)與物體運(yùn)動(dòng)規(guī)律深度融合,開(kāi)啟了自動(dòng)駕駛預(yù)測(cè)模型的系統(tǒng)性演進(jìn)。

這項(xiàng)歷時(shí)三年的技術(shù)攻堅(jiān),演繹著自動(dòng)駕駛運(yùn)動(dòng)預(yù)測(cè)核心算法“單目標(biāo)預(yù)測(cè)-多目標(biāo)預(yù)測(cè)-多模態(tài)預(yù)測(cè)”的進(jìn)化論:初代MTR突破性地將交通參與者的多模態(tài)運(yùn)動(dòng)意向建模為可學(xué)習(xí)的查詢(xún)形式,使軌跡預(yù)測(cè)更好地覆蓋物體未來(lái)可能的運(yùn)動(dòng)意向;在此之上迭代的第二代模型MTR++實(shí)現(xiàn)了多目標(biāo)軌跡同時(shí)預(yù)測(cè),更貼合真實(shí)世界的復(fù)雜路況;最新MTR v3繼續(xù)向前邁進(jìn)一步,將原始傳感器數(shù)據(jù)納入預(yù)測(cè)框架,攻克傳統(tǒng)高精地圖無(wú)法實(shí)時(shí)反映道路變化的行業(yè)痛點(diǎn)。

運(yùn)動(dòng)軌跡模擬

Waymo自動(dòng)駕駛挑戰(zhàn)賽由谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo主辦,因其貼近實(shí)際交通場(chǎng)景的高質(zhì)量數(shù)據(jù)與嚴(yán)格評(píng)測(cè)標(biāo)準(zhǔn),在學(xué)術(shù)界和工業(yè)界均具有很高的認(rèn)可度。在這項(xiàng)國(guó)際自動(dòng)駕駛專(zhuān)業(yè)賽事中,蔣理教授團(tuán)隊(duì)?wèi){借MTR系列模型問(wèn)鼎2022-2024年運(yùn)動(dòng)預(yù)測(cè)賽道“三連冠”,體現(xiàn)了其方法在應(yīng)對(duì)真實(shí)世界復(fù)雜交通動(dòng)態(tài)方面的有效性,也充分證明了其研究成果從實(shí)驗(yàn)室走向現(xiàn)實(shí)車(chē)道的潛力。

蔣理教授連續(xù)三年獲Waymo自動(dòng)駕駛挑戰(zhàn)賽運(yùn)動(dòng)預(yù)測(cè)賽道冠軍

?

雙螺旋創(chuàng)新:高校與企業(yè)的協(xié)同共振

傳統(tǒng)的自動(dòng)駕駛系統(tǒng)通過(guò)多個(gè)子模塊級(jí)聯(lián)處理駕駛?cè)蝿?wù),雖然在大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練下表現(xiàn)出色,但也面臨系統(tǒng)復(fù)雜、計(jì)算效率低以及模塊間誤差累積等問(wèn)題。針對(duì)這一“模塊化困境”,蔣理教授團(tuán)隊(duì)與滴滴自動(dòng)駕駛展開(kāi)深度合作,共同探索世界模型驅(qū)動(dòng)的端到端自動(dòng)駕駛新范式。端到端自動(dòng)駕駛系統(tǒng)通過(guò)從傳感器數(shù)據(jù)直接生成車(chē)輛控制行為,實(shí)現(xiàn)了全流程可微分的決策過(guò)程,具備在大規(guī)模數(shù)據(jù)驅(qū)動(dòng)下優(yōu)化整體性能的潛力。同時(shí),世界模型在這一系統(tǒng)中通過(guò)自監(jiān)督方式預(yù)測(cè)環(huán)境未來(lái)狀態(tài),使系統(tǒng)在未標(biāo)注的千萬(wàn)公里路測(cè)數(shù)據(jù)中自主學(xué)習(xí)物理規(guī)律與駕駛常識(shí),這種“時(shí)空推演能力”可顯著提高自動(dòng)駕駛系統(tǒng)的穩(wěn)定性和泛化能力。目前,這項(xiàng)研究現(xiàn)已進(jìn)入初步驗(yàn)證階段,并獲得了2024年度CCF-滴滴蓋亞學(xué)者科研基金資助。

蔣理教授(右二)獲2024年度CCF-滴滴蓋亞學(xué)者科研基金資助

這項(xiàng)技術(shù)探索的背后,是高校與企業(yè)的雙螺旋協(xié)同的創(chuàng)新生態(tài)。蔣理教授指出,高校中一批批思維活躍、勇于挑戰(zhàn)難題的青年學(xué)者在前沿探索中開(kāi)拓理論邊界,成為推動(dòng)學(xué)科進(jìn)步的重要源頭。而在當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的新階段,自動(dòng)駕駛等方向?qū)?shù)據(jù)規(guī)模和算力資源提出了更高的要求,企業(yè)的真實(shí)場(chǎng)景數(shù)據(jù)與算力平臺(tái)便能為前沿技術(shù)的探索搭建驗(yàn)證階梯,且企業(yè)更擅長(zhǎng)將研究成果工程化、系統(tǒng)化并推向?qū)嶋H應(yīng)用。二者的深度協(xié)同,是助推技術(shù)從“實(shí)驗(yàn)室”走向“真實(shí)場(chǎng)景”的關(guān)鍵路徑。

蔣理教授在2024年度中國(guó)計(jì)算機(jī)大會(huì)作報(bào)告

?

重塑機(jī)器的世界觀(guān):看懂世界、預(yù)測(cè)未來(lái)、自主行動(dòng)

當(dāng)前,計(jì)算機(jī)視覺(jué)領(lǐng)域正面臨從數(shù)字世界邁入物理世界的“空間認(rèn)知挑戰(zhàn)”。在圖像理解與內(nèi)容生成等任務(wù)中,視覺(jué)—語(yǔ)言多模態(tài)大模型已展現(xiàn)出優(yōu)秀的智能交互特性,但蔣理教授指出,這類(lèi)“智能”更多地發(fā)生在數(shù)字空間中,它們?nèi)狈?duì)三維空間結(jié)構(gòu)與物理規(guī)律的本質(zhì)理解,因此在實(shí)際環(huán)境中的感知與決策能力仍有很大的提升空間。

為此,蔣理教授團(tuán)隊(duì)將三維世界模型研究作為破局之鑰。通過(guò)世界模型所具備的動(dòng)態(tài)預(yù)測(cè)能力,讓機(jī)器不僅能感知當(dāng)下的環(huán)境,更能推演出未來(lái)世界狀態(tài)的變化,賦予智能體在物理世界中的決策智慧。她指出,“未來(lái)的人工智能不應(yīng)只是處理信息的工具,而應(yīng)成為能夠與世界交互的智能體。”

在可預(yù)見(jiàn)的未來(lái)里,自動(dòng)駕駛汽車(chē)將能夠安全應(yīng)對(duì)已通過(guò)基于世界模型的仿真數(shù)據(jù)平臺(tái)預(yù)演過(guò)上百萬(wàn)次的極端場(chǎng)景,安全抵達(dá)每一個(gè)目的地。蔣理教授對(duì)未來(lái)圖景的構(gòu)想也遠(yuǎn)不止于自動(dòng)駕駛領(lǐng)域:當(dāng)機(jī)器的視野從二維像素拓展到三維空間,工業(yè)生產(chǎn)線(xiàn)上具身智能體可擁有自主協(xié)調(diào)復(fù)雜工序的能力,手術(shù)機(jī)器人可實(shí)現(xiàn)毫米級(jí)精準(zhǔn)操作……這種智能與物理世界的融合,將徹底革新人類(lèi)與技術(shù)的協(xié)作范式。

在這場(chǎng)空間認(rèn)知革命中,蔣理教授團(tuán)隊(duì)的實(shí)踐正在從底層架構(gòu)重塑機(jī)器的世界觀(guān)。這不僅指明了自動(dòng)駕駛的前路,更在通用人工智能的基石上刻下坐標(biāo)。正如她所言:“我希望能夠構(gòu)建具備空間感知、推理與交互能力的視覺(jué)系統(tǒng),讓機(jī)器真正實(shí)現(xiàn)看懂世界、預(yù)測(cè)未來(lái)、自主行動(dòng)?!?/p>

?

青年教授簡(jiǎn)介

蔣理

港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授

蔣理,香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授,校長(zhǎng)青年學(xué)者。蔣教授于2021年獲得香港中文大學(xué)博士學(xué)位,其后在馬克斯·普朗克研究所擔(dān)任博士后研究員。蔣教授的研究聚焦于計(jì)算機(jī)視覺(jué)與人工智能,具體方向包括三維場(chǎng)景理解、自動(dòng)駕駛、空間智能、世界模型、表征學(xué)習(xí)以及多模態(tài)學(xué)習(xí)等。她的研究成果發(fā)表在CVPR、ICCV、ECCV、NeurIPS、TPAMI和IJCV等頂級(jí)會(huì)議和期刊中,并多次獲選口頭報(bào)告與亮點(diǎn)論文,谷歌學(xué)術(shù)引用量超過(guò)12,000次。其關(guān)于自動(dòng)駕駛運(yùn)動(dòng)預(yù)測(cè)的研究在2022-2024年的CVPR Waymo Open Dataset Motion Prediction Challenge中連續(xù)三屆獲得第一名。蔣教授入選2024年由斯坦福大學(xué)與愛(ài)思唯爾聯(lián)合發(fā)布的全球前2%頂尖科學(xué)家年度影響力榜單,并獲得國(guó)家級(jí)青年人才項(xiàng)目“海外優(yōu)青”的資助。

?

點(diǎn)擊了解更多:

祝賀!深圳三位女性登上“全球人工智能女性人才榜TOP50”