TEL: 0752-3616551 15917765495

多模态大(Big)模型引領「以(By)人(People)爲(For)本」的(Of)智能汽車交互革新,商湯絕影亮相WAIC 2024

Jul,15,2024 << Return list

2024年7月5日,中國(Country)上海——2024世界人(People)工智能大(Big)會暨人(People)工智能全球治理高級别會議(WAIC 2024)于(At)7月4日-7月7日在(Exist)上海舉行。商湯絕影攜多款基于(At)全新發布的(Of)商湯「日日新5.5」原生(Born)多模态大(Big)模型打造的(Of)智能駕駛和(And)智能座艙産品亮相本屆WAIC,引領「以(By)人(People)爲(For)本」的(Of)智能汽車交互革新。

作(Do)爲(For)加速智能汽車駛入AGI時(Hour)代的(Of)戰略合作(Do)夥伴,商湯絕影展示了可解釋、可交互的(Of)自動駕駛大(Big)模型DriveAGI,同時(Hour)還發布了行業首個(Indivual)車載生(Born)成式交互界面 「随心界面」(FlexInterface)、「随意操控」(AgentFlow)等車載AI Agent應用(Use)。此外,商湯絕影自動駕駛小巴也亮相本屆WAIC,并成爲(For)大(Big)會唯一(One)承擔接駁任務的(Of)L4級别自動駕駛小巴。

在(Exist)7月5日由WAIC 2024戰#xad;略合作(Do)夥伴商湯科技召開的(Of)「大(Big)愛無疆·向新力」人(People)工智能論壇上,商湯科技發布國(Country)内首個(Indivual)所見即所得模型「日日新5o」,實時(Hour)流式多模态交互體驗對标GPT-4o,展現采用(Use)混合端雲協同專家架構的(Of)商湯「日日新5.5」大(Big)模型的(Of)強大(Big)實力。商湯科技聯合創始人(People)、首席科學家、絕影智能汽車事業群總裁王曉剛表示,“原生(Born)多模态大(Big)模型是打開AGI大(Big)門的(Of)鑰匙,商湯絕影正在(Exist)激發AGI創造力,推動多模态大(Big)模型與智能汽車的(Of)深度融合,打造一(One)系列全新的(Of)車載智能化産品,加速智能汽車向超級智能體進化,引領一(One)場「以(By)人(People)爲(For)本」的(Of)智能汽車交互的(Of)變革。”

1.jpg


王曉剛在(Exist)「大(Big)愛無疆·向新力」論壇分享商湯絕影最新的(Of)技術和(And)産品進展

真·「以(By)人(People)爲(For)本」,商湯絕影多模态大(Big)模型引領智能汽車交互革新

多模态大(Big)模型能夠将語音、文字、圖像、手勢、視頻等各種模态進行高效且深度地融合,提供更加豐富且自然的(Of)人(People)機交互體驗。

過去許多模型處理不(No)同模态信息是先把語音等輸入轉化爲(For)文字,文字和(And)圖像結合進行分析,輸出(Out)反饋也是先生(Born)成文字,根據文字再生(Born)成語音輸出(Out),會有大(Big)量信息丢失和(And)很高的(Of)延遲。

由「日日新5.5」體系支持的(Of)全新商湯多模态大(Big)模型是一(One)種端到(Arrive)端的(Of)模型,也就是文字、語音、視頻等模态一(One)同輸入,模型統一(One)處理後輸出(Out)相應模态的(Of)信息,相較于(At)過去的(Of)方案,多模态融合的(Of)技術難度是幾何倍數的(Of)提升。

技術上的(Of)高難度是商湯行業領先的(Of)原生(Born)多模态能力的(Of)直接體現。今年4月發布的(Of)「日日新5.0」是國(Country)内首個(Indivual)對标GPT-4 Turbo的(Of)國(Country)産大(Big)模型,「日日新5.5」體系更是全面升級,數學推理、英文能力和(And)指令跟随等能力明顯增強,交互效果和(And)多項核心指标實現對标GPT-4o。

此前GPT-4o的(Of)發布爲(For)消費者展示了多模态實時(Hour)交互的(Of)方式,讓更多人(People)領略多模态感知和(And)交互的(Of)魅力,也開始幫助釋放多模态大(Big)模型的(Of)商業落地想象空間。

相較于(At)手機,智能汽車才是更适合承載多模态大(Big)模型的(Of)落地場景。因爲(For)智能汽車内外的(Of)各種攝像頭是常開的(Of),用(Use)戶可以(By)實時(Hour)跟汽車通過多模态的(Of)方式進行交互。同時(Hour),智能汽車的(Of)保有量不(No)斷增加,能夠産生(Born)豐富的(Of)終端用(Use)戶反饋和(And)數據信息,讓模型不(No)斷叠代成長。

這(This)些因素綜合展現了一(One)個(Indivual)令人(People)激動的(Of)未來(Come)智能汽車發展方向:從智能汽車正在(Exist)進化爲(For)超級智能體,多模态大(Big)模型則是這(This)一(One)進程的(Of)核心驅動力。

和(And)OpenAI等公司相比,商湯絕影是智能汽車的(Of)核心供應商,在(Exist)智能駕駛和(And)智能座艙領域具備豐富的(Of)量産經驗,将以(By)多模态大(Big)模型爲(For)核心加速「以(By)人(People)爲(For)本」的(Of)智能汽車交互革新。

智能汽車的(Of)人(People)機交互正在(Exist)從「以(By)車爲(For)中心」向「以(By)人(People)爲(For)中心」轉型。在(Exist)這(This)個(Indivual)轉型中,現階段用(Use)戶仍需用(Use)文本或語音給智能汽車提供信息和(And)數據以(By)獲取被動式的(Of)服務,其他(He)的(Of)信息都丢失了,尚未真正做到(Arrive)主動服務用(Use)戶。商湯絕#xad;影正在(Exist)用(Use)多模态大(Big)模型打造真·「以(By)人(People)爲(For)中心」的(Of)智能汽車交互方式,這(This)種交互覆蓋了座艙、汽車周邊的(Of)環境,讓有關于(At)“人(People)”的(Of)信息不(No)會被忽視,甚至它還突破了空間的(Of)限制,實現艙内用(Use)戶與更廣闊的(Of)物理和(And)數字世界的(Of)聯接。

2.jpg


商湯絕影在(Exist)行業率先實現原生(Born)多模态大(Big)模型的(Of)車端部署


3.jpeg

商湯絕影車載端側8B多模态模型性能行業領先

車端模型部署能力是智能汽車交互革新不(No)可或缺的(Of)技術保障,商湯絕影能夠以(By)雲側、端雲結合、端側等全棧方式靈活部署多模态大(Big)模型,讓商湯原生(Born)多模态能力能夠快速落地智能汽車。

在(Exist)本屆WAIC上,商湯絕影在(Exist)行業率先實現原生(Born)多模态大(Big)模型的(Of)車端部署,并對外展示了在(Exist)3個(Indivual)不(No)同算力平台上運行2.1B或8B端側多模态大(Big)模型的(Of)适配能力。相較于(At)動辄就有幾秒鍾延遲的(Of)雲上部署方案,商湯絕影車載端側8B多模态模型可以(By)實現首包延遲低至300毫秒以(By)内,推理速度40Tokens/秒,爲(For)「以(By)人(People)爲(For)本」的(Of)智能汽車交互革新保駕護航。

DriveAGI可解釋、可交互,多模态讓端到(Arrive)端智駕安全可信賴

2022年底,商湯及其聯合實驗室提出(Out)了行業首個(Indivual)感知決策一(One)體化自動駕駛通用(Use)模型UniAD,并在(Exist)次年榮獲2023年國(Country)際計算機視覺與模式識别會議(CVPR)最佳論文,今年北京車展,商湯絕影展示了UniAD的(Of)實車上路成果,持續引領端到(Arrive)端自動駕駛的(Of)創新潮流。

北京車展以(By)來(Come),UniAD穩步前行,通過持續的(Of)數據采集、真值生(Born)産、模型訓練、實車測試,UniAD系統穩定性大(Big)幅增強,體驗連續性和(And)舒适性不(No)斷提升。在(Exist)本屆WAIC上,商湯絕影展示了隻搭載7個(Indivual)攝像頭的(Of)UniAD,在(Exist)無圖情況下實現城區複雜道路、鄉村小路等場景一(One)鏡到(Arrive)底的(Of)實車演示,端到(Arrive)端智駕模型持續叠代進化。

UniAD顯著提升了智駕系統的(Of)駕駛能力,但純粹的(Of)端到(Arrive)端自動駕駛模型不(No)是自動駕駛的(Of)最終答案,進一(One)步具備對開放世界的(Of)感知、推理、決策及交互能力,将是智能汽車走向超級智能體的(Of)重要(Want)标志。因此,商湯絕影開創性地研發了首個(Indivual)應用(Use)于(At)駕駛決策規劃的(Of)智駕大(Big)模型,即基于(At)多模态大(Big)模型打造的(Of)DriveAGI,讓端到(Arrive)端智駕可解釋、可交互。

DriveAGI增強了端到(Arrive)端系統的(Of)可解釋性,不(No)僅讓車輛能夠更像人(People)一(One)樣理解複雜的(Of)現實世界,洞察各類交通參與者的(Of)行爲(For)動機,快速學習各種交通規則,掌握瞬息萬變的(Of)道路信息,還能向用(Use)戶解釋駕駛決策的(Of)推理過程。

目前,商湯絕影DriveAGI智駕大(Big)模型能在(Exist)無限寬标識的(Of)道路上,安全順利穿過兩個(Indivual)石墩形成的(Of)狹窄通道;它還能準确辨識并理解包括公交車道、潮汐車道及施工車道等各類交通标識,并自主進行變道或規避,甚至當後方有救護車接近時(Hour),DriveAGI會進行思考推理,最終進行及時(Hour)變道避讓。

微信圖片_20240706142814.png


DriveAGI不(No)僅能識别救護車,還能做到(Arrive)主動讓行執勤救護車

多模态大(Big)模型還賦予了DriveAGI強大(Big)的(Of)可交互性,用(Use)戶不(No)僅可以(By)通過問詢讓DriveAGI解釋自己的(Of)決策過程,還能通過語音或手勢指令來(Come)控制自動駕駛行爲(For)。例如,未來(Come)在(Exist)自動駕駛狀态下,導航指示車輛需在(Exist)下個(Indivual)路口調頭以(By)抵達目的(Of)地,但駕駛員知曉可在(Exist)前方有近路可以(By)直接轉彎,那麽他(He)隻需對系統說出(Out)「直接左拐」,系統便會根據當前路況來(Come)執行這(This)一(One)指令。

UniAD和(And)DriveAGI智駕大(Big)模型的(Of)驚豔表現依賴于(At)商湯絕影強大(Big)的(Of)模型能力,同時(Hour)也需要(Want)大(Big)量的(Of)高質量數據支持學習和(And)訓練。作(Do)爲(For)「新質生(Born)産力」,以(By)多模态爲(For)代表的(Of)大(Big)模型極大(Big)提高了端到(Arrive)端智駕訓練、叠代的(Of)生(Born)産效率。

以(By)真實的(Of)多模态數據爲(For)基礎,商湯絕影的(Of)世界模型、交通流仿真大(Big)模型等一(One)系列雲端大(Big)模型源源不(No)斷生(Born)産出(Out)高質量數據,同時(Hour)通過各個(Indivual)大(Big)模型之間相互協同,實現場景生(Born)産、交通流仿真、真值生(Born)産、系統診斷等能力,打造出(Out)智駕大(Big)模型時(Hour)代的(Of)端到(Arrive)端數據閉環,爲(For)端到(Arrive)端自動駕駛方案的(Of)落地與進化提供有力的(Of)保障。

多模态融入智能座艙,讓智能汽車成爲(For)你的(Of)專屬「賈維斯」

今天的(Of)智能汽車配備了豐富且強大(Big)的(Of)硬件,能夠爲(For)用(Use)戶打造一(One)個(Indivual)獨立的(Of)交互環境,它是AGI落地的(Of)最佳場景。面向智能座艙,商湯絕影充分釋放多模态大(Big)模型強大(Big)感知和(And)交互能力,激發更多想象空間。

依靠行業領先的(Of)多模态能力,商湯絕影正在(Exist)打造多模态大(Big)模型引擎産品「座艙大(Big)腦」(CockpitBrain),構建一(One)系列AI大(Big)模型座艙産品矩陣,讓鋼鐵俠的(Of)人(People)工智能幫手「賈維斯」走進智能汽車,成爲(For)每一(One)個(Indivual)用(Use)戶的(Of)AI出(Out)行夥伴。

在(Exist)本屆 WAIC上,商湯絕影正式發布行業首個(Indivual)生(Born)成式交互界面産品「随心界面」(FlexInterface)以(By)及「随意操控」(AgentFlow)等多個(Indivual)車載 AI Agent,旨在(Exist)通過AI技術,徹底改變用(Use)戶與車載系統的(Of)交互方式。

依托于(At) AI 大(Big)模型的(Of)即時(Hour)生(Born)成和(And)修改交互界面的(Of)能力,FlexInterface在(Exist)大(Big)模型解析用(Use)戶需求的(Of)基礎上,結合設計系統的(Of)框架和(And)範式,實現高度動态和(And)個(Indivual)性化的(Of)界面生(Born)成。無論是天氣、時(Hour)間、節日、紀念日,還是周圍環境變化,FlexInterface 都能自動變換界面風格,提供最佳用(Use)戶體驗。

AgentFlow 通過大(Big)模型的(Of)推理能力,模拟人(People)類點擊操作(Do),實現對APP和(And)網站的(Of)直接操作(Do)。用(Use)戶隻需使用(Use)自然語言,就能讓AI自主選擇多個(Indivual)工具完成複雜任務,無需主機廠進行額外的(Of)研發适配。這(This)種能力不(No)僅提升了操作(Do)的(Of)便捷性,還極大(Big)地擴展了車載系統的(Of)功能範圍。例如,用(Use)戶能讓AgentFlow自動搜索并預約适合看球的(Of)酒吧,提供從搜索到(Arrive)預訂的(Of)一(One)站式服務。

在(Exist)商湯絕影的(Of)現場演示中,用(Use)戶通過FlexInterface生(Born)成了一(One)個(Indivual)「歐洲杯」風格的(Of)主題,大(Big)模型自動生(Born)成具備歐洲杯元素的(Of)中控屏幕桌面和(And)圖标;同時(Hour),用(Use)戶還能通過AgentFlow随時(Hour)播放歐洲杯或足球相關的(Of)音樂,展示了這(This)些創新産品在(Exist)實際應用(Use)中的(Of)強大(Big)能力和(And)靈活性。

80.jpeg


FlexInterface通過大(Big)模型生(Born)成的(Of)「歐洲杯」主題的(Of)車載界面

除此之外,本屆WAIC上,商湯絕影在(Exist)傳統智能汽車「哨兵模式」的(Of)基礎上打造了「多模态哨兵」, 能夠全面理解并應對開放世界中可能對車輛造成損害的(Of)各種潛在(Exist)随機危險行爲(For),諸如劃車、噴塗車身、拍打砸車、拉拽門把手、撬門以(By)及踹車等,确保車輛安全無死角。

在(Exist)多模态大(Big)模型的(Of)助力下,商湯絕影将讓智能汽車成爲(For)用(Use)戶的(Of)專屬「賈維斯」,讓智能汽車向着超級智能體的(Of)形态又邁進了一(One)步。

量産全面開花,開辟出(Out)行新範式,加速駛入AGI時(Hour)代

作(Do)爲(For)加速智能汽車駛入AGI時(Hour)代的(Of)戰略合作(Do)夥伴,商湯絕影不(No)隻是在(Exist)大(Big)模型技術上領航新時(Hour)代,産品化量産落地也已經全面開花。

在(Exist)智能座艙領域,商湯絕影的(Of)大(Big)模型産品已經在(Exist)多家主流汽車制造企業的(Of)量産車型中得到(Arrive)廣泛應用(Use)。例如,商湯的(Of)大(Big)模型已全面助力小米SU7的(Of)小愛語音助手車載語音場景應用(Use)。

6月25日,翼真 L380正式上市,行業領先的(Of)最新版本商湯「日日新」大(Big)模型實現量産上車,基于(At)「商量」大(Big)語言模型和(And)「秒畫」文生(Born)圖模型,商湯絕影爲(For)翼真 L380定制化打造了「AI閑聊」、「美圖壁紙」、「童話繪本」、「AI問診」等AI大(Big)模型座艙産品和(And)功能,助力「陸地空客」升維智能座艙體驗。

在(Exist)智能駕駛領域,商湯絕影的(Of)量産智駕産品已落地包括廣汽埃安LX Plus、合衆哪吒S、廣汽昊鉑GT、紅旗等品牌及車型,高速NOA等功能也開始落地,同時(Hour)絕影還在(Exist)推進更多車型交付,已具備了從感知到(Arrive)規控的(Of)全棧智駕技術量産交付能力。6月初,廣汽和(And)一(One)汽入選國(Country)内首批L3試點項目,商湯絕影爲(For)他(He)們提供面向L3的(Of)感知算法。不(No)止如此,商湯絕影目前的(Of)多個(Indivual)量産智駕方案在(Exist)未來(Come)均可升級爲(For)端到(Arrive)端架構。

更高階的(Of)L4自動駕駛領域,商湯絕影自動駕駛小巴成爲(For)WAIC 2024唯一(One)承擔接駁任務的(Of)L4級别自動駕駛小巴,提供多個(Indivual)地點之間的(Of)需求響應式自動駕駛巴士出(Out)行體驗。

這(This)背後是商湯絕影硬核的(Of)技術實力和(And)強大(Big)的(Of)落地運營能力。目前,絕影L4級别的(Of)自動駕駛小巴的(Of)測試與運營總裏程累計已超3,000,000公裏,并在(Exist)江蘇無錫、陝西西鹹新區等多地開展自動駕駛接駁服務。

在(Exist)上海臨港,絕影L4級自動駕駛小巴已經面向公衆進行日常運營。商湯絕影與上海臨港新片區公共交通有限公司共同打造的(Of)智能網聯公交場景,采用(Use)“響應式公交”模式按需響應,已實際投入的(Of)醫療專線和(And)上海海洋大(Big)學專線,預約乘坐人(People)數累計已超過16,000人(People)次。

商湯絕影的(Of)大(Big)模型産品正在(Exist)融入智能汽車和(And)智慧出(Out)行的(Of)方方面面,開辟全新的(Of)出(Out)行範式,加速智能汽車駛入AGI時(Hour)代。