大模型呼喚開源多模態(tài) AI加速沖刺物理世界
業(yè)內(nèi)人士判斷,語言模型在去年發(fā)生飛躍式爆發(fā),今年有望成為多模態(tài)模型規(guī)?;a(chǎn)落地的拐點(diǎn)。
新華財(cái)經(jīng)上海6月7日電(記者 竇世平) 6月6日至7日,2025智源大會在北京中關(guān)村召開,來自國內(nèi)外業(yè)內(nèi)人士圍繞AI、具身智能等發(fā)展現(xiàn)狀及未來方向展開探討。記者采訪獲悉,大模型正從數(shù)字世界走向物理世界交互,多模態(tài)在今年有望迎來規(guī)?;涞毓拯c(diǎn),數(shù)據(jù)集共享是開源協(xié)作的關(guān)鍵。
AI加速沖刺物理世界
“公司的終極目標(biāo)是讓機(jī)器人能干活,無論是在家庭還是工廠。”宇樹科技CEO王興興在具身智能會客廳環(huán)節(jié)中表示。
讓機(jī)器人干活的本質(zhì)就是將智能作用于物理世界的過程。多位產(chǎn)業(yè)人士判斷,在2025年具身智能的發(fā)展處于行業(yè)落地的關(guān)鍵節(jié)點(diǎn),相關(guān)應(yīng)用探索不斷深入,正從實(shí)驗(yàn)室向物理世界穩(wěn)步推進(jìn)。
智源研究院院長王仲遠(yuǎn)表示,大模型正在從大語言模型向原生多模態(tài)大模型和世界模型的方向進(jìn)行演進(jìn),正在加速從數(shù)字世界進(jìn)入物理世界。
本屆大會設(shè)置了AI科研成果互動體驗(yàn)展臺,參會者可以體驗(yàn)從具身智能到腦科學(xué)、數(shù)字心臟等領(lǐng)域的最新應(yīng)用。在具身智能展區(qū),基于RoboOS 2.0以及RoboBrain 2.0的不同構(gòu)型的機(jī)器人(單臂、輪式雙臂、人形)接受到記者的語音指令后,可以完成漢堡制作和倒飲料的動作,同時還能玩抓娃娃游戲和收納家居物品。
“基于推理能力的增強(qiáng),使得模型在智能體的能力上,有了長足的進(jìn)步,大模型自己能規(guī)劃任務(wù)、執(zhí)行任務(wù),根據(jù)環(huán)境的反饋去調(diào)整自己的任務(wù)流程。”智譜CEO張鵬表示,這個能力的提升使模型的能力、AI的能力,從數(shù)字世界有機(jī)會邁進(jìn)物理世界。
行業(yè)人士熱議多模態(tài)模型
多模態(tài)在大會上成為行業(yè)熱議的一大關(guān)鍵詞。業(yè)內(nèi)人士判斷,語言模型在去年發(fā)生飛躍式爆發(fā),今年有望成為多模態(tài)模型規(guī)?;a(chǎn)落地的拐點(diǎn)。
VLA視覺語言行動模型是當(dāng)下具身智能研究的熱點(diǎn)。銀河通用創(chuàng)始人王鶴認(rèn)為,自動駕駛其實(shí)驗(yàn)證了端到端的方案有更好的擴(kuò)展性,但VLA只能是一個起點(diǎn),要真想做到人類級別的具身智能,只能是不斷地融合新的模態(tài)。
在生數(shù)科技CEO駝怡航看來,行業(yè)已出現(xiàn)三大信號:一是技術(shù)迭代非常迅速,音視頻的生成模型,無論是效果、速度和成本上,都在快速提升;二是行業(yè)需求特別旺;三是視頻相關(guān)產(chǎn)業(yè)落地節(jié)奏正在加快。
“智源拓展原生多模態(tài)希望看看是否有其他的多模態(tài)技術(shù)路徑和技術(shù)架構(gòu)。”王仲遠(yuǎn)表示,目前雖然有一些進(jìn)展,但也還沒有到多模態(tài)的ChatGPT時刻。
談及多模態(tài)的火熱,星動紀(jì)元創(chuàng)始人兼CEO陳建宇分析,具身智能需要從虛擬圖像和文本世界,延展到真正的物理世界,所以要求該模型能夠具備更深的對物理層面的理解,并且搭載在能夠和物理世界進(jìn)行主動交互的具身機(jī)器人上,還能協(xié)同工作,這也是具身智能領(lǐng)域需要解決的一大難題。
數(shù)據(jù)集共享是開源的關(guān)鍵
與會嘉賓普遍認(rèn)為,開源是AI發(fā)展的核心,數(shù)據(jù)集共享是關(guān)鍵基礎(chǔ),全球合作至關(guān)重要,應(yīng)當(dāng)鼓勵開發(fā)者從提交代碼等小事參與開源,共同推動AI創(chuàng)新。
“數(shù)據(jù)集對于AI特別是大模型非常重要?!敝窃囱芯吭焊痹洪L、總工程師林詠華表示,這不僅僅針對多模態(tài)模型,對于具身智能,比如培訓(xùn)機(jī)器人更好地了解全世界,都需要新的數(shù)據(jù)集的輸入。
哈佛商學(xué)院數(shù)據(jù)顯示,全球開源軟件經(jīng)濟(jì)價值達(dá)9萬億美元,可幫助開發(fā)者節(jié)約70%開發(fā)成本,開源治理是平衡競爭與協(xié)同的核心機(jī)制。
“2025年是開源AI元年,開源正成為全球AI創(chuàng)新核心驅(qū)動力?!盠inux基金會執(zhí)行董事Jim Zemlin表示,開源是技術(shù)普惠的唯一路徑,通過全球協(xié)作確保AI創(chuàng)新由全人類共享。如中國企業(yè)DeepSeek發(fā)布開源大模型,引發(fā)技術(shù)生態(tài)變革,印證開源打破壟斷、加速迭代的作用。
“我們相信全球合作對于AI開源至關(guān)重要?!绷衷伻A說,因?yàn)樗兄诮档统杀荆梢杂袡C(jī)會獲得高質(zhì)量的數(shù)據(jù)來訓(xùn)練智能體,并且讓AI創(chuàng)新更好地發(fā)生。
?
編輯:羅浩
?
聲明:新華財(cái)經(jīng)為新華社承建的國家金融信息平臺。任何情況下,本平臺所發(fā)布的信息均不構(gòu)成投資建議。如有問題,請聯(lián)系客服:400-6123115