今年6月,羅永浩的數(shù)字人登上百度電商直播間,連續(xù)6小時不間斷“帶貨”,一邊調(diào)侃、一邊拎著可樂、喝著奶茶,與助播朱蕭木的數(shù)字人一唱一和,引發(fā)1300萬人次圍觀。這場直播最終實現(xiàn)GMV(商品交易總額)5500萬元,刷新了數(shù)字人帶貨紀(jì)錄。
▲羅永浩的數(shù)字人直播
現(xiàn)在,驅(qū)動這場直播的“AI總導(dǎo)演”,站上了世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會的領(lǐng)獎臺。
在11月6日至9日舉行的2025年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”榮獲領(lǐng)先科技獎,實現(xiàn)連續(xù)三年獲獎。

▲百度CTO王海峰在講解高擬真數(shù)字人技術(shù)
從羅永浩的數(shù)字分身到世界互聯(lián)網(wǎng)大會的領(lǐng)獎舞臺,我們看到數(shù)字人好像跟前幾年我們印象中的不一樣了,一個問題隨之浮現(xiàn):
讓數(shù)字人跨越“形似”的初級階段,進入“神形兼?zhèn)?rdquo;的全新境界,百度是如何做的?
一、烏鎮(zhèn)大會上的AI新風(fēng)向:數(shù)字人成大模型經(jīng)典落地場景
世界互聯(lián)網(wǎng)大會“領(lǐng)先科技獎”是全球互聯(lián)網(wǎng)科技發(fā)展的一個風(fēng)向標(biāo)。
在今年的世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,評審委員會從34個國家和地區(qū)征集了424項科技成果,經(jīng)海內(nèi)外專家評審,最終遴選出17項年度領(lǐng)先成果。
其中,作為融合了大語言模型與多模態(tài)技術(shù)的創(chuàng)新應(yīng)用,百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”成功入選。一同入選的還有中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院軟件研究所的“處理器芯片軟硬件全自動設(shè)計”,清華大學(xué)“北斗三號衛(wèi)星導(dǎo)航信號關(guān)鍵技術(shù)及應(yīng)用”等成果。

▲2025年世界互聯(lián)網(wǎng)大會領(lǐng)先科技獎頒獎現(xiàn)場
當(dāng)下,數(shù)字人正成為AI最具代表性的落地場景之一。百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”體現(xiàn)了這一趨勢,不僅是語言、視覺、語音技術(shù)的融合創(chuàng)新,更是百度多年AI技術(shù)的集大成者。
從2023年“知識增強大語言模型關(guān)鍵技術(shù)”到2024年“文心智能體技術(shù)”,百度成為唯一連續(xù)三年獲獎的人工智能公司。
二、何以“高擬真”?5大核心技術(shù),為數(shù)字人注入“靈魂”
過去我們談數(shù)字人,更多是關(guān)注“像不像”;而今天百度的數(shù)字人,已經(jīng)進入“神似”的維度。何以“高擬真”?
其核心,在于以文心大模型為內(nèi)核的“劇本驅(qū)動多模協(xié)同技術(shù)”,讓數(shù)字人具備了自我理解、規(guī)劃和表演的能力。該技術(shù)有以下五大創(chuàng)新點:

1、劇本驅(qū)動多模協(xié)同:為數(shù)字人注入“靈魂”
傳統(tǒng)數(shù)字人依賴人工腳本和單模態(tài)驅(qū)動,而百度的這項技術(shù)能生成一份真正意義上的“劇本”, 劇本生成的核心在于語言模型驅(qū)動下的多模態(tài)協(xié)同,不僅有“說什么”,還有“怎么說、說的時候怎么配合動作表情”。
比如,當(dāng)提到“法令紋”時,視覺系統(tǒng)會自動指向?qū)?yīng)面部區(qū)域;當(dāng)數(shù)字人“送福利”時,語音模塊會自動調(diào)整語調(diào),表現(xiàn)出興奮情緒。甚至在雙人互動時,還能標(biāo)記“在哪個詞后接話”,實現(xiàn)無縫對話。
這讓數(shù)字人不再只是“說話的模型”,而是真正擁有導(dǎo)演級的多模態(tài)表達協(xié)調(diào)力。
