科大訊飛開放平臺研發(fā)總監(jiān)劉可為在會上發(fā)表了題為“多模態(tài)+大模型,構(gòu)建人形機器人新交互”的主題演講。他表示,科大訊飛機器人超腦平臺是以訊飛超腦2030技術(shù)為底座,面向物理世界、虛擬世界和元宇宙,以AI能力星云、多模態(tài)交互、大模型、模型訓(xùn)練、資產(chǎn)生成和軟硬件接入為核心的機器人開發(fā)平臺,幫助開發(fā)者快速搭建多場景適配、具有深厚知識底蘊以及擅長自我進化的實體機器人和虛擬數(shù)字人產(chǎn)品。
隨著大模型技術(shù)的發(fā)展,以具身智能為代表的人形機器人成為發(fā)展的新趨勢。面對功能更多樣、任務(wù)更專業(yè)、交互更自然、決策更智能的挑戰(zhàn),訊飛機器人超腦平臺從終端多模態(tài)交互和大模型理解決策兩個方面出發(fā),構(gòu)建人形機器人的新交互。首先,通過視聽融合的感知交互,實現(xiàn)了包含開啟交互、交互保持、切換交互權(quán)和結(jié)束交互在內(nèi)的機器人交互新范式。其次,基于大模型的機器人交互大腦,實現(xiàn)了控制級指令、官方技能、核心業(yè)務(wù)功能、快速知識問答、閑聊陪伴的多交互場景的統(tǒng)一。最后,開放了虛擬人驅(qū)動協(xié)議,滿足不同數(shù)字人的接入需求。訊飛機器人超腦平臺的愿景是,利用AI推動機器人產(chǎn)業(yè)的發(fā)展,讓機器人走進千家萬戶。
在活動現(xiàn)場,科大訊飛所展示的機器人超腦平臺多模態(tài)人機交互系統(tǒng)吸引了眾多參觀者的目光。該系統(tǒng)解決了機器人在嘈雜環(huán)境下聽、說、理解和思考的難題,展示了科大訊飛先進的多模態(tài)算法。借助這套系統(tǒng),機器人不僅能實現(xiàn)語音識別、自然語言處理等基礎(chǔ)功能,還具備人像識別、唇形識別等多種感知能力。更令人稱贊的是,這套系統(tǒng)能夠在人流密集、環(huán)境嘈雜的服務(wù)場景中精準捕捉到用戶的聲音,并運用訊飛星火認知大模型深入分析客戶的自然語言語義,精確理解用戶意圖。
同時,訊飛擬人的語音技術(shù)使得機器人回復(fù)語言更具人性化,能夠與用戶進行更加親切自然的交流。目前,科大訊飛的多模態(tài)交互系統(tǒng)已被廣泛應(yīng)用于數(shù)字人一體機、商用及家用服務(wù)機器人等多種設(shè)備中,其在智能家居、智慧零售、教育等領(lǐng)域的賦能作用尤為突出。
本屆大會不僅是一次技術(shù)的展示,更是對人形機器人產(chǎn)業(yè)發(fā)展趨勢的深度剖析。與會專家圍繞新一輪科技革命和產(chǎn)業(yè)變革、人形機器人新潮流、機器人技術(shù)研發(fā)、創(chuàng)新型產(chǎn)學(xué)研平臺建設(shè)等話題進行了深入討論,搭建了交流合作的平臺,推動了人形機器人產(chǎn)業(yè)的創(chuàng)新發(fā)展,也為在場的每一位觀眾提供了一個思考未來智能交互可能的窗口。隨著人工智能技術(shù)的不斷進步,科大訊飛正以其創(chuàng)新的多模態(tài)人機交互系統(tǒng)描繪一個智能機器人走進千家萬戶的未來圖景。