多模態大模型推動AI邁向“通感”時代
如同人類的“五感”互相連通密不可分,人工智能(AI)的視覺、語言、音頻等模態間的邊界也在日漸融合。隨著人工智能感知、交互和生成能力的快速發展,多模態大模型正推動人工智能邁進“通感”時代。
記者昨天從上海人工智能實驗室獲悉,該實驗室發布的書生多模態大模型在全球80多種多模態和視覺評測任務中性能領先,超過谷歌、微軟、OpenAI等研發的同類模型。
書生多模態大模型包含200億個參數,由80億個海量多模態樣本訓練而成,支持350萬語義標簽的識別和理解,覆蓋開放世界常見的類別和概念,已具備開放世界理解、跨模態生成、多模態交互3方面核心能力。
當ChatGPT橫空出世,專家就預言它將改變人機交互的“接口”。當下,多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向,一個人人都能用語音“指揮”AI的低門檻時代或許已近在咫尺。
從預定義任務到開放任務,解鎖真實世界理解力
在快速增長的各類應用場景需求下,傳統計算機視覺已無法處理真實世界中數不勝數的特定任務和場景需求,迫切需要一種具備通用場景感知和復雜問題處理能力的高級視覺系統。書生多模態大模型融合了視覺、語言及多任務建模三大模型能力,即通用視覺大模型、用于文本理解的超大語言預訓練模型(LLM)和用于多任務的兼容解碼建模大模型,這使它能夠更接近人類的感知和認知能力。
在人工智能研究中,“開放世界”是指非預設、非學術集或封閉集定義的真實世界。傳統研究中,AI僅能完成預定義任務,即學術集或封閉集定義的任務,而這種任務范圍與真實的開放世界存在很大差距。例如,ImageNet-1K學術集包含1000種物體,其中約有兩種花、48種鳥和21種魚;而在真實世界中,花、鳥、魚的種類分別約為45萬、1萬和2萬。
在開放世界中,書生多模態大模型正通過不斷學習,獲得更接近人類的感知和認知能力。在語義開放方面,它可以識別和理解開放世界中超過350萬種語義,覆蓋日常生活中常見的物體類別、物體動作和光學字符等,完成了從解決預定義任務到執行開放任務的蛻變,為未來多模態通用人工智能(AGI)模型研究提供了有力支持。
看圖寫詩,跨模態生成同時給出“創作思路”
眼下,AI技術的發展正面臨著大量跨模態任務的挑戰。如在自動駕駛場景下,需準確輔助車輛判斷交通燈狀態、道路標志牌等信息,為車輛的決策規劃提供有效信息輸入。
看圖寫作是一種經典的模態轉換能力。在“欣賞”了張大千的《湖山清夏圖》后,書生多模態大模型根據要求創作了一首七言絕句,詩篇如下:“山峰高聳入云天,云霧繚繞自成煙。忘身物外心自適,靜聽松濤入畫眠。”上海人工智能實驗室表示,書生多模態大模型已經具備了由圖像到文本的跨模態生成能力,最后一句還借鑒了唐代詩人韋莊的名句“春水碧于天,畫船聽雨眠”,體現出一定文化積累。
生成文本的同時,書生大模型還給出了“創作思路”:首先確定圖片中描繪的元素;其次,從畫面中尋找能夠表達出詩人思想情感的元素,如山峰高聳、云霧繚繞、松濤等;第三,根據元素構思詩句;最后,根據詩句的韻律和格律完善表達。
將圖像視為新語言,多模態交互降低使用門檻
當人工智能邁入“通感”時代,對人們最近的影響是什么?上海人工智能實驗室有關專家表示,書生多模態大模型可以將圖像視為一種新的語言,用戶可利用自然語言指令,靈活定義和管理任意視覺任務。
打個比方,當你輸入一張照片,并用語音“指揮”AI將其轉換成一段文字并發送給父母時,它能立即理解并完成指令。多模態交互功能降低了AI任務的門檻,使AI有望成為萬千大眾都能使用的生產工具。
也就是說,人機交互的“接口”即將改變。過去,我們在不同場景中借助不同軟件與虛擬世界相連,這意味著我們還處于圖形界面用戶時代;未來,多模態大模型將把我們帶入自然語言對話界面時代,如鋼鐵俠擁有了AI助手賈維斯。
如同人類的“五感”互相連通密不可分,人工智能(AI)的視覺、語言、音頻等模態間的邊界也在日漸融合。隨著人工智能感知、交互和生成能力的快速發展,多模態大模型正推動人工智能邁進“通感”時代。
記者昨天從上海人工智能實驗室獲悉,該實驗室發布的書生多模態大模型在全球80多種多模態和視覺評測任務中性能領先,超過谷歌、微軟、OpenAI等研發的同類模型。
書生多模態大模型包含200億個參數,由80億個海量多模態樣本訓練而成,支持350萬語義標簽的識別和理解,覆蓋開放世界常見的類別和概念,已具備開放世界理解、跨模態生成、多模態交互3方面核心能力。
當ChatGPT橫空出世,專家就預言它將改變人機交互的“接口”。當下,多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向,一個人人都能用語音“指揮”AI的低門檻時代或許已近在咫尺。
從預定義任務到開放任務,解鎖真實世界理解力
在快速增長的各類應用場景需求下,傳統計算機視覺已無法處理真實世界中數不勝數的特定任務和場景需求,迫切需要一種具備通用場景感知和復雜問題處理能力的高級視覺系統。書生多模態大模型融合了視覺、語言及多任務建模三大模型能力,即通用視覺大模型、用于文本理解的超大語言預訓練模型(LLM)和用于多任務的兼容解碼建模大模型,這使它能夠更接近人類的感知和認知能力。
在人工智能研究中,“開放世界”是指非預設、非學術集或封閉集定義的真實世界。傳統研究中,AI僅能完成預定義任務,即學術集或封閉集定義的任務,而這種任務范圍與真實的開放世界存在很大差距。例如,ImageNet-1K學術集包含1000種物體,其中約有兩種花、48種鳥和21種魚;而在真實世界中,花、鳥、魚的種類分別約為45萬、1萬和2萬。
在開放世界中,書生多模態大模型正通過不斷學習,獲得更接近人類的感知和認知能力。在語義開放方面,它可以識別和理解開放世界中超過350萬種語義,覆蓋日常生活中常見的物體類別、物體動作和光學字符等,完成了從解決預定義任務到執行開放任務的蛻變,為未來多模態通用人工智能(AGI)模型研究提供了有力支持。
看圖寫詩,跨模態生成同時給出“創作思路”
眼下,AI技術的發展正面臨著大量跨模態任務的挑戰。如在自動駕駛場景下,需準確輔助車輛判斷交通燈狀態、道路標志牌等信息,為車輛的決策規劃提供有效信息輸入。
看圖寫作是一種經典的模態轉換能力。在“欣賞”了張大千的《湖山清夏圖》后,書生多模態大模型根據要求創作了一首七言絕句,詩篇如下:“山峰高聳入云天,云霧繚繞自成煙。忘身物外心自適,靜聽松濤入畫眠。”上海人工智能實驗室表示,書生多模態大模型已經具備了由圖像到文本的跨模態生成能力,最后一句還借鑒了唐代詩人韋莊的名句“春水碧于天,畫船聽雨眠”,體現出一定文化積累。
生成文本的同時,書生大模型還給出了“創作思路”:首先確定圖片中描繪的元素;其次,從畫面中尋找能夠表達出詩人思想情感的元素,如山峰高聳、云霧繚繞、松濤等;第三,根據元素構思詩句;最后,根據詩句的韻律和格律完善表達。
將圖像視為新語言,多模態交互降低使用門檻
當人工智能邁入“通感”時代,對人們最近的影響是什么?上海人工智能實驗室有關專家表示,書生多模態大模型可以將圖像視為一種新的語言,用戶可利用自然語言指令,靈活定義和管理任意視覺任務。
打個比方,當你輸入一張照片,并用語音“指揮”AI將其轉換成一段文字并發送給父母時,它能立即理解并完成指令。多模態交互功能降低了AI任務的門檻,使AI有望成為萬千大眾都能使用的生產工具。
也就是說,人機交互的“接口”即將改變。過去,我們在不同場景中借助不同軟件與虛擬世界相連,這意味著我們還處于圖形界面用戶時代;未來,多模態大模型將把我們帶入自然語言對話界面時代,如鋼鐵俠擁有了AI助手賈維斯。