亚洲一区二区三区四区热压胶,www91在线观看,免费国产成人高清在线观看视频

豆包開源視頻生成模型VideoWorld：首創(chuàng)免語言模型依賴認知世界

IT之家

2025-02-10 15:31:55

IT之家 2 月 10 日消息，豆包大模型團隊聯(lián)合北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué)共同開發(fā)的視頻生成實驗?zāi)Ｐ汀癡ideoWorld”今日開源。不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型，VideoWorld 在業(yè)界首次實現(xiàn)無需依賴語言模型，即可認知世界。

據(jù)介紹，現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識，很少涉及純視覺信號的學(xué)習(xí)。然而，語言并不能捕捉真實世界中的所有知識。例如折紙、打領(lǐng)結(jié)等復(fù)雜任務(wù)，難以通過語言清晰表達。而 VideoWorld 去掉語言模型，實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。

同時，它基于一種潛在動態(tài)模型，可高效壓縮視頻幀間的變化信息，顯著提升知識學(xué)習(xí)效率和效果。在不依賴任何強化學(xué)習(xí)搜索或獎勵函數(shù)機制前提下，VideoWorld 達到了專業(yè) 5 段 9x9 圍棋水平，并能夠在多種環(huán)境中，執(zhí)行機器人任務(wù)。

上一篇：DeepSeek，攪了誰的局？

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放