Meta AI推出“雜食者”模型，搞定圖像、視頻和3D三大分類任務(wù)

時間：2022-01-24 16:50:07

1 月 24 日消息，最近，Meta AI 推出了這樣一個“雜食者”（Omnivore）模型，可以對不同視覺模態(tài)的數(shù)據(jù)進(jìn)行分類，包括圖像、視頻和 3D 數(shù)據(jù)。

比如面對最左邊的圖像，它可以從深度圖、單視覺 3D 圖和視頻數(shù)據(jù)集中搜集出與之最匹配的結(jié)果。

這在之前，都要分用不同的模型來實現(xiàn)；現(xiàn)在一個模型就搞定了。

而且 Omnivore 易于訓(xùn)練，使用現(xiàn)成的標(biāo)準(zhǔn)數(shù)據(jù)集，就能讓其性能達(dá)到與對應(yīng)單模型相當(dāng)甚至更高的水平。

實驗結(jié)果顯示，Omnivore 在圖像分類數(shù)據(jù)集 ImageNet 上能達(dá)到 86.0% 的精度，在用于動作識別的 Kinetics 數(shù)據(jù)集上能達(dá) 84.1%，在用于單視圖 3D 場景分類的 SUN RGB-D 也獲得了 67.1%。

另外，Omnivore 在實現(xiàn)一切跨模態(tài)識別時，都無需訪問模態(tài)之間的對應(yīng)關(guān)系。

不同視覺模態(tài)都能通吃的“雜食者”

Omnivore 基于 Transformer 體系結(jié)構(gòu)，具備該架構(gòu)特有的靈活性，并針對不同模態(tài)的分類任務(wù)進(jìn)行聯(lián)合訓(xùn)練。

模型架構(gòu)如下：

Omnivore 會將輸入的圖像、視頻和單視圖 3D 圖像轉(zhuǎn)換為 embedding，并饋送到 Transformer 中。

雖然它可以使用任何 vision transformer 架構(gòu)來處理 patch embedding，但鑒于 Swin transformer 在圖像和視頻任務(wù)上的強(qiáng)大性能，這里就使用該架構(gòu)作為基礎(chǔ)模型。

具體來說，Omnivore 將圖像轉(zhuǎn)為 patch，視頻轉(zhuǎn)為時空 tube（spatio-temporal tube），單視圖 3D 圖像轉(zhuǎn)為 RGB patch 和深度 patch。

然后使用線性層將 patches 映射到到 embedding 中。其中對 RGB patch 使用同一線性層，對深度 patch 使用單獨的。

總的來說，就是通過 embedding 將所有視覺模式轉(zhuǎn)換為通用格式，然后使用一系列時空注意力（attention）操作來構(gòu)建不同視覺模式的統(tǒng)一表示。

研究人員在 ImageNet-1K 數(shù)據(jù)集、Kinetics-400 數(shù)據(jù)集和 SUN RGB-D 數(shù)據(jù)集上聯(lián)合訓(xùn)練出各種 Omnivore 模型。

這種方法類似于多任務(wù)學(xué)習(xí)和跨模態(tài)對齊，但有 2 點重要區(qū)別：

1、不假設(shè)輸入觀測值對齊（即不假設(shè)圖像、視頻和 3D 數(shù)據(jù)之間的對應(yīng)關(guān)系）；

2、也不假設(shè)這些數(shù)據(jù)集共享相同的標(biāo)簽空間（label space）。

性能超 SOTA

實驗方面，首先將 Omnivore 與各視覺模態(tài)對應(yīng)的特定模型（下表中指 Specific）進(jìn)行比較。

一共有三種不同的模型尺寸：T、S 和 B。

預(yù)訓(xùn)練模型在七個下游任務(wù)上都進(jìn)行了微調(diào)。

圖像特定模型在 IN1K 上預(yù)訓(xùn)練。視頻特定模型和單視圖 3D 特定模型均使用預(yù)訓(xùn)練圖像特定模型的 inflation 進(jìn)行初始化，并分別在 K400 和 SUN RGB-D 上進(jìn)行微調(diào)。

結(jié)果發(fā)現(xiàn)，Omnivore 在幾乎所有的下游任務(wù)上的性能都相當(dāng)于或優(yōu)于各特定模型。

其中尺寸最大的 Swin-B 實現(xiàn)了全部任務(wù)上的 SOTA。

將 Omnivore 與具有相同模型架構(gòu)和參數(shù)數(shù)量的特定模型比較也是相同的結(jié)果。

其中 Omnivore 在 IN1K、K400 和 SUN 數(shù)據(jù)集上從頭開始聯(lián)合訓(xùn)練，而特定模態(tài)的模型針對每個數(shù)據(jù)集專門訓(xùn)練：

ImageSwin 模型從零開始訓(xùn)練，VideoSwin 和 DepthSwin 模型則從 ImageSwin 模型上進(jìn)行微調(diào)。

接下來將 Omnivore 與圖像、視頻和 3D 數(shù)據(jù)分類任務(wù)上的 SOTA 模型進(jìn)行比較。

結(jié)果仍然不錯，Omnivore 在所有預(yù)訓(xùn)練任務(wù)中都表現(xiàn)出了優(yōu)于 SOTA 模型的性能（下圖從上至下分別為圖像、視頻和 3D 數(shù)據(jù)）。

此外，在 ImageNet-1K 數(shù)據(jù)集上檢索給定 RGB 圖像的深度圖也發(fā)現(xiàn)，盡管 Omnivore 沒有接受過關(guān)于 1K 深度圖的訓(xùn)練，但它也能夠給出語義相似的正確答案。

最后，作者表示，盡管這個“雜食者”比傳統(tǒng)的特定模式模型有了很多進(jìn)步，但它有一些局限性。

比如目前它僅適用于單視圖 3D 圖像，不適用于其他 3D 表示，如體素圖（voxels）、點云圖等。

關(guān)鍵詞：模型圖像模態(tài) 數(shù)據(jù) omnivore 架構(gòu) 視頻雜食者視覺 sota

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權(quán) 2023-03-30
一枚超2億元的腕表背后：“表王”百達(dá)翡麗的危機(jī) 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔(dān)心的卻不是失業(yè) 2023-03-29
當(dāng)前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務(wù)場景融合價值潛力大 2023-03-29

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學(xué)好語文就選科大訊飛AI翻譯筆，多重使...
三個月內(nèi)突圍而出，TVB識貨618告捷: GM...
玩轉(zhuǎn)穗澳特色就在琶洲！2023澳門·廣州...
玩轉(zhuǎn)穗澳特色就在琶洲！2023澳門·廣州...
環(huán)球報道:[今日關(guān)注] 南昌男科醫(yī)院男科...
環(huán)球報道:[今日關(guān)注] 南昌男科醫(yī)院男科...
錦繡良緣
vivo手機(jī)屏下的按鍵突然沒了怎么辦|天天...
vivo手機(jī)屏下的按鍵突然沒了怎么辦|天天...
證監(jiān)會立案！此前剛遭上交所紀(jì)律處分！-...
證監(jiān)會立案！此前剛遭上交所紀(jì)律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關(guān)于深圳...
深圳中國國際旅行社有限公司（關(guān)于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經(jīng)濟(jì)新機(jī)遇丨綜述：中荷經(jīng)貿(mào)人...
共話中國經(jīng)濟(jì)新機(jī)遇丨綜述：中荷經(jīng)貿(mào)人...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)...
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么...
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么...
手扶梯_關(guān)于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當(dāng)前速看：大摩：維持MP Materials(MP.US)評級
當(dāng)前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團(tuán)結(jié)，就是力量！
世界滾動:鎮(zhèn)江中國獨角獸企業(yè)數(shù)量全國排...
世界滾動:鎮(zhèn)江中國獨角獸企業(yè)數(shù)量全國排...
世界播報:新疆挖掘南疆特色產(chǎn)業(yè)潛力
世界播報:新疆挖掘南疆特色產(chǎn)業(yè)潛力
欠了信用卡11年沒還，不還產(chǎn)生什么后果_...
欠了信用卡11年沒還，不還產(chǎn)生什么后果_...
天天精選！小區(qū)便利店怎么選擇位置
我的世界自動門感應(yīng)門（我的世界自動感...
我的世界自動門感應(yīng)門（我的世界自動感...
她曾經(jīng)在23歲時走紅，卻被身高限制戲路...
她曾經(jīng)在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養(yǎng)權(quán)怎么判
頭條焦點：離婚二審撫養(yǎng)權(quán)怎么判
世界最新：杭州民辦東方中學(xué)教師待遇_杭...
世界最新：杭州民辦東方中學(xué)教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
環(huán)球速讀：瘋狂！散戶大買15億，美股空...
世界動態(tài):首屆京津冀生態(tài)產(chǎn)業(yè)創(chuàng)新發(fā)展大...
世界報道:運動員該如何應(yīng)對“飯圈文化”...
世界報道:運動員該如何應(yīng)對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區(qū)服務(wù)
港交所紐約辦事處開幕　提升北美地區(qū)服務(wù)
韓媒：韓國環(huán)境部已批準(zhǔn)“薩德”基地環(huán)...
看圖學(xué)習(xí)｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
看圖學(xué)習(xí)｜中華優(yōu)秀傳統(tǒng)文化是中華民族...
當(dāng)前觀察：郴電國際郴州分公司營業(yè)班獲...
當(dāng)前觀察：郴電國際郴州分公司營業(yè)班獲...
天天新動態(tài)：三亞22日10時起發(fā)放一批旅...
呂梁市“三夏”麥?zhǔn)瞻才耪{(diào)度會要求：顆...
呂梁市“三夏”麥?zhǔn)瞻才耪{(diào)度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀(jì)檢監(jiān)察機(jī)關(guān)統(tǒng)籌用好基層監(jiān)督力量精...
紀(jì)檢監(jiān)察機(jī)關(guān)統(tǒng)籌用好基層監(jiān)督力量精...
總投資約36億元，惠州新材料產(chǎn)業(yè)園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內(nèi)上市新款榮威i5官圖發(fā)布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構(gòu)建和諧勞動...
【天天播資訊】琿春市積極構(gòu)建和諧勞動...
三終端上人難，邀約棘手。
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
GDR發(fā)行熱度持續(xù)上升多家龍頭企業(yè)扎堆...
國寶“體驗”端午文化當(dāng)前焦點
國寶“體驗”端午文化當(dāng)前焦點
【環(huán)球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區(qū)別_近親屬|(zhì)當(dāng)前看點
近親屬和親屬的區(qū)別_近親屬|(zhì)當(dāng)前看點
當(dāng)前視訊！二建報名時間2021年_2021年二...
當(dāng)前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學(xué)地址在哪個城市_...

科技

· 2023最建議買的二手手機(jī)推薦？2023最建議買
· 為什么懂手機(jī)的人都不用華為？為什么很多人
· 華為oppo手機(jī)同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機(jī)好還
· oppo萬能密碼6位數(shù)解鎖是什么？OPPO手機(jī)的
· 如何打開oppo手機(jī)鎖屏密碼？oppo手機(jī)密碼鎖
· OPPO手機(jī)怎么總是自己跳轉(zhuǎn)快應(yīng)用？OPPO打開
· oppo手機(jī)像中毒似的彈出廣告？oppo手機(jī)老是
· oppo手機(jī)熱點資訊如何徹底關(guān)掉？oppo手機(jī)老
· oppo手機(jī)開發(fā)者選項在哪里能打開？oppo手機(jī)

熱文

環(huán)球報道:[今日關(guān)注] 南昌男科醫(yī)院男科收費高嗎排名公開
證監(jiān)會立案！此前剛遭上交所紀(jì)律處分！-觀焦點
深圳中國國際旅行社有限公司（關(guān)于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩(wěn)豐一年定開債券發(fā)起基金6月27日分紅
樹欲靜風(fēng)而不止的意思_樹欲靜風(fēng)不止什么意思是什么
當(dāng)前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產(chǎn)業(yè)潛力
欠了信用卡11年沒還，不還產(chǎn)生什么后果_全球最資訊
她曾經(jīng)在23歲時走紅，卻被身高限制戲路，老公也是優(yōu)秀的演員！|每日熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱

中國網(wǎng)絡(luò)消費網(wǎng) 版權(quán)所有未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像