雷鋒網(wǎng) AI 科技評(píng)論曾專門整理并介紹了多篇將BERT應(yīng)用到視覺/視頻領(lǐng)域的重要論文,其中包括最早的VideoBERT以及隨后的ViLBERT、VisualBERT、B2T2、Unicoder-VL、LXMERT、VL-BERT等。其中VL-BERT是由來自中科大、微軟亞研院的研究者共同提出的一種新型通用視覺-語(yǔ)言預(yù)訓(xùn)練模型。繼語(yǔ)言BERT之后,視覺BERT隱隱成為一種新的研究趨勢(shì)。
近期,來自微軟的Bing 多媒體團(tuán)隊(duì)在arXiv上也同樣發(fā)表了一篇將BERT應(yīng)用到視覺中的論文《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》
與語(yǔ)言嵌入類似,圖像嵌入也是通過類似的過程從視覺輸入中產(chǎn)生的。用Faster-RCNN從 o RoIs中提取特征(記為{r0,...ro-1}),從圖像中提取特征,從而讓這兩個(gè)特征代表視覺內(nèi)容。檢測(cè)到的物體對(duì)象不僅可以為語(yǔ)言部分提供整個(gè)圖像的視覺上下文(visual contexts),還可以通過詳細(xì)的區(qū)域信息與特定的術(shù)語(yǔ)相關(guān)聯(lián)。另外,還通過將對(duì)象相對(duì)于全局圖像的位置編碼成5維向量來向圖像嵌入添加位置嵌入。5維向量表示如下:
3)預(yù)訓(xùn)練任務(wù)
在模型預(yù)訓(xùn)練過程中,設(shè)計(jì)了四個(gè)任務(wù)來對(duì)語(yǔ)言信息和視覺內(nèi)容以及它們之間的交互進(jìn)行建模。四個(gè)任務(wù)分別為:掩碼語(yǔ)言建模(Masked Language Modeling)、掩碼對(duì)象分類(Masked Object Classification)、掩碼區(qū)域特征回歸(Masked Region Feature Regression)、圖文匹配(Image-Text Matching)。