機(jī)器也能看圖說話 - OFweek 人工智能網(wǎng)

機(jī)器也能看圖說話

2020-06-22 10:48

CNN＋LSTM＋MCB：圖像和問題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進(jìn)行編碼，但接下來不是級聯(lián)，而是使用緊湊的多模池化（MCB）匯集它們的特征。（MCB， Multimodal CompactBilinear pooling，多模緊湊雙線性池化）

CNN＋LSTM＋SA：同樣，問題和圖像分別使用CNN和LSTM編碼。使用一輪或多輪柔性空間注意力來組合這些表示，然后用MLP預(yù)測最終答案分布。（Stacked Attention Networks，SANs，堆疊注意力網(wǎng)絡(luò)）

Human：使用土耳其機(jī)器人從測試集中隨機(jī)收集5500個(gè)問題的人工響應(yīng)，對每個(gè)問題在三個(gè)工人響應(yīng)中進(jìn)行投票取多數(shù)。查詢問題詢問特定對象的屬性（例如“紅色球體右側(cè)物體是什么顏色？”） CLEVR數(shù)據(jù)集中物體有兩種尺寸（大，小），八種顏色，兩種材料（金屬，橡膠）和三種形狀（立方，球，圓柱）。在詢問這些不同屬性的問題上，Q－type mode 和 LSTM 都分別獲得接近50％，12．5％，50％和33％的準(zhǔn)確度，表明數(shù)據(jù)集對這些問題具有最小的問題條件偏差。 CNN ＋ LSTM ＋ SA 在這些問題上大大優(yōu)于所有其他模式；它的注意力機(jī)制可以幫助它專注于目標(biāo)對象并識別其屬性。

我們比較“兩個(gè)空間關(guān)系的鏈?zhǔn)浇Y(jié)構(gòu)問題“和”沿著每個(gè)分支都有一個(gè)關(guān)系的樹狀結(jié)構(gòu)問題“性能。在查詢問題上，CNN ＋ LSTM ＋ SA 在鏈?zhǔn)胶蜆錉顔栴}之間存在較大差距（92％對74％）；在計(jì)數(shù)問題上，CNN ＋ LSTM ＋ SA 在鏈?zhǔn)絾栴}上略勝LSTM（55％對49％）但在樹問題上沒有任何方法優(yōu)于LSTM。樹問題可能更難，因?yàn)樗鼈冃枰Ｐ驮谌诤掀浣Y(jié)果之前并行執(zhí)行兩個(gè)子任務(wù)。

數(shù)據(jù)集構(gòu)建好了，就可以在此基礎(chǔ)上探索視覺語義推理算法用于機(jī)器推理的組合注意網(wǎng)絡(luò) 斯坦福Christ師生提出了組合注意力網(wǎng)絡(luò)，是一種新的、完全可區(qū)分的神經(jīng)網(wǎng)絡(luò)架構(gòu)，旨在促進(jìn)顯性和表達(dá)性推理。其特點(diǎn)包括：

1、許多常見類型的神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)和泛化大量數(shù)據(jù)方面是有效的，然而是單一黑盒架構(gòu)。

2、該‘組合注意推理網(wǎng)絡(luò)’為迭代推理提供強(qiáng)大優(yōu)先級的設(shè)計(jì)，支持可解釋和結(jié)構(gòu)化學(xué)習(xí)，從小樣本數(shù)據(jù)的泛化能力強(qiáng)。

3、該模型基于現(xiàn)有循環(huán)神經(jīng)網(wǎng)絡(luò)，對單個(gè)循環(huán)記憶、注意力和控制（MAC）單元進(jìn)行序列化，對每個(gè)單元和它們之間的相互作用施加結(jié)構(gòu)約束，將顯式控制和軟注意機(jī)制合并到它們的接口中。

4、該模型在具有挑戰(zhàn)性的CLEVR數(shù)據(jù)集上展示了極好強(qiáng)度和穩(wěn)健性，用于視覺推理，實(shí)現(xiàn)了最新的98．9％的精確度，將之前最佳模型的錯(cuò)誤率減半。更重要的是，我們新模型的計(jì)算效率更高，數(shù)據(jù)效率更高。該模型是一個(gè)基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)，使用了一種新的 MAC架構(gòu)：記憶（Memory），注意力（Attention），合成（Composition）。MAC架構(gòu)，是一個(gè)循環(huán)架構(gòu)，類似于LSTM，每個(gè)Cell的結(jié)構(gòu)如上圖，由控制單元CU，讀單元RU和寫單元WU組成。藍(lán)色顯示控制流（Control Flow），紅色顯示記憶流（Memory Flow）。

每個(gè)cell的MACi包含兩個(gè)雙重狀態(tài)：

1、控制態(tài)ci、記憶態(tài)mi2、都是d維連續(xù)空間矢量3、控制 ci 表示：MAC cell 在當(dāng)前步驟中應(yīng)該完成的推理操作，僅關(guān)注整個(gè)問題的某些方面。由加權(quán)平均后基于注意力問題詞的總和表示4、記憶態(tài) mi 表示：那些被認(rèn)為與響應(yīng)查詢或者回答問題相關(guān)的當(dāng)前上下文信息，實(shí)際上，mi 通過對來自知識庫（KB）的元素的加權(quán)平均來表示，或者對于VQA的情況，對圖像中的區(qū)域進(jìn)行加權(quán)平均。5、將 m0 和 c0 分別初始化為d隨機(jī)矢量6、控制態(tài)ci 和記憶態(tài)mi 以循環(huán)方式從一個(gè)cell傳遞到下一個(gè)cell，并以類似鍵值記憶網(wǎng)絡(luò)（Key－Value memory networks）的方式運(yùn)行 MAC 原理

精心設(shè)計(jì)和限制MAC cell內(nèi)部單元之間的相互作用的接口，限制了其可以學(xué)習(xí)的假設(shè)空間，從而引導(dǎo)其獲得預(yù)期的推理行為，因此，該結(jié)構(gòu)有助于增強(qiáng)學(xué)習(xí)過程并減輕過度擬合問題。

MAC允許問題與知識庫（對于VQA的情況，就是指圖像）僅僅通過間接方式進(jìn)行交互，引導(dǎo)cell關(guān)注知識庫KB中的不同元素，通過門控機(jī)制控制其操作。因此，在這兩種情況下，這些媒介（視覺和文本，或知識和查詢）之間的相互作用，或者以注意力圖（Attention Maps）的形式、或者作為門，通過概率分布來調(diào)節(jié)。

三、場景圖

現(xiàn)實(shí)世界的場景表示要復(fù)雜的多，不僅僅是物體之間的前后左右位置關(guān)系，還有on， has，wearing， of， in 等等關(guān)系。 2015年，李飛飛參與的一篇圖像檢索的文章中提到，可以用場景圖（Scene Graph）的方法來提升圖像檢索的性能，也是一個(gè)開創(chuàng)性的工作，文章里首次對場景圖進(jìn)行了定義。場景圖是用來描述場景中的內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)，把目標(biāo)的屬性做編碼，把目標(biāo)的關(guān)系提煉出來作為機(jī)器的輸入。

場景圖生成的新算法之一，在CVPR 2019的一篇論文中有所體現(xiàn)，它采用圖卷積網(wǎng)絡(luò)、知識嵌入式路由網(wǎng)絡(luò)，生成了場景圖。場景圖應(yīng)用基本在四大方面：圖像檢索、Image Captioning（看圖說話）、Video Captioning、Visual Reasoning（視覺推理）。文章開頭提到的“智慧交通協(xié)管員”正是Video Captioning的表現(xiàn)形式。

<上一頁 1 2 3