機(jī)器也能看圖說話
CNN+LSTM+MCB:圖像和問題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進(jìn)行編碼,但接下來不是級聯(lián),而是使用緊湊的多模池化 (MCB)匯集它們的特征。(MCB, Multimodal CompactBilinear pooling, 多模緊湊雙線性池化)
CNN+LSTM+SA:同樣,問題和圖像分別使用CNN和LSTM編碼。使用一輪或多輪柔性空間注意力來組合這些表示,然后用MLP預(yù)測最終答案分布。(Stacked Attention Networks,SANs, 堆疊注意力網(wǎng)絡(luò))
Human:使用土耳其機(jī)器人從測試集中隨機(jī)收集5500個(gè)問題的人工響應(yīng),對每個(gè)問題在三個(gè)工人響應(yīng)中進(jìn)行投票取多數(shù)。 查詢問題詢問特定對象的屬性(例如“紅色球體右側(cè)物體是什么顏色?”) CLEVR數(shù)據(jù)集中物體有兩種尺寸(大,小),八種顏色,兩種材料(金屬,橡膠)和三種形狀(立方,球,圓柱)。在詢問這些不同屬性的問題上,Q-type mode 和 LSTM 都分別獲得接近50%,12.5%,50%和33%的準(zhǔn)確度,表明數(shù)據(jù)集對這些問題具有最小的問題條件偏差。 CNN + LSTM + SA 在這些問題上大大優(yōu)于所有其他模式; 它的注意力機(jī)制可以幫助它專注于目標(biāo)對象并識別其屬性。

我們比較“兩個(gè)空間關(guān)系的鏈?zhǔn)浇Y(jié)構(gòu)問題“和”沿著每個(gè)分支都有一個(gè)關(guān)系的樹狀結(jié)構(gòu)問題“性能。 在查詢問題上,CNN + LSTM + SA 在鏈?zhǔn)胶蜆錉顔栴}之間存在較大差距(92%對74%);在計(jì)數(shù)問題上,CNN + LSTM + SA 在鏈?zhǔn)絾栴}上略勝LSTM(55%對49%)但在樹問題上沒有任何方法優(yōu)于LSTM。樹問題可能更難,因?yàn)樗鼈冃枰P驮谌诤掀浣Y(jié)果之前并行執(zhí)行兩個(gè)子任務(wù)。
數(shù)據(jù)集構(gòu)建好了,就可以在此基礎(chǔ)上探索視覺語義推理算法 用于機(jī)器推理的組合注意網(wǎng)絡(luò) 斯坦福Christ師生提出了組合注意力網(wǎng)絡(luò),是一種新的、完全可區(qū)分的神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在促進(jìn)顯性和表達(dá)性推理。其特點(diǎn)包括:
1、許多常見類型的神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)和泛化大量數(shù)據(jù)方面是有效的,然而是單一黑盒架構(gòu)。
2、該‘組合注意推理網(wǎng)絡(luò)’為迭代推理提供強(qiáng)大優(yōu)先級的設(shè)計(jì),支持可解釋和結(jié)構(gòu)化學(xué)習(xí),從小樣本數(shù)據(jù)的泛化能力強(qiáng)。
3、該模型基于現(xiàn)有循環(huán)神經(jīng)網(wǎng)絡(luò),對單個(gè)循環(huán)記憶、注意力和控制(MAC)單元進(jìn)行序列化,對每個(gè)單元和它們之間的相互作用施加結(jié)構(gòu)約束,將顯式控制和軟注意機(jī)制合并到它們的接口中。
4、該模型在具有挑戰(zhàn)性的CLEVR數(shù)據(jù)集上展示了極好強(qiáng)度和穩(wěn)健性,用于視覺推理,實(shí)現(xiàn)了最新的98.9%的精確度,將之前最佳模型的錯(cuò)誤率減半。更重要的是,我們新模型的計(jì)算效率更高,數(shù)據(jù)效率更高。 該模型是一個(gè)基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò),使用了一種新的 MAC架構(gòu):記憶(Memory),注意力(Attention),合成(Composition)。MAC架構(gòu),是一個(gè)循環(huán)架構(gòu),類似于LSTM,每個(gè)Cell的結(jié)構(gòu)如上圖,由控制單元CU,讀單元RU和寫單元WU組成。藍(lán)色顯示控制流(Control Flow),紅色顯示記憶流(Memory Flow)。

每個(gè)cell的MACi包含兩個(gè)雙重狀態(tài):
1、控制態(tài)ci、記憶態(tài)mi2、都是d維連續(xù)空間矢量3、控制 ci 表示:MAC cell 在當(dāng)前步驟中應(yīng)該完成的推理操作,僅關(guān)注整個(gè)問題的某些方面。由加權(quán)平均后基于注意力問題詞的總和表示4、記憶態(tài) mi 表示:那些被認(rèn)為與響應(yīng)查詢或者回答問題相關(guān)的當(dāng)前上下文信息,實(shí)際上,mi 通過對來自知識庫(KB)的元素的加權(quán)平均來表示,或者對于VQA的情況,對圖像中的區(qū)域進(jìn)行加權(quán)平均。5、將 m0 和 c0 分別初始化為d隨機(jī)矢量6、控制態(tài)ci 和記憶態(tài)mi 以循環(huán)方式從一個(gè)cell傳遞到下一個(gè)cell,并以類似 鍵值記憶網(wǎng)絡(luò)(Key-Value memory networks) 的方式運(yùn)行 MAC 原理
精心設(shè)計(jì)和限制MAC cell內(nèi)部單元之間的相互作用的接口,限制了其可以學(xué)習(xí)的假設(shè)空間,從而引導(dǎo)其獲得預(yù)期的推理行為,因此,該結(jié)構(gòu)有助于增強(qiáng)學(xué)習(xí)過程并減輕過度擬合問題。
MAC允許問題與知識庫 (對于VQA的情況,就是指圖像) 僅僅通過間接方式進(jìn)行交互,引導(dǎo)cell關(guān)注知識庫KB中的不同元素,通過門控機(jī)制控制其操作。因此,在這兩種情況下,這些媒介(視覺和文本,或知識和查詢)之間的相互作用,或者以注意力圖(Attention Maps)的形式、或者作為門,通過概率分布來調(diào)節(jié)。
三、場景圖

現(xiàn)實(shí)世界的場景表示要復(fù)雜的多,不僅僅是物體之間的前后左右位置關(guān)系,還有on, has,wearing, of, in 等等關(guān)系。 2015年,李飛飛參與的一篇圖像檢索的文章中提到,可以用場景圖(Scene Graph)的方法來提升圖像檢索的性能,也是一個(gè)開創(chuàng)性的工作,文章里首次對場景圖進(jìn)行了定義。場景圖是用來描述場景中的內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),把目標(biāo)的屬性做編碼,把目標(biāo)的關(guān)系提煉出來作為機(jī)器的輸入。

場景圖生成的新算法之一,在CVPR 2019的一篇論文中有所體現(xiàn),它采用圖卷積網(wǎng)絡(luò)、知識嵌入式路由網(wǎng)絡(luò),生成了場景圖。 場景圖應(yīng)用基本在四大方面:圖像檢索、Image Captioning(看圖說話)、Video Captioning、Visual Reasoning(視覺推理)。文章開頭提到的“智慧交通協(xié)管員”正是Video Captioning的表現(xiàn)形式。
發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動更多
-
6月30日立即申請?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機(jī)器人
- 7 Figure AI 交付突破350臺,陪跑特斯拉會迎來iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





