主要是從【互補(bǔ)性】出發(fā),但是由于噪聲…[截圖源:2020年天津大學(xué)張長(zhǎng)清副教授講座]
提出一種針對(duì)低質(zhì)量數(shù)據(jù)的通用的動(dòng)態(tài)多模態(tài)融合框架,利用多模態(tài)融合得到的泛化誤差去動(dòng)態(tài)更新各個(gè)單模態(tài)預(yù)測(cè)器, 使得多模態(tài)決策傾向于更多地依賴于高質(zhì)量模態(tài) ,而不是其他模態(tài) 。通過(guò)動(dòng)態(tài)確定每種模態(tài)的融合權(quán)重來(lái)減輕不可靠模態(tài)的影響。(每種模態(tài)的backbone為imageNet或ResNet)
Mark(Latex公式):花寫(xiě)字母采用mathcal書(shū)寫(xiě),藝術(shù)字效果采用mathbb。其他Latex公式可見(jiàn):Latex公式
點(diǎn)擊跳轉(zhuǎn)B站
定義泛化誤差評(píng)價(jià)多模態(tài)融合的性能(是否優(yōu)于單模態(tài)最優(yōu)值,從理論上確定動(dòng)態(tài)多模態(tài)融合和不確定性估計(jì)之間的聯(lián)系)
多模態(tài)融合的內(nèi)在挑戰(zhàn)是精確地捕獲跨模態(tài)相關(guān)性并靈活地進(jìn)行跨模態(tài)交互。為了充分釋放每種模態(tài)的價(jià)值,減輕低質(zhì)量多模態(tài)數(shù)據(jù)的影響,動(dòng)態(tài)多模態(tài)融合成為一種有前途的學(xué)習(xí)范式。盡管它被廣泛使用,在這一領(lǐng)域的理論依據(jù)仍然顯著缺乏。我們能設(shè)計(jì)一個(gè)可證明魯棒的多模態(tài)融合方法嗎?本文從泛化的角度,在一個(gè)最流行的多模態(tài)融合框架下,為回答這個(gè)問(wèn)題提供了理論上的理解。我們繼續(xù)揭示,幾個(gè)不確定性估計(jì)解決方案是自然可實(shí)現(xiàn)強(qiáng)大的多模態(tài)融合。然后提出了一種新的多模態(tài)融合框架質(zhì)量感知多模態(tài)融合(QMF),它可以提高性能的分類精度和模型的魯棒性。多個(gè)基準(zhǔn)上的廣泛實(shí)驗(yàn)結(jié)果可以支持我們的發(fā)現(xiàn)。
我們對(duì)世界的感知是基于多種模態(tài)的,例如,觸覺(jué)、視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)和味覺(jué)。隨著傳感技術(shù)的發(fā)展,我們可以輕松地收集各種形式的數(shù)據(jù)進(jìn)行分析。例如,自動(dòng)駕駛和可穿戴電氣設(shè)備中的多傳感器(Xiao等人,2020; Wen等人,2022),或醫(yī)學(xué)診斷和治療中的各種檢查(Qiu等,2022; Acosta等人,2022年)。直覺(jué)上,融合來(lái)自不同模態(tài)的信息提供了探索跨模態(tài)相關(guān)性并獲得更好性能的可能性。然而,[以往工作的缺陷:]傳統(tǒng)的融合方法在很大程度上忽略了不可靠的多模態(tài)數(shù)據(jù)的質(zhì)量。在現(xiàn)實(shí)世界中,不同模態(tài)的質(zhì)量通常會(huì)因意外的環(huán)境問(wèn)題而變化。最近的一些研究已經(jīng)從經(jīng)驗(yàn)和理論上表明,多模態(tài)融合可能會(huì)在低質(zhì)量的多模態(tài)數(shù)據(jù)上失敗,例如,不平衡(Wang等人,2020年; Peng等人,2022; Huang等人,2022)、噪聲或甚至損壞(Huang等人,2021 b)多模態(tài)數(shù)據(jù)。經(jīng)驗(yàn)上,認(rèn)識(shí)到多模態(tài)模型不能總是優(yōu)于單模態(tài)模型,特別是在高噪聲中(Scheunders & De Backer,2007; Eitel等人,2015; Silva等人,2022)或不平衡的模態(tài)質(zhì)量(Wu等人,2022; Peng等人,2022)水平。從理論上講,以前的研究證明,在有限的數(shù)據(jù)量設(shè)置下,多模態(tài)學(xué)習(xí)的優(yōu)勢(shì)可能會(huì)消失(Huang et al.,2021 a),這意味著跨模態(tài)關(guān)系的利用不是免費(fèi)的午餐。為了充分釋放每種模態(tài)的價(jià)值并減輕低質(zhì)量多模態(tài)數(shù)據(jù)的影響,[解決方案:]引入動(dòng)態(tài)融合機(jī)制是獲得可靠預(yù)測(cè)的一種有前途的方法。作為一個(gè)具體的例子,以前的工作(Guan等人,2019)提出了一種動(dòng)態(tài)加權(quán)機(jī)制來(lái)描述場(chǎng)景的光照條件。通過(guò)引入動(dòng)態(tài),他們可以從多光譜數(shù)據(jù)中整合可靠的線索,用于全天候應(yīng)用(例如,安全監(jiān)控和自動(dòng)駕駛中的行人檢測(cè))。動(dòng)態(tài)融合已經(jīng)用于各種現(xiàn)實(shí)世界的多模態(tài)應(yīng)用,包括多模態(tài)分類(Han等人,2021; Geng等人,2021; Han等人,2022 b)、回歸(Ma等人,2021)、對(duì)象檢測(cè)(Li等人,2022 a; Zhang等人,2019年; Chen等人,2022 b)和語(yǔ)義分割(Tian等人,2020年)。雖然動(dòng)態(tài)多模態(tài)融合在實(shí)踐中表現(xiàn)出了很好的力量,但在這一領(lǐng)域的理論認(rèn)識(shí)顯著缺乏以下基本的開(kāi)放問(wèn)題:我們能否在實(shí)踐中實(shí)現(xiàn)可靠的多模態(tài)融合的理論保證
本文試圖闡明魯棒多模態(tài)融合的理論優(yōu)勢(shì)和準(zhǔn)則。跟隨先前的多模態(tài)學(xué)習(xí)理論工作(Huang et al.,2021 b; Wang等人,2020),我們研究的框架也是從決策級(jí)多模態(tài)融合中抽象出來(lái)的,這是多模態(tài)學(xué)習(xí)中最基本的研究課題之一(Baltru?aitis et al.,2018年)。特別是,我們?cè)O(shè)計(jì)了一個(gè)新的質(zhì)量感知多模態(tài)融合(QMF)框架多模態(tài)學(xué)習(xí)。我們的框架的關(guān)鍵在于利用基于能量的不確定性來(lái)表征每個(gè)模態(tài)的質(zhì)量。我們的貢獻(xiàn)可歸納如下:
- 本文提供了一個(gè)嚴(yán)格的理論框架來(lái)理解魯棒多模態(tài)融合的優(yōu)勢(shì)和標(biāo)準(zhǔn),如圖2所示。首先,我們從Rademacher復(fù)雜度的角度描述了決策級(jí)多模態(tài)融合方法的泛化誤差邊界。然后,我們確定在什么條件下動(dòng)態(tài)融合優(yōu)于靜態(tài),即,當(dāng)多模態(tài)融合的融合權(quán)值與單模態(tài)泛化誤差負(fù)相關(guān)時(shí),動(dòng)態(tài)融合方法的性能優(yōu)于靜態(tài)融合方法。
- 在理論分析的基礎(chǔ)上,進(jìn)一步揭示了動(dòng)態(tài)融合的泛化能力與不確定性估計(jì)的性能是一致的。這直接暗示了設(shè)計(jì)和評(píng)價(jià)新的動(dòng)態(tài)融合算法的原則。
- 直接由上述分析的動(dòng)機(jī),我們提出了一種新的動(dòng)態(tài)多模態(tài)融合方法稱為質(zhì)量感知多模態(tài)融合(QMF),它的實(shí)現(xiàn)被證明具有更好的泛化能力。如圖1所示,對(duì)常用基準(zhǔn)進(jìn)行了大量實(shí)驗(yàn),以經(jīng)驗(yàn)驗(yàn)證理論觀察結(jié)果。
圖1.多模態(tài)學(xué)習(xí)方法之間的準(zhǔn)確性差距的可視化(例如,后期融合,對(duì)齊融合,MMTM)和使用含有噪聲的多模態(tài)數(shù)據(jù)的最佳單模態(tài)學(xué)習(xí)方法。注意到,現(xiàn)有的多模態(tài)融合方法的性能顯著降低相比,他們最好的單模態(tài)對(duì)應(yīng)在高噪聲制度,而所提出的QMF一貫優(yōu)于其他對(duì)低質(zhì)量的數(shù)據(jù)的單模態(tài)方法。
圖2.左側(cè):多模態(tài)融合方法f的泛化誤差上界可以通過(guò)其在經(jīng)驗(yàn)損失、模型復(fù)雜性和不確定性意識(shí)方面對(duì)每個(gè)模態(tài)的性能來(lái)表征。右:動(dòng)態(tài)與靜態(tài)多模態(tài)融合假設(shè)空間,其中后者是前者的子集。、分別是靜態(tài)融合方法和動(dòng)態(tài)融合方法的假設(shè)條件,是真實(shí)映射。通俗來(lái)講,更接近真實(shí)的映射會(huì)導(dǎo)致更少的錯(cuò)誤。在某些特定條件下,動(dòng)態(tài)多模態(tài)融合方法(例如,所提出的QMF)可以被很好地正則化,從而可證明地實(shí)現(xiàn)更好的泛化能力。
多模態(tài)融合是多模態(tài)學(xué)習(xí)中最原始和最基本的主題之一,其通常旨在將模態(tài)特征集成到下游多模態(tài)學(xué)習(xí)任務(wù)的聯(lián)合表示中。多模式融合可分為早期融合、中期融合和晚期融合。雖然神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的研究表明,中間融合可能有利于表征學(xué)習(xí)(Schroeder & Foxe,2005; Macaluso,2006),但后期融合仍然是最廣泛使用的多模態(tài)學(xué)習(xí)方法,因?yàn)樗慕忉尯蛯?shí)用簡(jiǎn)單。通過(guò)引入基于各種策略的模態(tài)級(jí)動(dòng)態(tài),動(dòng)態(tài)融合實(shí)際上提高了整體性能。作為一個(gè)具體的例子,以前的工作(Guan等人,2019)提出了一種動(dòng)態(tài)加權(quán)機(jī)制來(lái)描述場(chǎng)景的光照條件。通過(guò)引入動(dòng)態(tài),他們可以從多光譜數(shù)據(jù)中整合可靠的線索,用于全天候應(yīng)用(例如,安全監(jiān)控和自動(dòng)駕駛中的行人檢測(cè))。結(jié)合附加的動(dòng)態(tài)機(jī)制(例如,簡(jiǎn)單的加權(quán)策略或DempsterShafer證據(jù)理論(Shafer,1976)),最近的基于不確定性的多模態(tài)融合方法在各種任務(wù)中顯示出顯著的優(yōu)點(diǎn),包括聚類(Geng等人,2021)、分類(Han等人,2021; 2022 b; Tellamekala等人,2022; Subedar等人,2019年; Chen等人,2022 a)、回歸(Ma等人,2021)、目標(biāo)檢測(cè)(Zhang等人,2019年; Li等人,2022 b)和語(yǔ)義分割(Tian等人,2020年; Chang等人,2022年)。
多模態(tài)機(jī)器學(xué)習(xí)在各種實(shí)際應(yīng)用中取得了巨大的成功。然而,目前的融合方法的可靠性仍然是值得注意的未探索的,這限制了它們?cè)诎踩P(guān)鍵領(lǐng)域(例如,金融風(fēng)險(xiǎn)、醫(yī)療診斷)。**不確定性估計(jì)的動(dòng)機(jī)是表明機(jī)器學(xué)習(xí)模型給出的預(yù)測(cè)是否容易出錯(cuò)。**在過(guò)去的幾十年中,已經(jīng)提出了許多不確定性估計(jì)方法,包括貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)(Denker & LeCun,1990; Mackay,1992; Neal,2012)及其變種(Gal & Ghahramani,2016; Han等人,2022 a)、深合奏(Lakshminarayanan等人,2017; Havasi等人,2021)、預(yù)測(cè)置信度(Hendrycks & Gimpel,2017)、Dempster-Shafer理論(Han等人,2021)和能量評(píng)分(Liu等人,2020年)。預(yù)測(cè)置信度期望預(yù)測(cè)的類別概率與經(jīng)驗(yàn)準(zhǔn)確度一致,這通常在分類任務(wù)中提到。Dempster-Shafer理論(DST)是貝葉斯理論對(duì)主觀概率的推廣,也是建模認(rèn)知不確定性的一般框架。能量評(píng)分是一種很有前途的捕獲分布外(OOD)不確定性的方法,這種不確定性是在機(jī)器學(xué)習(xí)模型遇到與其訓(xùn)練數(shù)據(jù)不同的輸入時(shí)出現(xiàn)的,因此模型的輸出是不可靠的。最近的大量研究已經(jīng)研究了OOD不確定性的問(wèn)題(Ming等人,2022年; Chen等人,2021; Meinke & Hein,2019; Hendrycks等人,2019年)。在本文中,我們調(diào)查的預(yù)測(cè)置信度,Dempster-Shafer理論和能量分?jǐn)?shù),主要是由于其理論的可解釋性和有效性。
在本節(jié)中,我們首先在3.1節(jié)中澄清使用的多模態(tài)融合的基本符號(hào)和正式定義。然后,我們?cè)诘?.2節(jié)中提供了主要的理論結(jié)果,從泛化能力的角度嚴(yán)格證明了動(dòng)態(tài)融合方法何時(shí)以及如何工作(Bartlett & Mendelson,2002)。由于篇幅限制,我們將全部細(xì)節(jié)推遲到附錄A,只給出證明的簡(jiǎn)短摘要。
我們通過(guò)為我們的理論框架引入必要的符號(hào)來(lái)初始化??紤]在數(shù)據(jù)上的學(xué)習(xí)任務(wù),其中具有M個(gè)模態(tài),表示數(shù)據(jù)的標(biāo)簽。多模態(tài)訓(xùn)練數(shù)據(jù)被定義為。具體來(lái)說(shuō),我們使用X,Y和Z來(lái)表示輸入空間,目標(biāo)空間和潛在空間。類似于先前在多模態(tài)學(xué)習(xí)理論中的工作(Huang等人。2021年),我們定義$h:X mapsto Z g:Zmapsto Yf=g circ h(x)D_{test}D_{train}D_{test}X * YDf=g circ h(x)$表示h和g的復(fù)合函數(shù)。
為了簡(jiǎn)單起見(jiàn),我們提供了在兩分類設(shè)置中使用邏輯損失函數(shù)的集合式后期融合策略的分析。我們的分析遵循這個(gè)路線圖:(1)我們首先使用Rademacher復(fù)雜度(Bartlett & Mendelson,2002)來(lái)描述動(dòng)態(tài)后期融合的泛化誤差界,然后將該界分成三個(gè)分量(定理1);(2)在此基礎(chǔ)上,進(jìn)一步證明了動(dòng)態(tài)融合在一定條件下具有較好的泛化能力(定理2)。我們以如下基本設(shè)置開(kāi)始分析。
基本設(shè)置:在一個(gè)含有M個(gè)輸入模態(tài)以及二分類的場(chǎng)景下,我們將定義為在模態(tài)上的單模態(tài)分類器。后期融合多模態(tài)方法的最終預(yù)測(cè)通過(guò)對(duì)來(lái)自不同模態(tài)的決策進(jìn)行加權(quán)來(lái)計(jì)算:其中表示最終的預(yù)測(cè)值。與靜態(tài)后期融合不同,動(dòng)態(tài)多模態(tài)融合中的權(quán)值是動(dòng)態(tài)生成的,并且針對(duì)不同的樣本而變化。為了清楚起見(jiàn),我們使用下標(biāo)來(lái)區(qū)分它們,即是指靜態(tài)后期融合中模態(tài)的總體權(quán)重,而是指動(dòng)態(tài)融合中的權(quán)重。具體而言,是一個(gè)常數(shù),并且是一個(gè)關(guān)于輸入樣本的函數(shù),二分類多模態(tài)分類器的泛化誤差定義為:
其中的是一個(gè)未知的聯(lián)合分布,并且是邏輯損失函數(shù)。為了方便起見(jiàn),我們將單模態(tài)分類器損失簡(jiǎn)化為并且在下面的分析中省略輸入?,F(xiàn)在我們提出第一個(gè)關(guān)于多模態(tài)融合的主要結(jié)果。
定理1(多模態(tài)融合的泛化邊界)。令是含有個(gè)樣本的訓(xùn)練數(shù)據(jù)集。是在上的單模態(tài)經(jīng)驗(yàn)誤差(筆記:經(jīng)驗(yàn)誤差也就是在訓(xùn)練集上的訓(xùn)練誤差,它一般與population loss相對(duì),population loss是對(duì)于整個(gè)數(shù)據(jù)集而言)。則對(duì)于中的任何假設(shè)(即:)且,概率至少為,它認(rèn)為:
其中是聯(lián)合分布的融合權(quán)重的數(shù)學(xué)期望,是復(fù)雜度(
) ,是融合權(quán)重和損失之間的協(xié)方差。
直覺(jué)上,定理1證明了多模態(tài)分類器的泛化誤差由所有的單模態(tài)分類器的經(jīng)驗(yàn)損失、模型復(fù)雜度以及融合權(quán)重與單模態(tài)損失之間的協(xié)方差的加權(quán)平均性能來(lái)限定。這段可以用在論文中在建立了一般的誤差界之后,我們的下一個(gè)目標(biāo)是驗(yàn)證動(dòng)態(tài)多模態(tài)后期融合何時(shí)能夠達(dá)到比靜態(tài)后期融合更緊的界限。不正式的來(lái)說(shuō),在表達(dá)式1中測(cè)量了和的聯(lián)合變化率(正規(guī)翻譯是聯(lián)合變異性,這里是方便理解)。請(qǐng)記住,在靜態(tài)多模態(tài)融合中,是一個(gè)常數(shù),這意味著對(duì)于任何靜態(tài)融合方法,。因此,靜態(tài)融合方法的泛化誤差減小到:
因此,當(dāng)和的總和在動(dòng)態(tài)融合中是不變的或更小,并且Term-Cov ≤ 0時(shí),我們可以確保動(dòng)態(tài)融合可證明優(yōu)于靜態(tài)融合。得出的結(jié)論 這個(gè)定理被正式表示為
定理2 設(shè),分別為采用動(dòng)態(tài)和靜態(tài)融合策略的多模態(tài)分類器的泛化誤差上界。是在定理1中定義的上的的單模態(tài)經(jīng)驗(yàn)誤差,則對(duì)于且中的任何假設(shè),,以下結(jié)論成立:
概率至少為,如果我們有
并且
其中是皮爾遜相關(guān)系數(shù),其測(cè)量動(dòng)態(tài)融合權(quán)重和單模態(tài)損失之間的相關(guān)性。
補(bǔ)充內(nèi)容:皮爾遜相關(guān)系數(shù)
最常用的相關(guān)就是皮爾遜相關(guān)(Pearson correlation),得名于Karl Pearson, 他從弗朗西斯·高爾頓在19世紀(jì)80年代提出的一個(gè)相似卻又稍有不同的想法演變而來(lái)的,這個(gè)相關(guān)系數(shù)也稱作“皮爾遜積矩相關(guān)系數(shù)(Pearson Product-Moment Correlation)”。皮爾遜相關(guān)系數(shù)通常用字母r表示(所以常常寫(xiě)作 Pearson’s r,當(dāng)然也有用
ho來(lái)表示),衡量?jī)蓚€(gè)隨機(jī)變量之間的線性關(guān)系(或者說(shuō)線性關(guān)聯(lián)度)。
兩個(gè)變量之間的總體(population)的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的[協(xié)方差]和[標(biāo)準(zhǔn)差]之積的商(或者說(shuō),歸一化的協(xié)方差),通常用
ho表示,定義如下:
估算[樣本]的協(xié)方差和標(biāo)準(zhǔn)差,可得到([樣本]的)皮爾遜相關(guān)系數(shù),常用英文小寫(xiě)字母
r 代表,r 的表達(dá)式如下所示:
* 以上分母中后半部分應(yīng)該是而不是。其中,和 分別表示兩者的樣本均值。 R=1表示兩者完美的正向線性相關(guān),即滿足Y = aX+b(a>0)的關(guān)系; R=-1表示兩者完美的負(fù)向線性相關(guān),即滿足Y = aX+b(a<0)的關(guān)系. 在X-Y散點(diǎn)圖上看的話,散點(diǎn)圖完全處于一條直線上。R=0則表示兩者沒(méi)有(線性)相關(guān)性。
需要注意的是,皮爾遜相關(guān)系數(shù)只是線性關(guān)系的度量,如果為0的話,那只是表示兩個(gè)變量之間沒(méi)有線性關(guān)系,但是它們之間仍然可能存在別的關(guān)系!如下圖所示:
? 這個(gè)散點(diǎn)圖中的x和y之間的皮爾遜相關(guān)系數(shù)為0,但是僅目測(cè)就知道兩者之間并不是毫無(wú)關(guān)系,事實(shí)上它們之間存在著完全的平方關(guān)系。 另外一個(gè)常見(jiàn)的誤解是把相關(guān)關(guān)系當(dāng)成了因果關(guān)系。
Example1:
計(jì)算結(jié)果表明這兩個(gè)序列的皮爾遜相關(guān)系數(shù)高達(dá)0.9。stats.pearsonr()除了返回相關(guān)系數(shù)外,還順帶計(jì)算了對(duì)應(yīng)的p-value。直觀的理解是,p-value表示兩個(gè)零相關(guān)的序列能夠給出這個(gè)相關(guān)系數(shù)的概率,以上p-value為0.0009表明兩個(gè)零相關(guān)的序列的相關(guān)系數(shù)的絕對(duì)值大于等于0.9的概率不足千分之一。從另一個(gè)側(cè)面說(shuō)明了這個(gè)相關(guān)系數(shù)結(jié)果的置信度。
Remark.從理論上講,優(yōu)化相同的函數(shù)類有效地導(dǎo)致相同的經(jīng)驗(yàn)損失。假設(shè)對(duì)于每個(gè)模態(tài),我們?cè)趧?dòng)態(tài)和靜態(tài)融合中使用的單模態(tài)分類器具有相同的架構(gòu),則單模態(tài)分類器和經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)的內(nèi)在復(fù)雜度可以是不變的。因此,在這種情況下,我們認(rèn)為:
由5式:
且
如果等式5適用于所有模態(tài),則根據(jù)定理2,很容易得出如下結(jié)論:實(shí)現(xiàn)可靠的動(dòng)態(tài)多模態(tài)融合的主要挑戰(zhàn)是為滿足等式2的每個(gè)模態(tài)學(xué)習(xí)合理的滿足于等式5和等式6的。
現(xiàn)在我們繼續(xù)回答“如何實(shí)現(xiàn)魯棒動(dòng)態(tài)融合?“.在本節(jié)中,我們從理論上確定動(dòng)態(tài)多模態(tài)融合和不確定性估計(jì)之間的聯(lián)系。然后,提出了一個(gè)統(tǒng)一的動(dòng)態(tài)多模態(tài)融合框架,名為質(zhì)量感知多模態(tài)融合(QMF)。接下來(lái),我們將展示如何在決策級(jí)后期融合和分類任務(wù)中實(shí)現(xiàn)此框架,以支持我們的研究結(jié)果。
首先,我們專注于如何滿足等式6。正如我們?cè)?.2節(jié)所討論的,各種不確定性估計(jì)方法的共同動(dòng)機(jī)是提供一個(gè)指標(biāo),表明模型給出的預(yù)測(cè)是否容易出錯(cuò)。這種動(dòng)機(jī)本質(zhì)上接近于獲得滿足等式6的權(quán)重。筆記:當(dāng)多模態(tài)融合的融合權(quán)值與單模態(tài)泛化誤差負(fù)相關(guān)時(shí),動(dòng)態(tài)融合方法的性能優(yōu)于靜態(tài)融合方法。[這一結(jié)論在一開(kāi)始的主要貢獻(xiàn)中也提到了] 我們用以下假設(shè)來(lái)表述這個(gè)主張:
假設(shè)1. 給定模態(tài)上有效的不確定性估計(jì)量,要估計(jì)的不確定性與其模態(tài)特定的損失正相關(guān),其中是皮爾遜相關(guān)系數(shù)。
這種洞察力提供了索新的動(dòng)態(tài)融合方法證明優(yōu)于傳統(tǒng)的靜態(tài)融合方法的機(jī)會(huì)。類似于先前的動(dòng)態(tài)融合方法(Blundell等人,2015; Zhang等人,2019年; Han等人,2022 b),我們部署模態(tài)級(jí)權(quán)重策略來(lái)引入動(dòng)態(tài)。
不確定性加權(quán)。不確定性感知融合權(quán)重是對(duì)應(yīng)于不確定性的線性負(fù)相關(guān)函數(shù)。
其中,是模態(tài)特定的超參數(shù)。是模態(tài)的不確定性。通過(guò)調(diào)整超參數(shù)和,我們可以保證動(dòng)態(tài)融合權(quán)重值同時(shí)滿足等式5 和 等式6。這個(gè)引理形式上可以表述為:
引理1(可滿足性)。在假設(shè)1下,對(duì)于任意,總是存在使得:
一旦我們得到融合權(quán)重,我們就可以根據(jù)以下規(guī)則在決策級(jí)進(jìn)行不確定性感知加權(quán)融合。
其中定義在3.2小節(jié),其表示對(duì)模態(tài)的單模態(tài)預(yù)測(cè)。
補(bǔ)充:能量分?jǐn)?shù)
在論文《Energy-based Out-of-distribution Detection》的第3節(jié)(基于能量的分布外檢測(cè))提到:分布外檢測(cè)是一個(gè)二分類問(wèn)題,它依賴于一個(gè)分?jǐn)?shù)來(lái)區(qū)分分布內(nèi)以及分布外的例子。一個(gè)評(píng)分函數(shù)可以區(qū)分分布內(nèi)和分布外的值。一個(gè)自然的選擇是使用數(shù)據(jù)的密度函數(shù),并且考慮具有較低可能性(指的是密度函數(shù))的示例是OOD。雖然可以通過(guò)訴諸基于能量的模型來(lái)獲得判別模型的密度函數(shù):
Remark:關(guān)于的公式已經(jīng)在第2小節(jié)給出:
歸一化密度(相對(duì)于X)可能很難計(jì)算,甚至無(wú)法在輸入空間上進(jìn)行可靠的估計(jì)。為了緩解這一挑戰(zhàn),我們的關(guān)鍵觀察是,沒(méi)有歸一化根本不會(huì)影響OOD檢測(cè)。具有較高出現(xiàn)概率的數(shù)據(jù)點(diǎn)相當(dāng)于具有較低能量。要看到這一點(diǎn),我們可以采取對(duì)等式5的兩邊取log。
上面的等式表明:實(shí)際上與對(duì)數(shù)似然函數(shù)線性對(duì)齊,這對(duì)于OOD檢測(cè)是理想的。具有較高能量(較低似然性)的示例被視為OOD輸入。具體地,我們建議使用等式4中的能量函數(shù)用于ODD檢測(cè)。
在其中,是能量的閾值。在實(shí)際應(yīng)用中,我們使用分布內(nèi)的數(shù)據(jù)作為閾值,以便ODD檢測(cè)器正確分類高比例的輸入。在這里 我們使用負(fù)能量函數(shù)來(lái)與陽(yáng)性(分布內(nèi))樣本得分較高的傳統(tǒng)定義保持一致。能量分?jǐn)?shù)本質(zhì)上是非概率性的,它可以通過(guò)算子進(jìn)行方便的計(jì)算得出。與JEM不同的是我們的方法不需要顯式估計(jì)密度Z,因?yàn)閆與樣本無(wú)關(guān)(指的是分布外的樣本),并且不影響整體能量分?jǐn)?shù)分布。
通過(guò)上述分析,在3.2小節(jié)中提出的魯棒多模態(tài)融合的核心挑戰(zhàn)已經(jīng)在假設(shè)1中簡(jiǎn)化為了獲取一個(gè)高效的不確定性估計(jì)量。在我們的實(shí)現(xiàn)中,我們利用能量分?jǐn)?shù)(Liu et al.,2020),這是一個(gè)在文獻(xiàn)中被廣泛接受的不確定性學(xué)習(xí)的度量單位。能量分?jǐn)?shù)橋接了給定數(shù)據(jù)點(diǎn)的Helmholtz自由能量與其密度之間的差距。對(duì)于多模態(tài)數(shù)據(jù),不同模態(tài)的密度函數(shù)可以通過(guò)相應(yīng)的能量函數(shù)來(lái)估計(jì):
其中,是第m個(gè)輸入模態(tài),是單模態(tài)分類模型,是能量函數(shù),是對(duì)于所有的的一個(gè)難以處理常數(shù)。上面的等式表明與密度線性對(duì)齊,輸入的第m個(gè)模態(tài)的能量分?jǐn)?shù)可以計(jì)算為:
其中指的是對(duì)應(yīng)于第個(gè)類別標(biāo)簽的分類器的輸出
logits,是一個(gè)溫度系數(shù)(參數(shù)講解)【對(duì)于這樣一個(gè)超參數(shù),直譯為“溫度系數(shù)”,在很多任務(wù)中都可以看到,特別是計(jì)算機(jī)視覺(jué)的分類任務(wù)中,研究人員往往在 損失基礎(chǔ)上額外增加一個(gè)溫度系數(shù) ,針對(duì)不同的任務(wù),取不同的超參數(shù)值。正如字面意義,假設(shè)該系數(shù)所參與的計(jì)算過(guò)程就是一個(gè)燒水的過(guò)程,溫度越高,水沸騰越劇烈,這就可以類比信息熵增減的過(guò)程,溫度系數(shù)越大,熵就越高,混亂程度越高,那么 函數(shù)輸出的各類別概率差距會(huì)越來(lái)越小(因?yàn)椴罹嘣叫∧敲纯闯鲎顑?yōu)結(jié)果也就越困難,對(duì)應(yīng)于熵越高),曲線也會(huì)愈發(fā)平滑。相反,溫度系數(shù)越小,函數(shù)曲線也會(huì)愈發(fā)陡峭?!?/font>直覺(jué)上,更均勻分布的預(yù)測(cè)導(dǎo)致更高估計(jì)的不確定性。然而,實(shí)驗(yàn)表明,在沒(méi)有額外正則化的情況下以這種方式估計(jì)的不確定性不足以滿足我們的假設(shè)1。為了解決這個(gè)問(wèn)題,我們提出了一種基于采樣的正則化技術(shù),以增強(qiáng)原始方法的相關(guān)性。提高估計(jì)的不確定性和相應(yīng)損失之間的相關(guān)性的最簡(jiǎn)單和直接的方法是利用訓(xùn)練階段的樣本損失作為監(jiān)督信息。然而,由于深度神經(jīng)網(wǎng)絡(luò)的過(guò)度參數(shù)化現(xiàn)象,在訓(xùn)練過(guò)程中損失不斷減少到零。受貝葉斯學(xué)習(xí)(Maddox et al.,2019)和不確定性估計(jì)(Moon等人,2020; Han等人,2022 a)的啟發(fā),我們建議利用來(lái)自歷史訓(xùn)練軌跡的信息來(lái)正則化融合權(quán)重。具體地,給定樣本的第m模態(tài), 的訓(xùn)練平均損失計(jì)算為:
其中是每個(gè)迭代上的單模態(tài)分類器,參數(shù)為。在訓(xùn)練個(gè)epochs之后,我們采樣次并計(jì)算平均訓(xùn)練損失。
經(jīng)驗(yàn)上,最近的工作(Geifman等人,2019)表明,與難以分類的樣本相比,容易分類的樣本在訓(xùn)練期間更早地被學(xué)習(xí)(例如,噪聲樣本(Arazo等人,2019年))。期望通過(guò)在訓(xùn)練期間學(xué)習(xí)以下關(guān)系來(lái)正則化動(dòng)態(tài)融合模型:
我們現(xiàn)在給出正則化項(xiàng)的完整定義如下:
其中:
受多任務(wù)學(xué)習(xí)的啟發(fā),我們將總損失函數(shù)定義為多個(gè)模態(tài)的標(biāo)準(zhǔn)交叉熵分類損失和正則化項(xiàng)的總和:
其中是控制正則化強(qiáng)度的超參數(shù),和分別是交叉熵?fù)p失和正則化項(xiàng)。整個(gè)訓(xùn)練過(guò)程如算法1所示。
對(duì)QMF有效性的直觀解釋。
在不失一般性的情況下,我們假設(shè)模態(tài)是干凈的,并且模態(tài)由于未知的環(huán)境因素或傳感器故障而有噪聲。此時(shí),在干凈訓(xùn)練數(shù)據(jù)的分布中,但明顯偏離它。因此,我們有,即。因此,對(duì)于我們的QMF,多模態(tài)決策將傾向于更多地依賴于高質(zhì)量模態(tài)而不是其他模態(tài)。通過(guò)動(dòng)態(tài)確定各模態(tài)的融合權(quán)值,可以減輕不可靠模態(tài)的影響。
在本節(jié)中,我們對(duì)不同應(yīng)用程序的多個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。需要核實(shí)的主要問(wèn)題如下:
- Q1效率I。所提出的方法是否具有更好的泛化能力?(支持定理1)
- Q2有效性II。不確定性感知的動(dòng)態(tài)多模態(tài)融合在什么條件下工作?(支持定理2)
- Q3可靠性。所提出的方法是否對(duì)模態(tài)的不確定性有有效的感知?(支持假設(shè)1)
- Q4消融研究。在我們的方法中,性能改進(jìn)的關(guān)鍵因素是什么?
我們簡(jiǎn)要介紹了這里的實(shí)驗(yàn)裝置,包括實(shí)驗(yàn)數(shù)據(jù)集和比較方法。更多詳細(xì)設(shè)置請(qǐng)參見(jiàn)附錄B。
任務(wù)和數(shù)據(jù)集。 我們?cè)趦蓚€(gè)多模態(tài)分類任務(wù)中評(píng)估了我們的方法。
- 場(chǎng)景識(shí)別:紐約大學(xué)深度V2(Silberman等人,2012)和SUN RGBD(Song等人,2015)是兩個(gè)公共室內(nèi)場(chǎng)景識(shí)別數(shù)據(jù)集,其與兩種模態(tài)相關(guān)聯(lián),即,RGB和深度圖像。
- 圖像-文本分類:UPMC FOOD 101數(shù)據(jù)集(Wang等人,2015)包含由Google圖像搜索獲得的(可能有噪聲)圖像和相應(yīng)的文本描述。MVSA情感分析數(shù)據(jù)集(Niu等人,2016)包括一組帶有從社交媒體收集的手動(dòng)注釋的圖像-文本對(duì)。雖然上述數(shù)據(jù)集都是在的條件下,但很直觀,很容易推廣到。
評(píng)價(jià)指標(biāo)。 由于涉及隨機(jī)性,我們報(bào)告了NYU Depth V2和SUN RGB-D在10種不同種子上的平均準(zhǔn)確度、標(biāo)準(zhǔn)差和最差情況準(zhǔn)確度。為了與現(xiàn)有的工作一致(Han等人,2022 c; Kiela等人,2019; Yadav & Vishwakarma,2023),我們?cè)赨MPC FOOD 101上重復(fù)實(shí)驗(yàn)3次,在MVSA上重復(fù)實(shí)驗(yàn)5次。
比較方法。 對(duì)于場(chǎng)景識(shí)別任務(wù),我們將所提出的方法與三種靜態(tài)融合方法進(jìn)行了比較:后期融合,基于級(jí)聯(lián)的融合,基于對(duì)齊的融合方法(Wang等人,2016)和兩種代表性的動(dòng)態(tài)融合方法,即,MMTM(Joze等人,2020)和TMC 3(Han等人,2021年)。對(duì)于圖像-文本分類,我們與強(qiáng)單模態(tài)基線(即,Bow,Bert和ResNet-152)以及復(fù)雜的多模態(tài)融合方法,包括Late fusion、ConcatBow、ConcatBERT和最近的sota MMBT(Kiela等人,2019年)。
分類魯棒性(Q1)。 為了驗(yàn)證不確定性感知加權(quán)融合的魯棒性,我們根據(jù)之前的工作(Han等人,2021年; Ma等人,2021; Verma等人,2021年; Hu等人,2019年; Xie等人,2017年)。不同類型噪聲(如椒鹽噪聲)下的更多結(jié)果見(jiàn)附錄C.2。實(shí)驗(yàn)結(jié)果示于表1中。據(jù)觀察,QMF通常表現(xiàn)在前三名的平均和最壞情況下的準(zhǔn)確性。這一觀察結(jié)果表明,QMF具有更好的泛化能力比他們的同行實(shí)驗(yàn)。還值得注意的是,QMF優(yōu)于現(xiàn)有技術(shù)的方法(即,MMBT和TMC)在大規(guī)?;鶞?zhǔn)測(cè)試UPMC FOOD 101上的仿真結(jié)果表明了該方法的優(yōu)越性。
表1。當(dāng)50%的模態(tài)被高斯噪聲破壞時(shí)的分類比較,即零均值,方差為。最好的三個(gè)結(jié)果以粗體棕色顯示,最好的結(jié)果以粗體藍(lán)色突出顯示。完整結(jié)果及標(biāo)準(zhǔn)差見(jiàn)附錄。
與不確定性估計(jì)的連接(Q2)。 我們進(jìn)一步與各種不確定性估計(jì)算法實(shí)現(xiàn)的QMF進(jìn)行比較,即,預(yù)測(cè)置信度(Hendrycks & Gimpel,2017)和Dempster-Shafer證據(jù)理論(DST)(Han等人,2021年)。根據(jù)圖3所示的比較結(jié)果,很明顯(i)泛化能力(即,平均和最壞情況下的準(zhǔn)確性)的動(dòng)態(tài)融合方法符合他們的不確定性估計(jì)能力和(ii)我們的QMF在同一時(shí)間實(shí)現(xiàn)了最佳性能的分類精度和不確定性估計(jì)。這種比較揭示了QMF優(yōu)于其他融合方法的根本原因,并支持定理2。我們展示了在零均值和方差為10的高斯噪聲下的NYU Depth V2和SUN RGB-D的結(jié)果。
圖3.通過(guò)10次隨機(jī)試驗(yàn),對(duì)不同融合方法的精度和皮爾遜相關(guān)系數(shù)進(jìn)行了檢驗(yàn)。平均和最壞情況下的準(zhǔn)確度與不確定度估計(jì)能力高度一致。
QMF的可靠性(Q3)。 在UPMC FOOD-101上,我們采用表3中不同的模式計(jì)算了等式9中定義的融合權(quán)重。據(jù)觀察,QMF的融合權(quán)重與其他不確定性估計(jì)方法(在相關(guān)性方面)相比,具有最有效的感知模態(tài)質(zhì)量能力。這一觀察證明了我們對(duì)等式9中不確定性感知權(quán)重的期望。
消融研究(Q4)。 我們比較不同的組件組合(即,不確定性感知加權(quán)和正則化項(xiàng))。在這里,我們也在表2中的NYU Depth V2上使用高斯噪聲,更多結(jié)果可以在附錄C.1中找到。很容易得出結(jié)論:1)添加有利于獲得更合理的融合權(quán)重; 2)使用全QMF可以預(yù)期最佳性能。請(qǐng)參閱表格。附錄C.1中的第4節(jié),具有標(biāo)準(zhǔn)差的完整結(jié)果。
表2. NYU Depth V2的消融研究。含標(biāo)準(zhǔn)差的完整結(jié)果見(jiàn)附錄C.1。其中的表示的是方差
總之,實(shí)證結(jié)果可以支持我們的理論研究結(jié)果。這些工作確定了動(dòng)態(tài)多模態(tài)融合方法的性能增益。所提出的方法可以幫助提高多個(gè)數(shù)據(jù)集上的魯棒性。
即使所提出的方法實(shí)現(xiàn)了更優(yōu)益的性能,仍然存在一些潛在的局限性。首先,QMF的融合權(quán)重是基于不確定性估計(jì)的,這在真實(shí)的世界中是一個(gè)具有挑戰(zhàn)性的任務(wù)。例如,在我們的實(shí)驗(yàn)中,我們只能在NYU Depth V2和SUN RGB-D數(shù)據(jù)集上實(shí)現(xiàn)輕度Pearson‘s r。因此,探索新的不確定度估計(jì)方法在未來(lái)的工作中具有重要的意義和價(jià)值。其次,雖然我們描述了所提出的方法的泛化誤差界,我們的理論依據(jù)是基于假設(shè)1。然而,先前的工作(Fang等人,2022)揭示了OOD檢測(cè)在某些場(chǎng)景下是不可學(xué)習(xí)的。因此,如何進(jìn)一步表征動(dòng)態(tài)多模態(tài)融合的泛化能力仍然是一個(gè)具有挑戰(zhàn)性的開(kāi)放性問(wèn)題。
在多模態(tài)融合中引入動(dòng)態(tài)特性已經(jīng)在各種應(yīng)用中取得了顯著的實(shí)驗(yàn)結(jié)果,包括圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割。許多SOTA的多模態(tài)模型引入動(dòng)態(tài)融合策略,但這種技術(shù)提供的歸納偏置還沒(méi)有得到很好的理解。在本文中,我們提供了嚴(yán)格的分析,了解什么時(shí)候以及什么樣的動(dòng)態(tài)多模態(tài)融合方法在嘈雜的多模態(tài)數(shù)據(jù)上更魯棒。這些發(fā)現(xiàn)表明不確定性學(xué)習(xí)和魯棒多模態(tài)融合之間的聯(lián)系,這進(jìn)一步暗示了設(shè)計(jì)新的動(dòng)態(tài)多模態(tài)融合方法的原則。最后,我們?cè)诙鄠€(gè)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),以支持我們的發(fā)現(xiàn)。在工作中使用了基于能量的加權(quán)策略的設(shè)計(jì),其他的不確定性估計(jì)方法值得探索。另一個(gè)有趣的方向是在更一般的環(huán)境下證明動(dòng)態(tài)融合。
本研究得到了國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):61976151)和A* STAR 中央研究基金的部分資助,并在此對(duì)MindSpore和CAAI的支持表示感謝。作者要感謝Zhipeng Liang(香港科技大學(xué))檢查數(shù)學(xué)細(xì)節(jié),以及Zongbo Han,Huan Ma(天津大學(xué))對(duì)寫(xiě)作的評(píng)論。作者還感謝ICML匿名同行評(píng)審員的建議。
略