国产成av人片在线观看天堂无码,伊人免费视频在线,另类在线欧美图片,亚洲国产中文字幕乱,绝世天君txt下载,家有囍事小说,斗罗小说网

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

tangchengying 2025-03-05 關(guān)于我們 491 次瀏覽 0個(gè)評(píng)論

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
主要是從【互補(bǔ)性】出發(fā),但是由于噪聲…[截圖源:2020年天津大學(xué)張長(zhǎng)清副教授講座]

提出一種針對(duì)低質(zhì)量數(shù)據(jù)的通用的動(dòng)態(tài)多模態(tài)融合框架,利用多模態(tài)融合得到的泛化誤差去動(dòng)態(tài)更新各個(gè)單模態(tài)預(yù)測(cè)器, 使得多模態(tài)決策傾向于更多地依賴于高質(zhì)量模態(tài) ,而不是其他模態(tài) 。通過(guò)動(dòng)態(tài)確定每種模態(tài)的融合權(quán)重來(lái)減輕不可靠模態(tài)的影響。(每種模態(tài)的backbone為imageNet或ResNet)

Mark(Latex公式):花寫(xiě)字母采用mathcal書(shū)寫(xiě),藝術(shù)字效果采用mathbb。其他Latex公式可見(jiàn):Latex公式

點(diǎn)擊跳轉(zhuǎn)B站

定義泛化誤差評(píng)價(jià)多模態(tài)融合的性能(是否優(yōu)于單模態(tài)最優(yōu)值,從理論上確定動(dòng)態(tài)多模態(tài)融合和不確定性估計(jì)之間的聯(lián)系)

多模態(tài)融合的內(nèi)在挑戰(zhàn)是精確地捕獲跨模態(tài)相關(guān)性并靈活地進(jìn)行跨模態(tài)交互。為了充分釋放每種模態(tài)的價(jià)值,減輕低質(zhì)量多模態(tài)數(shù)據(jù)的影響,動(dòng)態(tài)多模態(tài)融合成為一種有前途的學(xué)習(xí)范式。盡管它被廣泛使用,在這一領(lǐng)域的理論依據(jù)仍然顯著缺乏。我們能設(shè)計(jì)一個(gè)可證明魯棒的多模態(tài)融合方法嗎?本文從泛化的角度,在一個(gè)最流行的多模態(tài)融合框架下,為回答這個(gè)問(wèn)題提供了理論上的理解。我們繼續(xù)揭示,幾個(gè)不確定性估計(jì)解決方案是自然可實(shí)現(xiàn)強(qiáng)大的多模態(tài)融合。然后提出了一種新的多模態(tài)融合框架質(zhì)量感知多模態(tài)融合(QMF),它可以提高性能的分類精度和模型的魯棒性。多個(gè)基準(zhǔn)上的廣泛實(shí)驗(yàn)結(jié)果可以支持我們的發(fā)現(xiàn)。

我們對(duì)世界的感知是基于多種模態(tài)的,例如,觸覺(jué)、視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)和味覺(jué)。隨著傳感技術(shù)的發(fā)展,我們可以輕松地收集各種形式的數(shù)據(jù)進(jìn)行分析。例如,自動(dòng)駕駛和可穿戴電氣設(shè)備中的多傳感器(Xiao等人,2020; Wen等人,2022),或醫(yī)學(xué)診斷和治療中的各種檢查(Qiu等,2022; Acosta等人,2022年)。直覺(jué)上,融合來(lái)自不同模態(tài)的信息提供了探索跨模態(tài)相關(guān)性并獲得更好性能的可能性。然而,[以往工作的缺陷:]傳統(tǒng)的融合方法在很大程度上忽略了不可靠的多模態(tài)數(shù)據(jù)的質(zhì)量。在現(xiàn)實(shí)世界中,不同模態(tài)的質(zhì)量通常會(huì)因意外的環(huán)境問(wèn)題而變化。最近的一些研究已經(jīng)從經(jīng)驗(yàn)和理論上表明,多模態(tài)融合可能會(huì)在低質(zhì)量的多模態(tài)數(shù)據(jù)上失敗,例如,不平衡(Wang等人,2020年; Peng等人,2022; Huang等人,2022)、噪聲或甚至損壞(Huang等人,2021 b)多模態(tài)數(shù)據(jù)。經(jīng)驗(yàn)上,認(rèn)識(shí)到多模態(tài)模型不能總是優(yōu)于單模態(tài)模型,特別是在高噪聲中(Scheunders & De Backer,2007; Eitel等人,2015; Silva等人,2022)或不平衡的模態(tài)質(zhì)量(Wu等人,2022; Peng等人,2022)水平。從理論上講,以前的研究證明,在有限的數(shù)據(jù)量設(shè)置下,多模態(tài)學(xué)習(xí)的優(yōu)勢(shì)可能會(huì)消失(Huang et al.,2021 a),這意味著跨模態(tài)關(guān)系的利用不是免費(fèi)的午餐。為了充分釋放每種模態(tài)的價(jià)值并減輕低質(zhì)量多模態(tài)數(shù)據(jù)的影響,[解決方案:]引入動(dòng)態(tài)融合機(jī)制是獲得可靠預(yù)測(cè)的一種有前途的方法。作為一個(gè)具體的例子,以前的工作(Guan等人,2019)提出了一種動(dòng)態(tài)加權(quán)機(jī)制來(lái)描述場(chǎng)景的光照條件。通過(guò)引入動(dòng)態(tài),他們可以從多光譜數(shù)據(jù)中整合可靠的線索,用于全天候應(yīng)用(例如,安全監(jiān)控和自動(dòng)駕駛中的行人檢測(cè))。動(dòng)態(tài)融合已經(jīng)用于各種現(xiàn)實(shí)世界的多模態(tài)應(yīng)用,包括多模態(tài)分類(Han等人,2021; Geng等人,2021; Han等人,2022 b)、回歸(Ma等人,2021)、對(duì)象檢測(cè)(Li等人,2022 a; Zhang等人,2019年; Chen等人,2022 b)和語(yǔ)義分割(Tian等人,2020年)。雖然動(dòng)態(tài)多模態(tài)融合在實(shí)踐中表現(xiàn)出了很好的力量,但在這一領(lǐng)域的理論認(rèn)識(shí)顯著缺乏以下基本的開(kāi)放問(wèn)題:我們能否在實(shí)踐中實(shí)現(xiàn)可靠的多模態(tài)融合的理論保證

本文試圖闡明魯棒多模態(tài)融合的理論優(yōu)勢(shì)和準(zhǔn)則。跟隨先前的多模態(tài)學(xué)習(xí)理論工作(Huang et al.,2021 b; Wang等人,2020),我們研究的框架也是從決策級(jí)多模態(tài)融合中抽象出來(lái)的,這是多模態(tài)學(xué)習(xí)中最基本的研究課題之一(Baltru?aitis et al.,2018年)。特別是,我們?cè)O(shè)計(jì)了一個(gè)新的質(zhì)量感知多模態(tài)融合(QMF)框架多模態(tài)學(xué)習(xí)。我們的框架的關(guān)鍵在于利用基于能量的不確定性來(lái)表征每個(gè)模態(tài)的質(zhì)量。我們的貢獻(xiàn)可歸納如下:

  • 本文提供了一個(gè)嚴(yán)格的理論框架來(lái)理解魯棒多模態(tài)融合的優(yōu)勢(shì)和標(biāo)準(zhǔn),如圖2所示。首先,我們從Rademacher復(fù)雜度的角度描述了決策級(jí)多模態(tài)融合方法的泛化誤差邊界。然后,我們確定在什么條件下動(dòng)態(tài)融合優(yōu)于靜態(tài),即,當(dāng)多模態(tài)融合的融合權(quán)值與單模態(tài)泛化誤差負(fù)相關(guān)時(shí),動(dòng)態(tài)融合方法的性能優(yōu)于靜態(tài)融合方法。
  • 在理論分析的基礎(chǔ)上,進(jìn)一步揭示了動(dòng)態(tài)融合的泛化能力與不確定性估計(jì)的性能是一致的。這直接暗示了設(shè)計(jì)和評(píng)價(jià)新的動(dòng)態(tài)融合算法的原則。
  • 直接由上述分析的動(dòng)機(jī),我們提出了一種新的動(dòng)態(tài)多模態(tài)融合方法稱為質(zhì)量感知多模態(tài)融合(QMF),它的實(shí)現(xiàn)被證明具有更好的泛化能力。如圖1所示,對(duì)常用基準(zhǔn)進(jìn)行了大量實(shí)驗(yàn),以經(jīng)驗(yàn)驗(yàn)證理論觀察結(jié)果。
    ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
    圖1.多模態(tài)學(xué)習(xí)方法之間的準(zhǔn)確性差距的可視化(例如,后期融合,對(duì)齊融合,MMTM)和使用含有噪聲的多模態(tài)數(shù)據(jù)的最佳單模態(tài)學(xué)習(xí)方法。注意到,現(xiàn)有的多模態(tài)融合方法的性能顯著降低相比,他們最好的單模態(tài)對(duì)應(yīng)在高噪聲制度,而所提出的QMF一貫優(yōu)于其他對(duì)低質(zhì)量的數(shù)據(jù)的單模態(tài)方法。

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
圖2.左側(cè):多模態(tài)融合方法f的泛化誤差上界可以通過(guò)其在經(jīng)驗(yàn)損失、模型復(fù)雜性和不確定性意識(shí)方面對(duì)每個(gè)模態(tài)的性能來(lái)表征。右:動(dòng)態(tài)與靜態(tài)多模態(tài)融合假設(shè)空間,其中后者是前者的子集。、分別是靜態(tài)融合方法和動(dòng)態(tài)融合方法的假設(shè)條件,是真實(shí)映射。通俗來(lái)講,更接近真實(shí)的映射會(huì)導(dǎo)致更少的錯(cuò)誤。在某些特定條件下,動(dòng)態(tài)多模態(tài)融合方法(例如,所提出的QMF)可以被很好地正則化,從而可證明地實(shí)現(xiàn)更好的泛化能力。

多模態(tài)融合是多模態(tài)學(xué)習(xí)中最原始和最基本的主題之一,其通常旨在將模態(tài)特征集成到下游多模態(tài)學(xué)習(xí)任務(wù)的聯(lián)合表示中。多模式融合可分為早期融合、中期融合和晚期融合。雖然神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的研究表明,中間融合可能有利于表征學(xué)習(xí)(Schroeder & Foxe,2005; Macaluso,2006),但后期融合仍然是最廣泛使用的多模態(tài)學(xué)習(xí)方法,因?yàn)樗慕忉尯蛯?shí)用簡(jiǎn)單。通過(guò)引入基于各種策略的模態(tài)級(jí)動(dòng)態(tài),動(dòng)態(tài)融合實(shí)際上提高了整體性能。作為一個(gè)具體的例子,以前的工作(Guan等人,2019)提出了一種動(dòng)態(tài)加權(quán)機(jī)制來(lái)描述場(chǎng)景的光照條件。通過(guò)引入動(dòng)態(tài),他們可以從多光譜數(shù)據(jù)中整合可靠的線索,用于全天候應(yīng)用(例如,安全監(jiān)控和自動(dòng)駕駛中的行人檢測(cè))。結(jié)合附加的動(dòng)態(tài)機(jī)制(例如,簡(jiǎn)單的加權(quán)策略或DempsterShafer證據(jù)理論(Shafer,1976)),最近的基于不確定性的多模態(tài)融合方法在各種任務(wù)中顯示出顯著的優(yōu)點(diǎn),包括聚類(Geng等人,2021)、分類(Han等人,2021; 2022 b; Tellamekala等人,2022; Subedar等人,2019年; Chen等人,2022 a)、回歸(Ma等人,2021)、目標(biāo)檢測(cè)(Zhang等人,2019年; Li等人,2022 b)和語(yǔ)義分割(Tian等人,2020年; Chang等人,2022年)。

多模態(tài)機(jī)器學(xué)習(xí)在各種實(shí)際應(yīng)用中取得了巨大的成功。然而,目前的融合方法的可靠性仍然是值得注意的未探索的,這限制了它們?cè)诎踩P(guān)鍵領(lǐng)域(例如,金融風(fēng)險(xiǎn)、醫(yī)療診斷)。**不確定性估計(jì)的動(dòng)機(jī)是表明機(jī)器學(xué)習(xí)模型給出的預(yù)測(cè)是否容易出錯(cuò)。**在過(guò)去的幾十年中,已經(jīng)提出了許多不確定性估計(jì)方法,包括貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)(Denker & LeCun,1990; Mackay,1992; Neal,2012)及其變種(Gal & Ghahramani,2016; Han等人,2022 a)、深合奏(Lakshminarayanan等人,2017; Havasi等人,2021)、預(yù)測(cè)置信度(Hendrycks & Gimpel,2017)、Dempster-Shafer理論(Han等人,2021)和能量評(píng)分(Liu等人,2020年)。預(yù)測(cè)置信度期望預(yù)測(cè)的類別概率與經(jīng)驗(yàn)準(zhǔn)確度一致,這通常在分類任務(wù)中提到。Dempster-Shafer理論(DST)是貝葉斯理論對(duì)主觀概率的推廣,也是建模認(rèn)知不確定性的一般框架。能量評(píng)分是一種很有前途的捕獲分布外(OOD)不確定性的方法,這種不確定性是在機(jī)器學(xué)習(xí)模型遇到與其訓(xùn)練數(shù)據(jù)不同的輸入時(shí)出現(xiàn)的,因此模型的輸出是不可靠的。最近的大量研究已經(jīng)研究了OOD不確定性的問(wèn)題(Ming等人,2022年; Chen等人,2021; Meinke & Hein,2019; Hendrycks等人,2019年)。在本文中,我們調(diào)查的預(yù)測(cè)置信度,Dempster-Shafer理論和能量分?jǐn)?shù),主要是由于其理論的可解釋性和有效性。

在本節(jié)中,我們首先在3.1節(jié)中澄清使用的多模態(tài)融合的基本符號(hào)和正式定義。然后,我們?cè)诘?.2節(jié)中提供了主要的理論結(jié)果,從泛化能力的角度嚴(yán)格證明了動(dòng)態(tài)融合方法何時(shí)以及如何工作(Bartlett & Mendelson,2002)。由于篇幅限制,我們將全部細(xì)節(jié)推遲到附錄A,只給出證明的簡(jiǎn)短摘要。

我們通過(guò)為我們的理論框架引入必要的符號(hào)來(lái)初始化??紤]在數(shù)據(jù)上的學(xué)習(xí)任務(wù),其中具有M個(gè)模態(tài),表示數(shù)據(jù)的標(biāo)簽。多模態(tài)訓(xùn)練數(shù)據(jù)被定義為。具體來(lái)說(shuō),我們使用X,Y和Z來(lái)表示輸入空間,目標(biāo)空間和潛在空間。類似于先前在多模態(tài)學(xué)習(xí)理論中的工作(Huang等人。2021年),我們定義$h:X mapsto Z g:Zmapsto Yf=g circ h(x)D_{test}D_{train}D_{test}X * YDf=g circ h(x)$表示h和g的復(fù)合函數(shù)。

為了簡(jiǎn)單起見(jiàn),我們提供了在兩分類設(shè)置中使用邏輯損失函數(shù)的集合式后期融合策略的分析。我們的分析遵循這個(gè)路線圖:(1)我們首先使用Rademacher復(fù)雜度(Bartlett & Mendelson,2002)來(lái)描述動(dòng)態(tài)后期融合的泛化誤差界,然后將該界分成三個(gè)分量(定理1);(2)在此基礎(chǔ)上,進(jìn)一步證明了動(dòng)態(tài)融合在一定條件下具有較好的泛化能力(定理2)。我們以如下基本設(shè)置開(kāi)始分析。

基本設(shè)置:在一個(gè)含有M個(gè)輸入模態(tài)以及二分類的場(chǎng)景下,我們將定義為在模態(tài)上的單模態(tài)分類器。后期融合多模態(tài)方法的最終預(yù)測(cè)通過(guò)對(duì)來(lái)自不同模態(tài)的決策進(jìn)行加權(quán)來(lái)計(jì)算:其中表示最終的預(yù)測(cè)值。與靜態(tài)后期融合不同,動(dòng)態(tài)多模態(tài)融合中的權(quán)值是動(dòng)態(tài)生成的,并且針對(duì)不同的樣本而變化。為了清楚起見(jiàn),我們使用下標(biāo)來(lái)區(qū)分它們,即是指靜態(tài)后期融合中模態(tài)的總體權(quán)重,而是指動(dòng)態(tài)融合中的權(quán)重。具體而言,是一個(gè)常數(shù),并且是一個(gè)關(guān)于輸入樣本的函數(shù),二分類多模態(tài)分類器的泛化誤差定義為:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中的是一個(gè)未知的聯(lián)合分布,并且是邏輯損失函數(shù)。為了方便起見(jiàn),我們將單模態(tài)分類器損失簡(jiǎn)化為并且在下面的分析中省略輸入?,F(xiàn)在我們提出第一個(gè)關(guān)于多模態(tài)融合的主要結(jié)果。

定理1(多模態(tài)融合的泛化邊界)。令是含有個(gè)樣本的訓(xùn)練數(shù)據(jù)集。是在上的單模態(tài)經(jīng)驗(yàn)誤差(筆記:經(jīng)驗(yàn)誤差也就是在訓(xùn)練集上的訓(xùn)練誤差,它一般與population loss相對(duì),population loss是對(duì)于整個(gè)數(shù)據(jù)集而言)。則對(duì)于中的任何假設(shè)(即:)且,概率至少為,它認(rèn)為:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中是聯(lián)合分布的融合權(quán)重的數(shù)學(xué)期望,是復(fù)雜度(

) ,是融合權(quán)重和損失之間的協(xié)方差。

直覺(jué)上,定理1證明了多模態(tài)分類器的泛化誤差由所有的單模態(tài)分類器的經(jīng)驗(yàn)損失、模型復(fù)雜度以及融合權(quán)重與單模態(tài)損失之間的協(xié)方差的加權(quán)平均性能來(lái)限定。這段可以用在論文中在建立了一般的誤差界之后,我們的下一個(gè)目標(biāo)是驗(yàn)證動(dòng)態(tài)多模態(tài)后期融合何時(shí)能夠達(dá)到比靜態(tài)后期融合更緊的界限。不正式的來(lái)說(shuō),在表達(dá)式1中測(cè)量了和的聯(lián)合變化率(正規(guī)翻譯是聯(lián)合變異性,這里是方便理解)。請(qǐng)記住,在靜態(tài)多模態(tài)融合中,是一個(gè)常數(shù),這意味著對(duì)于任何靜態(tài)融合方法,。因此,靜態(tài)融合方法的泛化誤差減小到:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
因此,當(dāng)和的總和在動(dòng)態(tài)融合中是不變的或更小,并且Term-Cov ≤ 0時(shí),我們可以確保動(dòng)態(tài)融合可證明優(yōu)于靜態(tài)融合。得出的結(jié)論 這個(gè)定理被正式表示為

定理2 設(shè),分別為采用動(dòng)態(tài)和靜態(tài)融合策略的多模態(tài)分類器的泛化誤差上界。是在定理1中定義的上的的單模態(tài)經(jīng)驗(yàn)誤差,則對(duì)于且中的任何假設(shè),,以下結(jié)論成立:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

概率至少為,如果我們有
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
并且
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中是皮爾遜相關(guān)系數(shù),其測(cè)量動(dòng)態(tài)融合權(quán)重和單模態(tài)損失之間的相關(guān)性。


補(bǔ)充內(nèi)容:皮爾遜相關(guān)系數(shù)

最常用的相關(guān)就是皮爾遜相關(guān)(Pearson correlation),得名于Karl Pearson, 他從弗朗西斯·高爾頓在19世紀(jì)80年代提出的一個(gè)相似卻又稍有不同的想法演變而來(lái)的,這個(gè)相關(guān)系數(shù)也稱作“皮爾遜積矩相關(guān)系數(shù)(Pearson Product-Moment Correlation)”。皮爾遜相關(guān)系數(shù)通常用字母r表示(所以常常寫(xiě)作 Pearson’s r,當(dāng)然也有用 ho來(lái)表示),衡量?jī)蓚€(gè)隨機(jī)變量之間的線性關(guān)系(或者說(shuō)線性關(guān)聯(lián)度)。
兩個(gè)變量之間的總體(population)的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的[協(xié)方差]和[標(biāo)準(zhǔn)差]之積的商(或者說(shuō),歸一化的協(xié)方差),通常用 ho表示,定義如下:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

估算[樣本]的協(xié)方差和標(biāo)準(zhǔn)差,可得到([樣本]的)皮爾遜相關(guān)系數(shù),常用英文小寫(xiě)字母

r 代表,r 的表達(dá)式如下所示:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
* 以上分母中后半部分應(yīng)該是而不是。其中,和 分別表示兩者的樣本均值。 R=1表示兩者完美的正向線性相關(guān),即滿足Y = aX+b(a>0)的關(guān)系; R=-1表示兩者完美的負(fù)向線性相關(guān),即滿足Y = aX+b(a<0)的關(guān)系. 在X-Y散點(diǎn)圖上看的話,散點(diǎn)圖完全處于一條直線上。R=0則表示兩者沒(méi)有(線性)相關(guān)性。
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
需要注意的是,皮爾遜相關(guān)系數(shù)只是線性關(guān)系的度量,如果為0的話,那只是表示兩個(gè)變量之間沒(méi)有線性關(guān)系,但是它們之間仍然可能存在別的關(guān)系!如下圖所示:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

? 這個(gè)散點(diǎn)圖中的x和y之間的皮爾遜相關(guān)系數(shù)為0,但是僅目測(cè)就知道兩者之間并不是毫無(wú)關(guān)系,事實(shí)上它們之間存在著完全的平方關(guān)系。 另外一個(gè)常見(jiàn)的誤解是把相關(guān)關(guān)系當(dāng)成了因果關(guān)系。

Example1:

 
 

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

計(jì)算結(jié)果表明這兩個(gè)序列的皮爾遜相關(guān)系數(shù)高達(dá)0.9。stats.pearsonr()除了返回相關(guān)系數(shù)外,還順帶計(jì)算了對(duì)應(yīng)的p-value。直觀的理解是,p-value表示兩個(gè)零相關(guān)的序列能夠給出這個(gè)相關(guān)系數(shù)的概率,以上p-value為0.0009表明兩個(gè)零相關(guān)的序列的相關(guān)系數(shù)的絕對(duì)值大于等于0.9的概率不足千分之一。從另一個(gè)側(cè)面說(shuō)明了這個(gè)相關(guān)系數(shù)結(jié)果的置信度。


Remark.從理論上講,優(yōu)化相同的函數(shù)類有效地導(dǎo)致相同的經(jīng)驗(yàn)損失。假設(shè)對(duì)于每個(gè)模態(tài),我們?cè)趧?dòng)態(tài)和靜態(tài)融合中使用的單模態(tài)分類器具有相同的架構(gòu),則單模態(tài)分類器和經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)的內(nèi)在復(fù)雜度可以是不變的。因此,在這種情況下,我們認(rèn)為:

由5式:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
如果等式5適用于所有模態(tài),則根據(jù)定理2,很容易得出如下結(jié)論:實(shí)現(xiàn)可靠的動(dòng)態(tài)多模態(tài)融合的主要挑戰(zhàn)是為滿足等式2的每個(gè)模態(tài)學(xué)習(xí)合理的滿足于等式5和等式6的。

現(xiàn)在我們繼續(xù)回答“如何實(shí)現(xiàn)魯棒動(dòng)態(tài)融合?“.在本節(jié)中,我們從理論上確定動(dòng)態(tài)多模態(tài)融合和不確定性估計(jì)之間的聯(lián)系。然后,提出了一個(gè)統(tǒng)一的動(dòng)態(tài)多模態(tài)融合框架,名為質(zhì)量感知多模態(tài)融合(QMF)。接下來(lái),我們將展示如何在決策級(jí)后期融合和分類任務(wù)中實(shí)現(xiàn)此框架,以支持我們的研究結(jié)果。

首先,我們專注于如何滿足等式6。正如我們?cè)?.2節(jié)所討論的,各種不確定性估計(jì)方法的共同動(dòng)機(jī)是提供一個(gè)指標(biāo),表明模型給出的預(yù)測(cè)是否容易出錯(cuò)。這種動(dòng)機(jī)本質(zhì)上接近于獲得滿足等式6的權(quán)重。筆記:當(dāng)多模態(tài)融合的融合權(quán)值與單模態(tài)泛化誤差負(fù)相關(guān)時(shí),動(dòng)態(tài)融合方法的性能優(yōu)于靜態(tài)融合方法。[這一結(jié)論在一開(kāi)始的主要貢獻(xiàn)中也提到了] 我們用以下假設(shè)來(lái)表述這個(gè)主張:

假設(shè)1. 給定模態(tài)上有效的不確定性估計(jì)量,要估計(jì)的不確定性與其模態(tài)特定的損失正相關(guān),其中是皮爾遜相關(guān)系數(shù)。

這種洞察力提供了索新的動(dòng)態(tài)融合方法證明優(yōu)于傳統(tǒng)的靜態(tài)融合方法的機(jī)會(huì)。類似于先前的動(dòng)態(tài)融合方法(Blundell等人,2015; Zhang等人,2019年; Han等人,2022 b),我們部署模態(tài)級(jí)權(quán)重策略來(lái)引入動(dòng)態(tài)。

不確定性加權(quán)。不確定性感知融合權(quán)重是對(duì)應(yīng)于不確定性的線性負(fù)相關(guān)函數(shù)。
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中,是模態(tài)特定的超參數(shù)。是模態(tài)的不確定性。通過(guò)調(diào)整超參數(shù)和,我們可以保證動(dòng)態(tài)融合權(quán)重值同時(shí)滿足等式5 和 等式6。這個(gè)引理形式上可以表述為:

引理1(可滿足性)。在假設(shè)1下,對(duì)于任意,總是存在使得:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

一旦我們得到融合權(quán)重,我們就可以根據(jù)以下規(guī)則在決策級(jí)進(jìn)行不確定性感知加權(quán)融合。
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中定義在3.2小節(jié),其表示對(duì)模態(tài)的單模態(tài)預(yù)測(cè)。


補(bǔ)充:能量分?jǐn)?shù)

在論文《Energy-based Out-of-distribution Detection》的第3節(jié)(基于能量的分布外檢測(cè))提到:分布外檢測(cè)是一個(gè)二分類問(wèn)題,它依賴于一個(gè)分?jǐn)?shù)來(lái)區(qū)分分布內(nèi)以及分布外的例子。一個(gè)評(píng)分函數(shù)可以區(qū)分分布內(nèi)和分布外的值。一個(gè)自然的選擇是使用數(shù)據(jù)的密度函數(shù),并且考慮具有較低可能性(指的是密度函數(shù))的示例是OOD。雖然可以通過(guò)訴諸基于能量的模型來(lái)獲得判別模型的密度函數(shù):
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
Remark:關(guān)于的公式已經(jīng)在第2小節(jié)給出:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理歸一化密度(相對(duì)于X)可能很難計(jì)算,甚至無(wú)法在輸入空間上進(jìn)行可靠的估計(jì)。為了緩解這一挑戰(zhàn),我們的關(guān)鍵觀察是,沒(méi)有歸一化根本不會(huì)影響OOD檢測(cè)。具有較高出現(xiàn)概率的數(shù)據(jù)點(diǎn)相當(dāng)于具有較低能量。要看到這一點(diǎn),我們可以采取對(duì)等式5的兩邊取log。

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理

上面的等式表明:實(shí)際上與對(duì)數(shù)似然函數(shù)線性對(duì)齊,這對(duì)于OOD檢測(cè)是理想的。具有較高能量(較低似然性)的示例被視為OOD輸入。具體地,我們建議使用等式4中的能量函數(shù)用于ODD檢測(cè)。

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
在其中,是能量的閾值。在實(shí)際應(yīng)用中,我們使用分布內(nèi)的數(shù)據(jù)作為閾值,以便ODD檢測(cè)器正確分類高比例的輸入。在這里 我們使用負(fù)能量函數(shù)來(lái)與陽(yáng)性(分布內(nèi))樣本得分較高的傳統(tǒng)定義保持一致。能量分?jǐn)?shù)本質(zhì)上是非概率性的,它可以通過(guò)算子進(jìn)行方便的計(jì)算得出。與JEM不同的是我們的方法不需要顯式估計(jì)密度Z,因?yàn)閆與樣本無(wú)關(guān)(指的是分布外的樣本),并且不影響整體能量分?jǐn)?shù)分布。


通過(guò)上述分析,在3.2小節(jié)中提出的魯棒多模態(tài)融合的核心挑戰(zhàn)已經(jīng)在假設(shè)1中簡(jiǎn)化為了獲取一個(gè)高效的不確定性估計(jì)量。在我們的實(shí)現(xiàn)中,我們利用能量分?jǐn)?shù)(Liu et al.,2020),這是一個(gè)在文獻(xiàn)中被廣泛接受的不確定性學(xué)習(xí)的度量單位。能量分?jǐn)?shù)橋接了給定數(shù)據(jù)點(diǎn)的Helmholtz自由能量與其密度之間的差距。對(duì)于多模態(tài)數(shù)據(jù),不同模態(tài)的密度函數(shù)可以通過(guò)相應(yīng)的能量函數(shù)來(lái)估計(jì):

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中,是第m個(gè)輸入模態(tài),是單模態(tài)分類模型,是能量函數(shù),是對(duì)于所有的的一個(gè)難以處理常數(shù)。上面的等式表明與密度線性對(duì)齊,輸入的第m個(gè)模態(tài)的能量分?jǐn)?shù)可以計(jì)算為:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中指的是對(duì)應(yīng)于第個(gè)類別標(biāo)簽的分類器的輸出

logits,是一個(gè)溫度系數(shù)(參數(shù)講解)【對(duì)于這樣一個(gè)超參數(shù),直譯為“溫度系數(shù)”,在很多任務(wù)中都可以看到,特別是計(jì)算機(jī)視覺(jué)的分類任務(wù)中,研究人員往往在 損失基礎(chǔ)上額外增加一個(gè)溫度系數(shù) ,針對(duì)不同的任務(wù),取不同的超參數(shù)值。正如字面意義,假設(shè)該系數(shù)所參與的計(jì)算過(guò)程就是一個(gè)燒水的過(guò)程,溫度越高,水沸騰越劇烈,這就可以類比信息熵增減的過(guò)程,溫度系數(shù)越大,熵就越高,混亂程度越高,那么 函數(shù)輸出的各類別概率差距會(huì)越來(lái)越小(因?yàn)椴罹嘣叫∧敲纯闯鲎顑?yōu)結(jié)果也就越困難,對(duì)應(yīng)于熵越高),曲線也會(huì)愈發(fā)平滑。相反,溫度系數(shù)越小,函數(shù)曲線也會(huì)愈發(fā)陡峭?!?/font>直覺(jué)上,更均勻分布的預(yù)測(cè)導(dǎo)致更高估計(jì)的不確定性。然而,實(shí)驗(yàn)表明,在沒(méi)有額外正則化的情況下以這種方式估計(jì)的不確定性不足以滿足我們的假設(shè)1。為了解決這個(gè)問(wèn)題,我們提出了一種基于采樣的正則化技術(shù),以增強(qiáng)原始方法的相關(guān)性。提高估計(jì)的不確定性和相應(yīng)損失之間的相關(guān)性的最簡(jiǎn)單和直接的方法是利用訓(xùn)練階段的樣本損失作為監(jiān)督信息。然而,由于深度神經(jīng)網(wǎng)絡(luò)的過(guò)度參數(shù)化現(xiàn)象,在訓(xùn)練過(guò)程中損失不斷減少到零。受貝葉斯學(xué)習(xí)(Maddox et al.,2019)和不確定性估計(jì)(Moon等人,2020; Han等人,2022 a)的啟發(fā),我們建議利用來(lái)自歷史訓(xùn)練軌跡的信息來(lái)正則化融合權(quán)重。具體地,給定樣本的第m模態(tài), 的訓(xùn)練平均損失計(jì)算為:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中是每個(gè)迭代上的單模態(tài)分類器,參數(shù)為。在訓(xùn)練個(gè)epochs之后,我們采樣次并計(jì)算平均訓(xùn)練損失。

經(jīng)驗(yàn)上,最近的工作(Geifman等人,2019)表明,與難以分類的樣本相比,容易分類的樣本在訓(xùn)練期間更早地被學(xué)習(xí)(例如,噪聲樣本(Arazo等人,2019年))。期望通過(guò)在訓(xùn)練期間學(xué)習(xí)以下關(guān)系來(lái)正則化動(dòng)態(tài)融合模型:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
我們現(xiàn)在給出正則化項(xiàng)的完整定義如下:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中:
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
受多任務(wù)學(xué)習(xí)的啟發(fā),我們將總損失函數(shù)定義為多個(gè)模態(tài)的標(biāo)準(zhǔn)交叉熵分類損失和正則化項(xiàng)的總和:

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
其中是控制正則化強(qiáng)度的超參數(shù),和分別是交叉熵?fù)p失和正則化項(xiàng)。整個(gè)訓(xùn)練過(guò)程如算法1所示。
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理對(duì)QMF有效性的直觀解釋。

在不失一般性的情況下,我們假設(shè)模態(tài)是干凈的,并且模態(tài)由于未知的環(huán)境因素或傳感器故障而有噪聲。此時(shí),在干凈訓(xùn)練數(shù)據(jù)的分布中,但明顯偏離它。因此,我們有,即。因此,對(duì)于我們的QMF,多模態(tài)決策將傾向于更多地依賴于高質(zhì)量模態(tài)而不是其他模態(tài)。通過(guò)動(dòng)態(tài)確定各模態(tài)的融合權(quán)值,可以減輕不可靠模態(tài)的影響。

在本節(jié)中,我們對(duì)不同應(yīng)用程序的多個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。需要核實(shí)的主要問(wèn)題如下:

  • Q1效率I。所提出的方法是否具有更好的泛化能力?(支持定理1)
  • Q2有效性II。不確定性感知的動(dòng)態(tài)多模態(tài)融合在什么條件下工作?(支持定理2)
  • Q3可靠性。所提出的方法是否對(duì)模態(tài)的不確定性有有效的感知?(支持假設(shè)1)
  • Q4消融研究。在我們的方法中,性能改進(jìn)的關(guān)鍵因素是什么?

我們簡(jiǎn)要介紹了這里的實(shí)驗(yàn)裝置,包括實(shí)驗(yàn)數(shù)據(jù)集和比較方法。更多詳細(xì)設(shè)置請(qǐng)參見(jiàn)附錄B。

任務(wù)和數(shù)據(jù)集。 我們?cè)趦蓚€(gè)多模態(tài)分類任務(wù)中評(píng)估了我們的方法。

  • 場(chǎng)景識(shí)別:紐約大學(xué)深度V2(Silberman等人,2012)和SUN RGBD(Song等人,2015)是兩個(gè)公共室內(nèi)場(chǎng)景識(shí)別數(shù)據(jù)集,其與兩種模態(tài)相關(guān)聯(lián),即,RGB和深度圖像。
  • 圖像-文本分類:UPMC FOOD 101數(shù)據(jù)集(Wang等人,2015)包含由Google圖像搜索獲得的(可能有噪聲)圖像和相應(yīng)的文本描述。MVSA情感分析數(shù)據(jù)集(Niu等人,2016)包括一組帶有從社交媒體收集的手動(dòng)注釋的圖像-文本對(duì)。雖然上述數(shù)據(jù)集都是在的條件下,但很直觀,很容易推廣到。

評(píng)價(jià)指標(biāo)。 由于涉及隨機(jī)性,我們報(bào)告了NYU Depth V2和SUN RGB-D在10種不同種子上的平均準(zhǔn)確度、標(biāo)準(zhǔn)差和最差情況準(zhǔn)確度。為了與現(xiàn)有的工作一致(Han等人,2022 c; Kiela等人,2019; Yadav & Vishwakarma,2023),我們?cè)赨MPC FOOD 101上重復(fù)實(shí)驗(yàn)3次,在MVSA上重復(fù)實(shí)驗(yàn)5次。

比較方法。 對(duì)于場(chǎng)景識(shí)別任務(wù),我們將所提出的方法與三種靜態(tài)融合方法進(jìn)行了比較:后期融合,基于級(jí)聯(lián)的融合,基于對(duì)齊的融合方法(Wang等人,2016)和兩種代表性的動(dòng)態(tài)融合方法,即,MMTM(Joze等人,2020)和TMC 3(Han等人,2021年)。對(duì)于圖像-文本分類,我們與強(qiáng)單模態(tài)基線(即,Bow,Bert和ResNet-152)以及復(fù)雜的多模態(tài)融合方法,包括Late fusion、ConcatBow、ConcatBERT和最近的sota MMBT(Kiela等人,2019年)。

分類魯棒性(Q1)。 為了驗(yàn)證不確定性感知加權(quán)融合的魯棒性,我們根據(jù)之前的工作(Han等人,2021年; Ma等人,2021; Verma等人,2021年; Hu等人,2019年; Xie等人,2017年)。不同類型噪聲(如椒鹽噪聲)下的更多結(jié)果見(jiàn)附錄C.2。實(shí)驗(yàn)結(jié)果示于表1中。據(jù)觀察,QMF通常表現(xiàn)在前三名的平均和最壞情況下的準(zhǔn)確性。這一觀察結(jié)果表明,QMF具有更好的泛化能力比他們的同行實(shí)驗(yàn)。還值得注意的是,QMF優(yōu)于現(xiàn)有技術(shù)的方法(即,MMBT和TMC)在大規(guī)?;鶞?zhǔn)測(cè)試UPMC FOOD 101上的仿真結(jié)果表明了該方法的優(yōu)越性。

表1。當(dāng)50%的模態(tài)被高斯噪聲破壞時(shí)的分類比較,即零均值,方差為。最好的三個(gè)結(jié)果以粗體棕色顯示,最好的結(jié)果以粗體藍(lán)色突出顯示。完整結(jié)果及標(biāo)準(zhǔn)差見(jiàn)附錄。

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
與不確定性估計(jì)的連接(Q2)。 我們進(jìn)一步與各種不確定性估計(jì)算法實(shí)現(xiàn)的QMF進(jìn)行比較,即,預(yù)測(cè)置信度(Hendrycks & Gimpel,2017)和Dempster-Shafer證據(jù)理論(DST)(Han等人,2021年)。根據(jù)圖3所示的比較結(jié)果,很明顯(i)泛化能力(即,平均和最壞情況下的準(zhǔn)確性)的動(dòng)態(tài)融合方法符合他們的不確定性估計(jì)能力和(ii)我們的QMF在同一時(shí)間實(shí)現(xiàn)了最佳性能的分類精度和不確定性估計(jì)。這種比較揭示了QMF優(yōu)于其他融合方法的根本原因,并支持定理2。我們展示了在零均值和方差為10的高斯噪聲下的NYU Depth V2和SUN RGB-D的結(jié)果。

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
圖3.通過(guò)10次隨機(jī)試驗(yàn),對(duì)不同融合方法的精度和皮爾遜相關(guān)系數(shù)進(jìn)行了檢驗(yàn)。平均和最壞情況下的準(zhǔn)確度與不確定度估計(jì)能力高度一致。

QMF的可靠性(Q3)。 在UPMC FOOD-101上,我們采用表3中不同的模式計(jì)算了等式9中定義的融合權(quán)重。據(jù)觀察,QMF的融合權(quán)重與其他不確定性估計(jì)方法(在相關(guān)性方面)相比,具有最有效的感知模態(tài)質(zhì)量能力。這一觀察證明了我們對(duì)等式9中不確定性感知權(quán)重的期望。

消融研究(Q4)。 我們比較不同的組件組合(即,不確定性感知加權(quán)和正則化項(xiàng))。在這里,我們也在表2中的NYU Depth V2上使用高斯噪聲,更多結(jié)果可以在附錄C.1中找到。很容易得出結(jié)論:1)添加有利于獲得更合理的融合權(quán)重; 2)使用全QMF可以預(yù)期最佳性能。請(qǐng)參閱表格。附錄C.1中的第4節(jié),具有標(biāo)準(zhǔn)差的完整結(jié)果。

表2. NYU Depth V2的消融研究。含標(biāo)準(zhǔn)差的完整結(jié)果見(jiàn)附錄C.1。其中的表示的是方差

ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理
總之,實(shí)證結(jié)果可以支持我們的理論研究結(jié)果。這些工作確定了動(dòng)態(tài)多模態(tài)融合方法的性能增益。所提出的方法可以幫助提高多個(gè)數(shù)據(jù)集上的魯棒性。

即使所提出的方法實(shí)現(xiàn)了更優(yōu)益的性能,仍然存在一些潛在的局限性。首先,QMF的融合權(quán)重是基于不確定性估計(jì)的,這在真實(shí)的世界中是一個(gè)具有挑戰(zhàn)性的任務(wù)。例如,在我們的實(shí)驗(yàn)中,我們只能在NYU Depth V2和SUN RGB-D數(shù)據(jù)集上實(shí)現(xiàn)輕度Pearson‘s r。因此,探索新的不確定度估計(jì)方法在未來(lái)的工作中具有重要的意義和價(jià)值。其次,雖然我們描述了所提出的方法的泛化誤差界,我們的理論依據(jù)是基于假設(shè)1。然而,先前的工作(Fang等人,2022)揭示了OOD檢測(cè)在某些場(chǎng)景下是不可學(xué)習(xí)的。因此,如何進(jìn)一步表征動(dòng)態(tài)多模態(tài)融合的泛化能力仍然是一個(gè)具有挑戰(zhàn)性的開(kāi)放性問(wèn)題。

在多模態(tài)融合中引入動(dòng)態(tài)特性已經(jīng)在各種應(yīng)用中取得了顯著的實(shí)驗(yàn)結(jié)果,包括圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割。許多SOTA的多模態(tài)模型引入動(dòng)態(tài)融合策略,但這種技術(shù)提供的歸納偏置還沒(méi)有得到很好的理解。在本文中,我們提供了嚴(yán)格的分析,了解什么時(shí)候以及什么樣的動(dòng)態(tài)多模態(tài)融合方法在嘈雜的多模態(tài)數(shù)據(jù)上更魯棒。這些發(fā)現(xiàn)表明不確定性學(xué)習(xí)和魯棒多模態(tài)融合之間的聯(lián)系,這進(jìn)一步暗示了設(shè)計(jì)新的動(dòng)態(tài)多模態(tài)融合方法的原則。最后,我們?cè)诙鄠€(gè)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),以支持我們的發(fā)現(xiàn)。在工作中使用了基于能量的加權(quán)策略的設(shè)計(jì),其他的不確定性估計(jì)方法值得探索。另一個(gè)有趣的方向是在更一般的環(huán)境下證明動(dòng)態(tài)融合。

本研究得到了國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):61976151)和A* STAR 中央研究基金的部分資助,并在此對(duì)MindSpore和CAAI的支持表示感謝。作者要感謝Zhipeng Liang(香港科技大學(xué))檢查數(shù)學(xué)細(xì)節(jié),以及Zongbo Han,Huan Ma(天津大學(xué))對(duì)寫(xiě)作的評(píng)論。作者還感謝ICML匿名同行評(píng)審員的建議。

在這里插入圖片描述

轉(zhuǎn)載請(qǐng)注明來(lái)自阿拉善凱拓戶外,本文標(biāo)題:《ICML 2023 | 可證明的動(dòng)態(tài)多模態(tài)融合框架論文整理》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top
 漢陰護(hù)士最新招聘信息  河南睿派招聘信息最新  兵馬俑最新預(yù)言信息  中芯京城招聘信息最新  廣西社保統(tǒng)籌最新信息表  迪慶副船長(zhǎng)招聘信息最新  臨潁最新租房信息二  卓勝微客最新信息  會(huì)寧大棚出租信息最新  武漢健康碼最新調(diào)整信息  玉山城建最新?tīng)顩r信息  貴陽(yáng)燕樓租房信息最新  招聘信息最新招聘20  馬山招聘信息最新招聘  無(wú)錫馬山 最新招聘信息  華中焦炭最新信息披露  運(yùn)城炫界最新優(yōu)惠信息  云峰國(guó)際最新動(dòng)態(tài)信息  安陽(yáng)最新學(xué)生信息采集  襄城農(nóng)村房出租最新信息  石獅抗疫最新信息簡(jiǎn)介  古城西南招聘信息最新  四鋪中學(xué)招聘信息最新  濟(jì)源朗酒招聘信息最新  廣信區(qū)城西最新拆遷信息  重慶龍州最新樓盤信息  東莞最新招租房信息  東莞景泰最新樓盤信息