當前位置：首頁 > 新聞資訊 > 機器人知識 > 京東姚霆：推理能力，正是多模態技術未來亟需突破的瓶頸

京東姚霆：推理能力，正是多模態技術未來亟需突破的瓶頸

來源：AI科技大本營編輯：創澤時間：2020/6/14 主題：其他 [加盟]

打開熟悉的購物 App，在搜索欄輸入想要買的東西，有時候你會發現文字不能很好地匹配你想要找的東西，用一張圖片來搜索更簡單直接。這種“以圖搜圖”的操作基本上所有電商平臺現在都支持了，效果也還不錯。以京東 App 為例，筆者在搜索框輸入下圖，得到結果如右圖所示，是筆者想要的多肉植物沒錯。

用起來很方便，但你可能不知道的是，這簡單的搜索動作背后，卻是復雜的計算機視覺技術在提供支持，甚至用到了圖像內容、文本和高層語義屬性等多個模態下的信息融合，來實現精準的以圖搜圖。

當然，拍照購只是京東電商的眾多應用之一，跨模態技術應用還有很多，比如推薦和信息流廣告，內容審核也可以結合海量的商品圖像與對應的商品語義屬性，學習圖像語義特征表達。另外，我們在使用京東 App 時可能都有過被智能客服接待的經歷，這背后的技術，就是在任務驅動型的多輪對話中融入視覺到語言的跨模態轉換技術，讓智能客服可以自動地對用戶上傳的圖片或視頻進行自動應答。

在物流場景，京東也成功地將視頻分析技術應用于物流園區作業人員行為規范管理中，特別是針對監控視頻的站點環境、攝像頭角度和成像條件差異性較大等難點，京東采用了自研的基于局部——全局傳播網絡的通用視頻特征以及高效視頻事件時序檢測框架，并融入了跨域學習技術，實現了同時在幾百個不同的站點中全天候的作業人員操作行為實時檢測，有效地管理了物流作業人員在各個站點的工作規范。

可能會有人好奇，這背后的多模態技術在京東電商和物流場景中具體是如何實現的，多模態技術在電商和物流中還有哪些熱門的落地應用，多模態技術本身當前發展到哪一步了，目前發展遇到了哪些瓶頸，未來又將向哪些方向發展，等等。

帶著這些問題，CSDN 邀請到了京東 AI 研究院算法科學家姚霆博士，來為我們答疑解惑。

師從多媒體領域領軍人物Chong-Wah Ngo

姚霆本科和碩士畢業于中國科學技術大學，博士就讀于香港城市大學，師從 ACM 杰出科學家，也是多媒體領域的領軍人物之一 Chong-Wah Ngo 教授。博士畢業后，他加入微軟亞洲研究院任職研究員，主研計算機視覺。2018 年 6 月，姚霆加入京東 AI 研究院，擔任算法科學家，負責領導京東視覺與多媒體實驗室的視覺內容分析團隊，研究方向主要關注視頻內容理解、視覺與語言，以及大規模多媒體內容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等會議/期刊上已發表論文 50 余篇（引用率 3600 余次），現任多媒體領域學術期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是，姚霆還是 P3D ResNet（視頻特征學習）、LSTM-A（圖像語義屬性）、GCN-LSTM（圖像物體關系）、HIP（圖像分層解析）、X-LAN（高階注意力機制）的作者和計算機視覺領域重要數據集MSR-VTT（視頻描述生成）的創建人，曾帶領團隊獲得多項視頻內容理解和跨域學習競賽冠軍，是當之無愧的學術帶頭人。

實際上，姚霆不僅在學術上成果頗豐，在京東也有更多機會將實驗室的研究成果落地。

在這里，AI 研究院計算機視覺和多媒體實驗室主要有 4 個研究方向：人臉計算、人體分析、圖像理解和視頻分析，而姚霆所帶領的視覺內容分析團隊主要關注兩個方向，即視頻內容理解和視覺與語言。前者包括從底層的針對視頻理解的神經網絡設計，視頻特征表達學習，到視頻動作/事件識別，動作定位和檢測，視頻語義分割，視頻描述生成等全棧式的分析維度，后者則集中在圖像/視頻的語義特征學習，視覺與語言的特征交互，以及跨模態的預訓練課題。

以學術研究帶動產業落地，正是姚霆所帶領的團隊要做的事，在多模態技術研究上，這支團隊一直嘗試多模態領域有所突破，比如近期該實驗室在視覺與語言方向提出了一個全新的高階注意力機制（X-linear Attention Block），首次將其融入至圖像描述生成任務中，主要的技術創新是打破了傳統注意力機制中一階的特征交互限制，通過所設計的高階注意力機制可以靈活地捕捉不同模態間高階乃至無窮階的特征交互，大大提升了視覺到語言的跨模態轉換性能。這個注意力機制在 COCO 在線測試集上達到世界領先的水平，并被 CVPR 2020 接收。

在視頻內容理解課題上，實驗室在 2019 年提出了局部——全局傳播（LGD）網絡。這種全新的神經網絡結構設計另辟蹊徑地在傳統三維卷積網絡基礎上引入了對全局信息的獨立建模，提升了視頻基礎特征的描述能力。此外，不同于現有的由人工設定的視頻網絡結構，實驗室還創新性地提出了基于可微分結構搜索的視頻網絡結構自動搜索方法（SDAS），從而在視頻數據上讓機器自動地學習和設計針對視頻內容理解的網絡結構，同時也可以在搜索過程中加入對于運行效率的約束，以定制化地搜索最優的網絡結構。

多模態表示學習、模態轉化等“老大難”問題怎么解決？

保持技術創新的過程中，姚霆團隊很清楚地意識到，多模態在技術層面一定繞不過一些難以解決的“老大難”問題，比如多模態表示學習、模態轉化、多模態融合、跨模態分析、跨域學習，就是幾個典型的挑戰。針對這些問題，京東其實提出了一些有效的方法，也許對相關領域的研究人員和學習者有一定借鑒意義。

在多模態表示和跨模態轉化方向，姚霆以視覺和語言方面舉例，2017 年在圖像特征表達方面融入了高層語義特征，以增強所生成語言描述和圖像的語義一致性；2018 年則更進一步挖掘了圖像中物體和物體間的語義空間關系，構建出物體間語義和空間的關系圖，從而促進對圖像內容的深層次理解。然而，盡管物體間關系圖有效地引入了物體間關系的語義信息，但依然無法充分表達整個圖像所包含的豐富語義，所以在 2019 年，京東又提出了一種多層次的樹形語義結構，它囊括了從語義分割后的物體實例到檢測后的物體區域再到整個圖像的不同層級之間的語義信息。通過這樣一種樹形結構，可以有效地對物體不同層次間語義關聯性進行編碼，從而最終生成更為精準的描述文本。

這一系列工作的研究脈絡基本都是圍繞著在跨模態轉化過程中不斷強調對視覺內容的理解，而語言建模部分都是采用通用的 RNN 或 Transformer 類似的結構來實現。不同于這一研究脈絡，在今年京東最新的工作中，他們在上文中提到的高階注意力機制則逐漸聚焦于視覺內容和語言建模這兩者之間的特征交互，希望可以通過不同模態間基于高階的信息交互，讓兩者成為相互促進的整體。

跨域學習也是京東另一個持續關注的研究方向。姚霆解釋到，因為跨域學習可以很好地提升模型在不同場景下的泛化能力，并且無需更多目標場景下的人工標注就能實現模型在不同域下的遷移，這與京東在各種實際場景中快速進行模型落地的需求吻合。所以，針對跨域學習，京東在廣度和深度上都有一些研究。

首先在廣度上，京東研究了如何在圖像整體特征級別、局部區域級別和像素級別進行跨域學習，使得這些跨域學習技術可以無縫地適用于圖像識別、物體檢測和語義分割這幾大任務，同時脫離開特征級別的跨域遷移，還結合生成式對抗網絡，直接在原始圖像、視頻上進行無監督跨域轉換。

在深度上，實驗室也對跨域學習框架進行了一些變革與創新，比如 2019 年提出了一個基于原型網絡的跨域學習框架（TPN，Transferrable Prototypical Networks），它可以將特征學習和目標任務的學習融為一體，有效地提升跨域學習的性能，此外，實驗室還從理論上證明了自主學習（self-learning）對于模型跨域轉換的促進作用。在今年的 CVPR 上，實驗室利用無監督聚類技術深挖目標域的內在數據結構，并利用這一信息更好地指導跨域學習，在主流的數據集 Office 和 VisDA的封閉集和開放集上均取得了 SOTA 效果，其中在 VisDA 2017 數據集上達到 87.2% 的準確率。。

多模態熱門應用之視頻分析

再進一步聊到多模態技術在應用上的進展，姚霆提到了視頻分析技術實用性非常強的熱門研究方向。京東當然也洞察到這個有潛力的方向，在視頻分析技術的各大方向均有自研的獨創性工作。

其中最基本是視頻特征表達的學習，目標在于從原始視頻數據中學習包含高層語義信息的特征向量。為此，姚霆團隊設計了幾種獨特的三維卷積網絡模型，比如偽三維卷積神經網絡和局部——全局傳播網絡。在這些特征的基礎上，實驗室還搭建了包括視頻事件檢測、視頻語義分割和視頻動作檢測的視頻理解系統，實現對視頻內容的全方位分析。與此同時，在每一個視頻分析的具體應用中，實驗室也都沉淀了相應的技術創新，比如針對視頻事件檢測提出了使用時域高斯函數對事件發生時間段進行預測的方法，同時也設計了基于網絡結構自動搜索的語義分割方法，用以達成實時的視頻語義分割；針對視頻動作檢測，提出了同時對長短時關聯性進行建模的方法，也獲得了在該領域領先的性能。

多模態熱門應用之視頻分析之視頻內容理解

視頻內容理解同樣是一個熱門的多模態研究方向。姚霆預測，在未來，視頻內容理解有兩個較為重要的發展趨勢，即無標注或弱標注視頻數據的使用，以及針對視頻特質的神經網絡設計。

首先，數據是深度學習訓練的基礎，同時也是發展視頻內容理解技術的必備條件。目前視頻內容理解系統的訓練通常依靠大量的人工標注視頻數據，這就不可避免地需要耗費時間和人力。如果可以充分利用互聯網上海量的無標注或弱標注視頻數據來進行訓練，將會突破視頻數據來源的限制，全面提升視頻內容理解的性能。因此，無監督學習、半監督學習與弱監督學習都將成為視頻內容理解的新趨勢。

另一個方向則是針對視頻特質的神經網絡結構設計，目前視頻內容理解中所使用的網絡結構通常與圖像領域的網絡結構高度耦合，它們并不是真正為視頻而生的網絡結構，缺乏對視頻數據獨到且深刻的見解。所以，如何針對視頻數據來設計全新一代的神經網絡結構，也是視頻內容理解領域一個重要的發展趨勢。

針對跨模態分析領域，盡管視覺內容的理解可以隨著各種高性能網絡的設計和深層語義的挖掘不斷升級，視覺和語言間交互的方式也已經從傳統的一階注意力機制演化到可捕捉高階乃至無窮階信息交互的注意力機制，但視覺與語言的技術發展依然逃脫不了深度學習對于訓練數據的貪婪。

因此，如何能在海量的弱監督數據上學習更具泛化能力的視覺和語言之間本質聯系，將是下一個研究的熱潮。而一旦在這些海量的弱監督甚至于無監督數據上通過預訓練學習到了蘊含有多模態間本質聯系的模型，便可賦予它在各種視覺與語言任務上的生命力。基于此，我們最近也在數以億計的網頁上持續不斷地自動抓取視頻——語言的多模態數據，構建了視頻——語言領域首個弱監督的大規模數據集（Auto-captions on GIF dataset），并正在 ACM Multimedia 2020 上舉辦跨模態預訓練的競賽，其目的還是希望能為跨模態預訓練技術的未來發展準備好一個充分與完備的平臺。

電商、物流+多模態發展空間大，突破口在哪？

盡管電商和物流業中，計算機視覺和多媒體技術已經有很多落地應用了，比如拍照購、內容審核和物流園區作業人員行為規范管理等，但在姚霆看來，縱觀整個電商和物流體系，依然有一部分業務需要人工檢驗確認步驟，還遠遠沒有達到計算機視覺和多媒體技術完全自主的階段。簡言之，當前電商、物流場景與這些技術的結合還處于局部智能化的階段，整個產業鏈并沒有得到顛覆性的革新。

“我們希望，隨著整個電商平臺和供應鏈的不斷數字化，加上智能配送系統的持續發展，未來的電商、物流業務可以從計算機視覺和多媒體技術輔助的方式，逐漸轉變成為由這些技術完全主導的機器自助，乃至多機協同，在電商與物流的每一個環節上都盡可能地使用智能的方式進行全局調度，尋求更加高效智能的供應鏈。這也正是我們目前正在建設的智能供應鏈開放平臺的愿景，即依托人工智能技術與供應鏈系統，打造智能供應鏈產業生態，賦能現代供應鏈的生產、流通、消費三大場景。”雖然電商和物流業中多模態技術的應用還不夠成熟，但姚霆十分看好這一領域的發展空間。

多模態技術被很多人視為未來獲得真正的機器智能的途徑之一，對于這一觀點，姚霆表示不能完全認同。他認為，首先需要肯定的是，相比于只側重單一模態的技術（比如圖像識別、動作檢測、機器翻譯等），多模態技術一定距離真正的機器智能更近一些，因為機器智能的終極目的是模擬人的智能，而人之本身對于這個世界的認識一定是視聽說的結合，這就對應著多模態技術的融合。因此，對于機器而言，只有綜合來源于不同模態的知識才能對這個真實的世界實現全面綜合的理解，這也正是達到真正人類級別的智能的基石之一。但是，當前的多模態技術還遠遠未達到能通向真正機器智能的水平，因為它缺乏了人的智能中最為關鍵的推理能力，這也正是多模態技術在未來亟需突破的一個瓶頸。

多模態研究歷史不長，至今沒有顛覆性的成果出現，要想獲得進一步發展，多模態技術研究將來要對準哪些突破口？

對此，姚霆也有自己的看法，“目前大部分多模態技術走的還是深度學習中拿大量的已標注多模態數據來喂深度模型的老路子，即數據驅動模型的感知計算，這就導致訓練得到的多模態模型不具備人腦一樣的推理能力，其在真實場景下的泛化能力也大大受限。如果能在現有的多模態技術中融入專家、常識知識（例如結合知識圖譜），則能利用數據與知識的聯合驅動讓多模態技術更為“智能”。同時，也可以在多模態模型訓練的過程中引入多種自監督的推理型任務，“強迫”多模態模型進行推理和思考，這也能在一定程度上讓機器去慢慢學會推理。”

此外，姚霆還指出，當前的多模態技術還是屬于狹隘的單任務學習，整個訓練和測試的過程都是在封閉和靜態的環境下進行，這就和真實世界中開放動態的應用場景存在一定的差異性。為了彌補這一差異，我們可以在訓練過程不斷結合真實世界數據的回流來持續升級多媒體模型，甚至于可以利用元學習的方式來讓模型自己學會如何認知新的多模態知識，實現適用于開放動態場景并具備終生學習能力的多模態模型。