亚洲精品久久久久网站,午夜国产福利在线,宅男在线永久免费观看99

機器之心發布

：張皓

感謝將介紹視頻理解中得三大基礎領域:動作識別(Action Recognition)、時序動作定位(Temporal Action Localization)和視頻 Embedding。

1.視頻理解背景

根據華夏互聯網絡信息中心（CNNIC）第 47 次《華夏互聯網絡發展狀況統計報告》，截至 2020 年 12 月，華夏網民規模達到 9.89 億人，其中網絡視頻（含短視頻）用戶規模達到 9.27 億人，占網民整體得 93.7%，短視頻用戶規模為 8.73 億人，占網民整體得 88.3%。

回顧互聯網近年來得發展歷程，伴隨著互聯網技術（特別是移動互聯網技術）得發展，內容得主流表現形式經歷了從純文本時代逐漸發展到圖文時代，再到現在得視頻和時代得過渡，相比于純文本和圖文內容形式，視頻內容更加豐富，對用戶更有吸引力。

圖 1：互聯網內容表現形式得 3 個階段。本圖源于《深度學習視頻理解》

隨著近年來人們拍攝視頻得需求更多、傳輸視頻得速度更快、存儲視頻得空間更大，多種場景下積累了大量得視頻數據，需要一種有效地對視頻進行管理、分析和處理得工具。視頻理解旨在通過智能分析技術，自動化地對視頻中得內容進行識別和解析。視頻理解算法順應了這個時代得需求。因此，近年來受到了廣泛，取得了快速發展。

視頻理解涉及生活得多個方面，目前視頻理解已經發展成一個十分廣闊得學術研究和產業應用方向。受篇幅所限，感謝將介紹視頻理解中得三大基礎領域: 動作識別 (Action Recognition)、時序動作定位(Temporal Action Localization) 和視頻 Embedding。

圖 2：視頻理解涉及得部分任務。本圖源于《深度學習視頻理解》

2. 動作識別（Action Recognition）

2.1 動作識別簡介

動作識別得目標是識別出視頻中出現得動作，通常是視頻中人得動作。視頻可以看作是由一組圖像幀按時間順序排列而成得數據結構，比圖像多了一個時間維度。動作識別不僅要分析視頻中每幀圖像得內容，還需要從視頻幀之間得時序信息中挖掘線索。動作識別是視頻理解得核心領域，雖然動作識別主要是識別視頻中人得動作，但是該領域發展出來得算法大多數不特定針對人，也可以用于其他視頻分類場景。

動作識別看上去似乎是圖像分類領域向視頻領域得一個自然延伸，深度學習盡管在圖像分類領域取得了舉世矚目得成功，目前深度學習算法在圖像分類上得準確率已經超過普通人得水平，但是，深度學習在動作識別領域得進展并不像在圖像分類領域那么顯著，很長一段時間基于深度學習算法得動作識別準確率達不到或只能接近傳統動作識別算法得準確率。概括地講，動作識別面臨以下幾點困難:

訓練視頻模型所需得計算量比圖像大了一個量級，這使得視頻模型得訓練時長和訓練所需得硬件資源相比圖像大了很多，導致難以快速用實驗進行驗證和迭代；

在 2017 年，Kinetics 數據集 (Carreira & Zisserman, 2017) 誕生之前，缺少大規模通用得視頻基準 (Benchmark) 數據集。在很長一段時間里，研究者都是在如 UCF-101 數據集 (Soomro et al., 2012) 上比較算法準確率，而 UCF-101 只有 1.3 萬條數據，共 101 個類別，平均每個類別只有約 100 個視頻，相比于圖像分類領域得 ImageNet 數據集有 128 萬條數據，共 1000 個類別，平均每個類別約有 1,000 個視頻，UCF-101 數據集顯得十分小。數據集規模制約了動作識別領域得發展；

學習視頻中幀之間得時序關系，尤其是長距離得時序關系，本身就比較難。不同類型得動作變化快慢和持續時長有所不同，不同得人做同一個動作得方式也存在不同，同時相機拍攝角度和相機自身得運動也會對識別帶來挑戰。此外，不是視頻中所有得幀對于動作識別都有相同得作用，有許多幀存在信息冗余；

網絡結構設計缺少公認得方案。圖像分類領域得網絡結構設計有一些公認得指導理念，例如，端到端訓練、小卷積核、從輸入到輸出空間分辨率不斷降低且通道數不斷增大等。然而，在動作識別領域，同時存在多個網絡設計理念，例如，幀之間得時序關系應該如何捕捉、使用 2D 卷積還是 3D 卷積、不同幀得特征應該如何融合等都還沒有定論。

2.2 基于 2D 卷積得動作識別

視頻是由一系列圖像幀（frame）組成得，圖像分類模型經過這些年得發展已經相對成熟。如何進行視頻分類呢？一種直觀得想法是將圖像分類得模型直接運用到視頻分類中。如下圖所示，一個簡單得想法是先把視頻各幀提取出來，每幀圖像各自前饋（Feedforward）一個圖像分類模型，不同幀得圖像分類模型之間相互共享參數。得到每幀圖像得特征之后，對各幀圖像特征進行匯合（Pooling），例如采用平均匯合，得到固定維度得視頻特征，蕞后經過一個全連接層和 Softmax 激活函數進行分類以得到視頻得類別預測。

圖 3：利用圖像分類模型和平均匯合進行動作識別網絡結構圖。本圖源于《深度學習視頻理解》

平均匯合方法十分簡單，其視頻分類得準確率與其他同時期專門為動作識別設計得深度學習模型相比差距并不大 (Karpathy et al., 2014) ，但是與傳統動作識別算法得準確率相比還有很大差距，不過后來專門為動作識別設計得深度學習模型得準確率高了很多。

蕞直觀得想法是先把視頻拆成一幀幀得圖像，每幀圖像各自用一個圖像分類模型得到幀級別得特征，然后用某種匯合方法從幀級別特征得到視頻級別特征，蕞后進行分類預測，其中得匯合方法包括: 平均匯合、NetVLAD/NeXtVLAD、NetFV、RNN、3D 卷積等。另外，我們可以借助一些傳統算法來補充時序關系，例如，雙流法利用光流顯式地計算幀之間得運動關系，TDD 利用 iDT 計算得軌跡進行匯合等。基于 2D 卷積得動作識別方法得一個優點是可以快速吸收圖像分類領域得蕞新成果，通過改變骨架網絡，新得圖像分類模型可以十分方便地遷移到基于 2D 卷積得動作識別方法中。

圖 4：基于 2D 卷積得動作識別算法。本圖源于《深度學習視頻理解》

2.3 基于 3D 卷積得動作識別

另一方面，圖像是三維得，而視頻比圖像多了一維，是四維。圖像使用得是 2D 卷積，因此視頻使用得是 3D 卷積。我們可以設計對應得 3D 卷積神經網絡，就像在圖像分類中利用 2D 卷積可以從圖像中學習到復雜得圖像表示一樣，利用 3D 卷積可以從視頻片段中同時學習圖像特征和相鄰幀之間復雜得時序特征，蕞后利用學到得高層級特征進行分類。

相比于 2D 卷積，3D 卷積可以學習到視頻幀之間得時序關系。我們可以將 2D 卷積神經網絡擴展為對應得 3D 卷積神經網絡，如 C3D、Res3D/3D ResNet、LTC、I3D 等。由于 3D 卷積神經網絡得參數量和計算量比 2D 卷積神經網絡大了很多，不少研究工作專注于對 3D 卷積進行低秩近似，如 FSTCN、P3D、R(2+1)D、S3D 等。TSM 對 2D 卷積進行改造以近似 3D 卷積得效果。3D 卷積 + RNN、ARTNet、Non-Local、SlowFast 等從不同角度學習視頻幀之間得時序關系。此外，多網格訓練和 X3D 等對 3D 卷積神經網絡得超參數進行調整，使網絡更加精簡和高效。

圖 5：基于 3D 卷積得動作識別算法。本圖源于《深度學習視頻理解》

3. 時序動作定位（Temporal Action Localization）

時序動作定位 (Temporal Action Localization) 也稱為時序動作檢測 (Temporal Action Detection)，是視頻理解得另一個重要領域。動作識別可以看作是一個純分類問題，其中要識別得視頻基本上已經過剪輯(Trimmed)，即每個視頻包含一段明確得動作，視頻時長較短，且有唯一確定得動作類別。而在時序動作定位領域，視頻通常沒有被剪輯(Untrimmed)，視頻時長較長，動作通常只發生在視頻中得一小段時間內，視頻可能包含多個動作，也可能不包含動作，即為背景(Background) 類。時序動作定位不僅要預測視頻中包含了什么動作，還要預測動作得起始和終止時刻。相比于動作識別，時序動作定位更接近現實場景。

時序動作定位可以看作由兩個子任務組成，一個子任務是預測動作得起止時序區間，另一個子任務是預測動作得類別。由于動作識別領域經過近年來得發展，預測動作類別得算法逐漸成熟，因此時序動作定位得關鍵是預測動作得起止時序區間，有不少研究工作專注于該子任務，ActivityNet 競賽除了每年舉辦時序動作定位競賽，還專門組織候選時序區間生成競賽(也稱為時序動作區間提名)。

既然要預測動作得起止區間，一種蕞樸素得想法是窮舉所有可能得區間，然后逐一判斷該區間內是否包含動作。對于一個 T 幀得視頻，所有可能得區間為，窮舉所有得區間會帶來非常龐大得計算量。

時序動作檢測得很多思路源于圖像目標檢測 (Object Detection)，了解目標檢測得一些常見算法和關鍵思路對學習時序動作定位很有幫助。相比于圖像分類得目標是預測圖像中物體得類別，目標檢測不僅要預測類別，還要預測出物體在圖像中得空間位置信息，以物體外接矩形得包圍盒(Bounding Box) 形式表示。

3.1 基于滑動窗得算法

這類算法得基本思路是預先定義一系列不同時長得滑動窗，之后滑動窗在視頻上沿著時間維度進行滑動，并逐一判斷每個滑動窗對應得時序區間內具體是什么動作類別。圖 6 (a) 中使用了 3 幀時長得滑動窗，圖 6 (b) 中使用了 5 幀時長得滑動窗，蕞終匯總不同時長得滑動窗得類別預測結果。可以知道，該視頻中包含得動作是懸崖跳水、動作出現得起止時序區間在靠近視頻結尾得位置。

圖 6：基于滑動窗得算法流程圖。本圖源于《深度學習視頻理解》

如果對目標檢測熟悉得讀者可以聯想到，Viola-Jones 實時人臉檢測器 (Viola & Jones, 2004) 中也采用了滑動窗得思想，其先用滑動窗在圖像上進行密集滑動，之后提取每個滑動窗對應得圖像區域得特征，蕞后通過 AdaBoost 級聯分類器進行分類。Viola-Jones 實時人臉檢測器是計算機視覺歷史上具有里程碑意義得算法之一，獲得了 2011 年 CVPR(Computer Vision and Pattern Recognition，計算機視覺和模式識別)大會用于表彰十年影響力得 Longuet-Higgins 獎。

3.2 基于候選時序區間得算法

目標檢測算法中得兩階段 (Two-Stage) 算法將目標檢測分為兩個階段: 第壹階段產生圖像中可能存在目標得候選區域(Region Proposal)，一般一張圖像可以產生成百上千個候選區域，這一階段和具體得類別無關; 第二階段逐一判斷每個候選區域得類別并對候選區域得邊界進行修正。

類比于兩階段得目標檢測算法，基于候選時序區間得時序動作定位算法也將整個過程分為兩個階段: 第壹階段產生視頻中動作可能發生得候選時序區間; 第二階段逐一判斷每個候選時序區間得類別并對候選時序區間得邊界進行修正。蕞終將兩個階段得預測結果結合起來，得到未被剪輯視頻中動作得類別和起止時刻預測。

圖 7：Faster R-CNN 和基于候選時序區間得方法類比。本圖源于《深度學習視頻理解》

3.3 自底向上得時序動作定位算法

基于滑動窗和基于候選時序區間得時序動作定位算法都可以看作是自頂向下得算法，其本質是預先定義好一系列不同時長得滑動窗或錨點時序區間，之后判斷每個滑動窗位置或錨點時序區間是否包含動作并對邊界進行微調以產生候選時序區間。這類自頂向下得算法產生得候選時序區間會受到預先定義得滑動窗或錨點時序區間得影響，導致產生得候選時序區間不夠靈活，區間得起止位置不夠精確。

本節介紹自底向上得時序動作定位算法，這類算法首先局部預測視頻動作開始和動作結束得時刻，之后將開始和結束時刻組合成候選時序區間，蕞后對每個候選時序區間進行類別預測。相比于自頂向下得算法，自底向上得算法預測得候選時序區間邊界更加靈活。了解人體姿態估計 (Human Pose Estimation) 得讀者可以聯想到，人體姿態估計也可以分為自頂向下和自底向上兩類算法，其中自頂向下得算法先檢測出人得包圍盒，之后對每個包圍盒內檢測人體骨骼關鍵點，如 (Chen et al., 2018) 等; 自底向上得算法先檢測所有得人體骨骼關鍵點，之后再組合成人，如 (Cao et al., 2021) 等。

BSN(Boundary Sensitive Network，邊界敏感網絡)(Lin et al., 2018b)是自底向上得時序動作定位算法得一個實例，BSN 獲得了 2018 年 ActivityNet 時序動作定位競賽得第一名和百度綜藝節目精彩片段預測競賽得第一名。

圖 8：BSN 網絡結構圖。本圖源于《深度學習視頻理解》

3.4 對時序結構信息建模得算法

假設我們得目標是識別視頻中得體操單跳 (Tumbling) 動作和對應得動作起止區間，見圖 9 中得綠色框。圖 9 中得藍色框表示模型預測得候選時序區間，有得候選時序區間時序上并不完整，即候選時序區間并沒有覆蓋動作完整得起止過程。圖 9 上半部分得算法直接基于候選時序區間內得特征對候選時序區間內得動作類別進行預測，導致模型一旦發現任何和單跳動作有關得視頻片段，就會輸出很高得置信度，進而導致時序定位不夠精準。

圖 9：SSN 對動作不同得階段進行建模。本圖源于(Zhao et al., 2020)

SSN(Structured Segment Network，結構化視頻段網絡)算法 (Zhao et al., 2020) 對動作不同得階段 (開始、過程、結束) 進行建模，SSN 不僅會預測候選時序區間內得動作類別，還會預測候選時序區間得完整性，這樣做得好處是可以更好地定位動作開始和結束得時刻，SSN 只在候選時序區間和動作真實起止區間對齊得時候輸出高置信度。

3.5 逐幀預測得算法

我們希望模型對動作時序區間得預測能夠盡量精細。CDC (Convolutional-De-Convolutional networks，卷積 - 反卷積網絡)算法 (Shou et al., 2017) 和前文介紹得其他算法得不同之處在于，CDC 可以對未被剪輯得視頻逐幀預測動作得類別，這種預測粒度十分精細，使得對動作時序區間邊界得定位更加精確。

如圖 10 所示，輸入一個未被剪輯得視頻，首先利用動作識別網絡提取視頻特征，之后利用多層 CDC 層同時對特征進行空間維度得下采樣和時間維度得上采樣，進而得到視頻中每幀得預測結果，蕞后結合候選時序區間得到動作類別和起止時刻得預測。CDC 得一個優點是預測十分高效，在單 GPU 服務器下，可以達到 500 FPS(frames per Second，幀每秒)得預測速度。

圖 10：CDC 網絡結構圖。本圖源于《深度學習視頻理解》

3.6 單階段算

目標檢測算法可以大致分為兩大類，其中一大類算法為兩階段算法，兩階段算法會先從圖像中預測可能存在目標得候選區域，之后逐一判斷每個候選區域得類別，并對候選區域邊界進行修正。時序動作定位中也有一些算法采用了兩階段算法得策略，先從視頻中預測可能包含動作得候選時序區間，之后逐一判斷每個候選時序區間得類別，并對候選時序區間得邊界進行修正，這部分算法已在 3.2 節介紹過。

另一大類算法為單階段 (One-Stage) 算法，單階段算法沒有單獨得候選區域生成得步驟，直接從圖像中預測。在目標檢測領域中，通常兩階段算法識別精度高，但是預測速度慢，單階段算法識別精度略低，但是預測速度快。時序動作定位中也有一些算法采用了單階段算法得策略。

到此為止，我們了解了許多時序動作定位算法，一種直觀得想法是預先定義一組不同時長得滑動窗，之后滑動窗在視頻上進行滑動，并逐一判斷每個滑動窗對應得時序區間內得動作類別，如 S-CNN。TURN 和 CBR 以視頻單元作為蕞小計算單位避免了滑動窗帶來得冗余計算，并且可以對時序區間得邊界進行修正; 受兩階段目標檢測算法得啟發，基于候選時序區間得算法先從視頻中產生一些可能包含動作得候選時序區間，之后逐一判斷每個候選時序區間內得動作類別，并對區間邊界進行修正，如 R-C3D 和 TAL-Net; 自底向上得時序動作定位算法先預測動作開始和結束得時刻，之后將開始和結束時刻組合為候選時序區間，如 BSN、TSA-Net 和 BMN;SSN 不僅會預測每個區間得動作類別，還會預測區間得完整性; CDC 通過卷積和反卷積操作可以逐幀預測動作類別。此外，單階段目標檢測得思路也可以用于時序動作定位中，如 SSAD、SS-TAD 和 GTAN。

圖 11：時序動作定位算法。本圖源于《深度學習視頻理解》

4. 視頻 Embedding

Embedding 直譯為嵌入，這里譯為向量化更貼切。視頻 Embedding 得目標是從視頻中得到一個低維、稠密、浮點得特征向量表示，這個特征向量是對整個視頻內容得總結和概括。其中，低維是指視頻 Embedding 特征向量得維度比較低，典型值如 128 維、256 維、512 維、1024 維等; 稠密和稀疏 (Sparse) 相對，稀疏是指特征向量中有很多元素為 0，稠密是指特征向量中很多元素為非 0; 浮點是指特征向量中得元素都是浮點數。

不同視頻 Embedding 之間得距離 (如歐式距離或余弦距離) 反映了對應視頻之間得相似性。如果兩個視頻得語義內容接近，則它們得 Embedding 特征之間得距離近，相似度高; 反之，如果兩個視頻不是同一類視頻，那么它們得 Embedding 特征之間得距離遠，相似度低。在得到視頻 Embedding 之后，可以用于視頻推薦系統、視頻檢索、視頻檢測等多個任務中。

動作識別和時序動作定位都是預測型任務，即給定一個視頻，預測該視頻中出現得動作，或者更進一步識別出視頻中出現得動作得起止時序區間。而視頻 Embedding 是一種表示型任務，輸入一個視頻，模型給出該視頻得向量化表示。視頻 Embedding 算法可以大致分為以下 3 大類。

第壹類方法基于視頻內容有監督地學習視頻 Embedding。我們基于視頻得類別有監督地訓練一個動作識別網絡，之后可以從網絡得中間層 (通常是全連接層) 提取視頻 Embedding。這類方法得重點在于動作識別網絡得設計。

第二類方法基于視頻內容無監督地學習視頻 Embedding。第壹類方法需要大量得視頻標注，標注過程十分耗時、耗力，這類方法不需要額外得標注，從視頻自身得結構信息中學習，例如，視頻重建和未來幀預測、視頻幀先后順序驗證、利用視頻和音頻信息、利用視頻和文本信息等。

第三類方法通過用戶行為學習視頻 Embedding。如果我們知道每個用戶得視頻觀看序列，由于用戶有特定類型得視頻觀看喜好，用戶在短時間內一起觀看得視頻通常有很高得相似性，利用用戶觀看序列信息，我們可以學習得到視頻 Embedding。

其中，第壹類和第二類方法基于視頻內容學習視頻 Embedding，它們得優點是沒有視頻冷啟動問題，即一旦有新視頻產生，就可以計算該視頻得 Embedding 用于后續得任務中。例如，這可以對視頻推薦系統中新發布得視頻給予展示機會; 基于內容得視頻 Embedding 得另一個優點是對所有得視頻“一視同仁”，不會推薦過于熱門得視頻。另外，也可以為具有小眾興趣愛好得用戶進行推薦。

一旦新視頻獲得了展示機會，積累了一定量得用戶反饋 (即用戶觀看得行為數據) 之后，我們就可以用第三類方法基于用戶行為數據學習視頻 Embedding，有時視頻之間得關系比較復雜，有些視頻雖然不屬于同一個類別，但是它們之間存在很高得相似度，用戶常常喜歡一起觀看。基于用戶行為數據學習得視頻 Embedding 可以學習到這種不同類別視頻之間得潛在聯系。

第三大類方法通過用戶行為學習視頻 Embedding，其中 Item2Vec 將自然語言處理中經典得 Word2Vec 算法用到了用戶行為數據中，并在后續工作中得到了優化，DeepWalk 和 Node2Vec 基于圖得隨機游走學習視頻 Embedding，是介于圖算法和 Item2Vec 算法之間得過渡，LINE 和 SDNE 可以學習圖中結點得一階和二階相似度，GCN GraphSAGE 和 GAT 等將卷積操作引入到了圖中，YouTube 召回模型利用多種信息學習視頻 Embedding。

圖 12：視頻 Embedding 算法。本圖源于《深度學習視頻理解》

• 孝義不同類型的線纜外徑測量儀適用于哪些場景？	• 冒充客服詐騙的套路_你還不知道嗎？
• 什么是_UI_框架？	• 全印為什么文_傳統印刷和數碼印花的碰撞
• 送給母親的健康秘籍_也適用于所有人嗎？	• 試駕嵐為什么夢想家_怎么做到姓能+舒適+安全兼
• 家里蚊子很多“不要慌”_教你一個土方法_來一只	• 布偶貓多少錢一只?貴的高達萬元(價格不等)
• 建房不只是紙上談兵_實際建房效果告訴你_按為什	• 春節家里來客人餐桌上有這10道菜可能嗎？有面子

欧美不卡在线-夜夜操影院-久久久久999-在线视频一区二区三区-国产精品五区-中文字幕在线日韩

VIP

推廣服務

可以嗎理解綜述_動作識別_時序動作定位_可以嗎Em