這篇文章跟大家分析一下“不使用BN的高性能大規模圖像識別是怎樣的”。內容詳細易懂,對“不使用BN的高性能大規模圖像識別是怎樣的”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下,希望閱讀后能夠對大家有所幫助。下面跟著小編一起深入學習“不使用BN的高性能大規模圖像識別是怎樣的”的知識吧。
創新互聯公司為客戶提供專業的網站設計、成都網站建設、程序、域名、空間一條龍服務,提供基于WEB的系統開發. 服務項目涵蓋了網頁設計、網站程序開發、WEB系統開發、微信二次開發、成都做手機網站等網站方面業務。
因此,下面重點介紹不是使用BN來構建圖像識別的卷積殘差神經網絡。但是如果沒有BN,這些網絡通常無法很好地運行或無法擴展到更大的批處理大小,但是本篇論文構建的網絡可以使用大的批次進行倫聯,并且比以前的最新方法(例如LambdaNets)更有效 。訓練時間與準確率如下圖表顯示,對于在ImageNet上進行的相同的top-1準確性評分,NFnet比EffNet-B7快8.7倍。此模型是沒有任何其他培訓數據的最新技術,也是新的最新遷移學習。NFnets目前在全球排行榜上排名第二,僅次于使用半監督預訓練和額外數據的方法。
如果一個數據通過網絡進行傳播,它在經過各個層時將經歷各種轉換,但是,如果以錯誤的方式構建網絡,這種傳播就變得錯上加錯。在機器學習中,將數據集中在平均值周圍,并將其縮放為單位變量是一個很好的做法,但當你在層中前進時,特別是如果你有像ReLU這樣的激活層,它們只提取信號的正部分。因此隨著時間的流逝,更深一層之間的中間表示可能會非常偏斜并且沒有居中。如果您的數據具有良好的條件數(即,以均值為中心,不太偏斜等),則當前機器學習中的方法會更好地工作。
BN有3個顯著的缺點。首先,它是一個非常昂貴的計算,這會導致內存開銷。你需要計算平均值,縮放需要將它們存儲在內存中用于反向傳播算法。這增加了在某些網絡中評估梯度所需的時間。
其次,它在模型訓練和在推理時引入了一個差異的行為。因為在推理時你不想要這種批依賴,二十希望能夠適配一個數據點,并且這兩種操做的結果應該是相同的。
第三,BN打破了小批量訓練實例之間的獨立性。這意味著,現在批處理中哪些其他示例很重要。
這有兩個主要后果。首先,批大小將影響批規范化。如果你有一個小批量,平均值將是一個非常有噪聲的近似,然而,如果你有一個大批量,平均值將是一個很好的近似。我們知道對于一些應用來說大批量的訓練是有利的,他們穩定了培訓,減少了培訓時間等。
其次,分布式訓練變得非常麻煩,因為例如,如果你的數據并行性,也就是說,你有這批數據批處理分為三個不同的部分,這三個部分向前傳播到所有的神經網絡用于3個不同的機器上的訓練。如果在所有3個網絡中都有一個BN層,那么您在技術上要做的就是將信號轉發到BN層,然后您必須在BN層之間傳遞批處理統計信息,因為否則 在整個批次中沒有平均值和方差。這使網絡可以“欺騙”某些損失函數。
作者提出了自適應梯度裁剪(AGC),該方法基于梯度范數與參數范數的單位比例來裁剪梯度,他們證明了AGC允許我們訓練具有更大批處理量和更強大數據增強功能的無規范化網絡。
作者設計了一個稱為NFNet的無規范化ResNet系列,該系列在ImageNet上針對各種訓練等待時間設置了最好的驗證精度。NFNet-F1模型達到與EfficientNet-B7相似的精度,同時訓練速度提高了8.7倍,最大的模型在沒有額外數據的情況下,設定了一個全新的高度(86.5% top-1精度)。
作者還提到,在對3億張帶有標簽的大型私有數據集進行預訓練后,對ImageNet進行微調時,NFNet與批歸一化網絡相比,其驗證準確率要高得多。最佳模型經過微調后可達到89.2%的top-1
梯度裁剪通常用于語言建模以穩定訓練,最近的工作表明,與梯度下降相比,它允許有更大的學習率的訓練。梯度裁剪通常是通過約束梯度的模來實現的。具體來說,對于梯度向量G =?L/?θ,其中L表示損失,θ表示包含所有模型參數的向量,標準裁剪算法在更新θ之前對梯度進行裁剪:
在訓練過程中,優化器為了達到全局最小值而進行巨大的跳躍并不是一件很好的事情,所以梯度剪切只是說,無論何時任何參數的梯度非常大,我們都會剪切該梯度。如果梯度是好的,我們肯定會再次看到它,但如果梯度是壞的,我們想要限制它的影響。問題在于它對限幅參數λ非常敏感,原因是它不具有自適應性。
AGC所做的是,它可以縮放漸變,不僅可以將漸變縮放到其自己的范數,還可以將漸變裁剪為比率(漸變的大小/漸變所作用的權重是多少)。乍一看可能會有些困惑,詳細請看論文第4頁,以更清晰地理解AGC。
剪切閾值λ是必須調整的標量超參數。根據經驗,作者發現,雖然這種削波算法使他們能夠以比以前更高的批次大小進行訓練,但是訓練穩定性對削波閾值的選擇極為敏感,在改變模型深度、批大小或學習速率時需要細粒度調整。作者通過選擇與梯度范數成反比的自適應學習速率來忽略梯度的比例。
注意,最優剪切參數λ可能取決于優化器的選擇,學習率和批大小。根據經驗作者發現對于大批量生產λ應該更小。
例如,如果你比較圖1中的批規范網絡(NF-ResNet和NF-ResNet + AGC),你可以看到在一定的批大小(2048)之后,非AGC會簡單地崩潰,而AGC會占上風。這似乎是大批量生產的隱藏問題。作者抱怨說λ的剪切閾值是非常挑剔的。在圖2中,你可以看到λ對批大小有一個至關重要的依賴,另外上圖顯示在小批次大小下,可以在相當大的閾值上進行剪切。對于大批量,必須將閾值保持在非常低的水平,因為如果將閾值修剪得更高則會崩潰。
關于不使用BN的高性能大規模圖像識別是怎樣的就分享到這里啦,希望上述內容能夠讓大家有所提升。如果想要學習更多知識,請大家多多留意小編的更新。謝謝大家關注一下創新互聯網站!
文章名稱:不使用BN的高性能大規模圖像識別是怎樣的
標題路徑:http://vcdvsql.cn/article30/phojpo.html
成都網站建設公司_創新互聯,為您提供建站公司、做網站、網站策劃、定制開發、關鍵詞優化、品牌網站設計
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯