bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

深度學習“深度”有什么意義?

深度學習的”深度”, 早幾年討論的挺多的,身邊有不同的理解:深度=更大規(guī)模的網(wǎng)絡,也有認為:深度=更抽象的特征,近年來物理上也有人側(cè)面顯示:深度=玻璃相轉(zhuǎn)變,如果后者的觀點成立,那么僅僅引入GPU甚至FPGA硬件的目的只是加快, 沒有算法的幫助(調(diào)參也算一種算法,后面會解釋)是不會加深的!(注:等號表示強關系,不表示等價)

吐魯番ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應用場景,ssl證書未來市場廣闊!成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18982081108(備注:SSL證書合作)期待與您的合作!

度量”深“

這個”深“同復雜度的聯(lián)系是很緊密的。神經(jīng)網(wǎng)絡的復雜度,我們可以使用層數(shù),神經(jīng)元數(shù)目,或者連接權重數(shù)目作為度量。相對的,數(shù)據(jù)本身的復雜度,我們用帶標簽的數(shù)據(jù)的比例和不帶標簽的數(shù)據(jù)的比例來衡量。

深度=規(guī)模網(wǎng)絡復雜性同分類誤差之間的聯(lián)系

70-90年代關于神經(jīng)網(wǎng)絡的數(shù)學結論可謂多如牛毛,基本上很多討論了規(guī)模和泛化之間的關系,尤其是分類問題,關于分類的訓練誤差和測試誤差(泛化能力),基本上歸結為幾個基本要求和限制:

模型要多復雜: 增加復雜度總是能擬合好訓練樣本,而要獲得良好的泛化能力,普遍認為復雜度應該為訓練數(shù)據(jù)數(shù)目的某種冪次,才能有較好的泛化能力。而且冪次要求小于1,若不然,每增加一個訓練樣本,都必須要擴充網(wǎng)絡,這種模型沒有任何實際意義。謝天謝地,神經(jīng)網(wǎng)絡可以滿足這個要求,參考文獻3。 要多少訓練數(shù)據(jù):如果網(wǎng)絡節(jié)點數(shù)為 N,連接權重數(shù)為W,那么泛化誤差小于任意指定值ε 的一個合理的要求便是: 訓練數(shù)據(jù)的數(shù)目 >(W/ε)Log(N/ε),這說明復雜的模型需要更多的訓練以獲得優(yōu)秀的泛化能力!事實上,不斷提高數(shù)據(jù)量,多層感知器模型也能達到目前深度學習的水平(參考文獻2),認為深度學習=普通多層神經(jīng)網(wǎng)絡,的確有現(xiàn)實的理由。 奧卡姆剃刀疑惑:理論上,帶一層隱藏層的核基神經(jīng)網(wǎng)絡可以將任意數(shù)據(jù)擬合好(理解為級數(shù)展開,每個項就是一個隱藏神經(jīng)元),那么提高復雜度的作用是啥?無法爭辯的事實是,數(shù)據(jù)量足夠高以后,簡單的分類器都能給出優(yōu)秀的結果。關于這一點從相變角度能解釋為何需要實際工程需要一個“過度復雜的網(wǎng)絡”,而不是一個大小“剛剛好的”網(wǎng)絡。 復雜的代價:一個基本的定理測試誤差 >= 訓練誤差 + 模型復雜度,過度復雜的代價便是過擬合。防止過擬合的方法沒有通論,業(yè)界通稱“黑魔法”。

上面4點告訴我們的表象是,針對靜態(tài)非時序分類問題,我們貌似可以不要高大上的算法,只要數(shù)據(jù)量足夠,網(wǎng)絡足夠復雜,機器夠大,速度夠快,懂點“黑魔法”,在現(xiàn)在的工業(yè)界的數(shù)據(jù)量和模型通常都是用億來衡量其規(guī)模的時代,此乃現(xiàn)世王道。

深度=更多抽象特征?一連串問題來了,何為特征?何為好的特征?深度學習的特征為何被稱為抽象的?多層和抽象的關系是啥?

特征=函數(shù)展開的基函數(shù)?數(shù)學上將基函數(shù)理解成特征是可以的,當然不必要完備,也不必要正交。比如下圖,圖片特征提取,稀疏編碼就是在一堆特征當中尋找最少且擬合最好的特征組,前提假設是圖片都可以被分解為這些特征的線性疊加。然而前提要求分解仍然是線性的,使得機器上好計算,但是實際問題需要的特征通常是不同類型的組合,強行線性組合就像是吃正宗粵菜的時候來個山東煎餅果子一樣。(圖取自吳恩達的slide)

特征=低維流形嵌入

產(chǎn)生成千上萬個沒經(jīng)驗證的特征總是容易的,但去除冗余特征,也就是去掉那些添不添加都不影響結果的特征,就需要相當?shù)募记伞R环N便是通過低維流形去尋找最重要的結構,這種方法可以利用多層自編碼去逐層壓縮維度,也可以用傳統(tǒng)多層神經(jīng)網(wǎng)絡+Isomap類似的方法一步到位地壓縮維度,然后不斷調(diào)整使得嵌入低維的數(shù)據(jù)點“互相分離的最遠”。由于數(shù)據(jù)點靠的近表示相似,故此這種方法能將數(shù)據(jù)本身的平移旋轉(zhuǎn)按順序嵌入到每塊低維子流形當中。反過來說,如果訓練數(shù)據(jù)已經(jīng)包含有其本身的旋轉(zhuǎn)平移,其低維子流形將會被填充得“更加的豐滿”(如綠色的圓圈,因為手寫數(shù)字1無論如何寫都是“ |” 的某種旋轉(zhuǎn)拉伸),其低維的邊界就更容易被發(fā)現(xiàn)。然而這種方法是假設數(shù)據(jù)的可解釋性隱藏在其低維流形結構上,難免讓人費解,而且不同標簽的嵌入子流形能否被充分分離也是非常困難的事情。(參考G.E.Hinton 06年 nature, Y LeCun,etc)

特征=數(shù)據(jù)拓撲?似乎研究訓練數(shù)據(jù)本身復雜性的不多,都強調(diào)模型對數(shù)據(jù)的解釋能力。實際上,不論任何數(shù)據(jù),任何奇怪的類型,拓撲都是比人設模型更泛的工具。不少人直觀認為拓撲學的概括性過強,用作特征沒法表示數(shù)據(jù)的內(nèi)稟結構。其實不然,目前比較火的,如代數(shù)拓撲里面有個Persistent homology,其對數(shù)據(jù)主要特征如此敏感,甚至可以用來當作蛋白質(zhì)結構的拓撲指紋,有數(shù)學家通過這些指紋,甚至發(fā)現(xiàn)一些蛋白數(shù)據(jù)庫的結構錯誤。(參考文獻4,5) 是特征提升“深度”,還是“深度”提升特征

深度=玻璃相轉(zhuǎn)變?何為玻璃相?它對泛化誤差的影響是啥?

,作為區(qū)分兩種狀態(tài)的詞,有個非常現(xiàn)實和直觀的影響便是,外部條件不變的話,從一種相跨到另一種相是有很大難度的!比如水在低溫會結冰,同樣條件,讓水不結冰的概率,雖然按照玻爾茲曼分布來看并非為零,過冷水便是一例。但這種狀態(tài)是非常不穩(wěn)定的,一旦擾動很快就變成冰,不可能回到液體。 相變過程=搜索能量最小點,這是一個粗淺的理解,在給定條件下(比如溫度T),相變就是從能量高的狀態(tài)(低溫水)找到能量低的狀態(tài)(冰)。但是該過程不是直線式的下陂過程,期間要翻過一些很小的山頭,描述這些小山頭的阻礙我們用一個正的能量壘ΔE

來表示。其阻礙時間按照阿倫尼烏斯的觀點,正比于N*E^(ΔE/T),指數(shù)型的拖延。前面的參數(shù)N用來形容山頭的多寡。 玻璃相。假設這些小山頭不是一個,而是體系自由度的指數(shù),雖然每個山頭的高度不高,累計的阻礙仍然非常可觀,甚至嚴重影響你尋找最小能量態(tài)的可能性,進入這種像踩到瀝青的區(qū)域,我們用玻璃相來形容。如下圖,比如蛋白質(zhì)折疊的能量漏斗模型(能量landscape),從計算機模擬上來看,穿過玻璃轉(zhuǎn)變區(qū)(glass transition)進入能量最小值是最消耗時間的一個區(qū)域。這個過程硬件提速固然重要,但是并行加速是線性的提高,只解決空間復雜,不解決時間復雜!玻璃區(qū)域是包含有時間復雜的,一旦規(guī)模巨大后,沒有算法技巧,尋找能量最低點,在這種非凸的模型上,基本無望。

玻璃世界的山頭類型,這里的山頭不僅包括語義上的山,也包括低谷。數(shù)學上嚴格描述應該理解為梯度為零的點,梯度為零的點有兩種,鞍點和極值點。梯度下降法中,鞍點總是可以找到出路的,到了極小點就無望了。物理上,鞍點數(shù)目可能會隨著能量不斷下降而慢慢轉(zhuǎn)換成極小點,如下圖便是Lennard-Jones液固轉(zhuǎn)變的模擬計算(文獻7),y軸描述鞍點數(shù)目,系統(tǒng)還沒到達最小能量(變成固體)就被包圍在一堆極小值附近了,這時候采用梯度下降搜索萬億年都是徒勞的。然而這也告訴我們一個希望,沒必要擔心局部極小,因為一旦到了真正的局部極小,也非常接近最小值了,畢竟大部分區(qū)域都是被鞍點割據(jù)著。

智能是非凸的過程!這是一個非常老的觀點,按照早期的計算能力來看,可想而知地不受歡迎。任何訓練都是在最小化某個損失函數(shù)L(W)

或叫能量函數(shù)也可。Y LeCun(文獻6)等人近來研究的觀點顯示,多層卷積神經(jīng)網(wǎng)絡的損失函數(shù)雖然是非凸的,但是阻礙其通向最優(yōu)點的山頭屬鞍點居多,是鞍點意味著總是可以找到出路。但是小index的鞍點阻礙能力甚高,而且隨機矩陣理論和模擬顯示,神經(jīng)網(wǎng)絡在一定能量以上的某個區(qū)域全都是這類鞍點,非常類似物理上的Lennard-Jones液固轉(zhuǎn)變過程,這也能理解為何訓練一個神經(jīng)網(wǎng)絡會慢慢開始黏在一個區(qū)域不動,這個區(qū)域的鞍點山頭阻礙都十分可怕(參考8)。(下圖y軸描述鞍點數(shù),橫軸就是損失函數(shù),第4張圖說明能量高到一定程度,鞍點都會消失)

深度=跨越玻璃相?這里要給個問號,畢竟目前理論都不是在真實工業(yè)界的模型下計算出來的,像是一個猜測想法是既然訓練存在玻璃阻礙,為何不一開始就把系統(tǒng)初始化到鞍點盡量少的區(qū)域可惜在高維空間判斷鞍點少的區(qū)域是個十分復雜的問題。但是我們可以降低維度去判斷,比如引入少量外部控制變量—序參數(shù)(權重的平方和,類似SVM中的間隔,輸入層的偏置,無標簽/有標簽數(shù)據(jù)數(shù)目等),然后約束這些序參數(shù),按照某種權重平均掉這些鞍點Wi的貢獻(重要性抽樣說明這約等于將所有W積掉)。由于鞍點多的地方貢獻相對大,序參數(shù)調(diào)整不好會導致平均結果同其它區(qū)域有明顯不同,因此可以用來判斷相區(qū)。如下圖,log(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標簽樣本的數(shù)目,α表示有標簽樣本數(shù)。不同顏色的線是不同偏置,藍色線的偏置最小。不論那條顏色的線,增大無標簽的樣本原則上可以降低誤差,但是理論上存在“相區(qū)”,如藍色線的上半支和下半支,中間不穩(wěn)定,難以逗留長時間,會存在一支相的誤差一直無法下降。它卡住了!

預訓練能加深!有了控制變量我們可以通過調(diào)整這些值,將損失函數(shù)拖到感興趣的區(qū)域,從而回避相的影響,這個拖動過程由一個日本人今年的研究表明(文獻9),就是無標簽的預訓練!如下圖,預訓練越多,有標簽的調(diào)優(yōu)能越早找到最小值區(qū)域!(log(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標簽樣本的數(shù)目,α表示有標簽樣本數(shù),預訓練是RBM之流,激活函數(shù)是ReLu)

不止有預訓練?雖然相的觀點仍然說明這只是一個初始化“黑魔法”而已。但這個步驟確確實實在削弱玻璃相區(qū)的阻礙。因此本人也有個臆測,加大規(guī)模,加大樣本,提取深層特征的深度學習是跨越相一個表面技巧而已!或許我們能找到一種跨越或者回避相區(qū)的通用方法,一旦達到此目的,由此獲得的特征或者才是真正的內(nèi)稟表示。

當前標題:深度學習“深度”有什么意義?
標題來源:http://vcdvsql.cn/article36/sdpopg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作定制開發(fā)做網(wǎng)站網(wǎng)站設計公司App開發(fā)網(wǎng)頁設計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設計公司