自哥本哈根氣候會議之后,全球日益關注氣候變化和溫室效應等問題,并于會后建立了全球碳交易市場,分階段分批次減碳。本實驗獲取了美國 1979 - 2011 年間 NASA 等機構對美國各地日均最高氣溫、降雨量等數據,研究及可視化了氣候相關指標的變化規律及相互關系。
成都創新互聯公司于2013年創立,先為新和等服務建站,新和等地企業,進行企業商務咨詢服務。為新和企業網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。
輸入并執行魔法命令 %matplotlib inline, 并去除圖例邊框。
數據集介紹:
本數據集特征包括美國 49 個州(State),各州所在的地區(Region),統計年(Year),統計月(Month),平均光照(Avg Daily Sunlight),日均最大空氣溫度(Avg Daily Max Air Temperature ),日均最大熱指數(Avg Daily Max Heat Index ),日均降雨量(Avg Daily Precipitation ),日均地表溫度(Avg Day Land Surface Temperature)。
各特征的年度區間為:
導入數據并查看前 5 行。
篩選美國各大區域的主要氣候指數,通過 sns.distplot 接口繪制指數的分布圖。
從運行結果可知:
光照能量密度(Sunlight),美國全境各地區分布趨勢大致相同,均存在較為明顯的兩個峰(強光照和弱光照)。這是因為非赤道國家受地球公轉影響,四季光照強度會呈現出一定的周期變化規律;
從地理區位能看出,東北部光照低谷明顯低于其他三個區域;
日均最高空氣溫度(Max Air Temperature),美國全境各地區表現出較大差異,東北部和中西部趨勢大致相同,氣溫平緩期較長,且包含一個顯著的尖峰;西部地區平緩期最長,全年最高溫均相對穩定;南部分布則相對更為集中;
日均地表溫度(Land Surface Temperature),與最高空氣溫度類似,不同之處在于其低溫區分布更少;
最大熱指數(Max Heat Index),西部與中西部分布較為一致,偏溫和性溫度,東北部熱指數偏高,南部偏低;
降雨量(Precipitation),西部明顯偏小,南部與東北部大致相同,中西部相對較多。
結合地理知識做一個總結:
東北部及大多數中西部地區,屬于溫帶大陸性氣候,四季分明,夏季悶熱,降雨較多。
西部屬于溫帶地中海氣候,全年氣候溫和,并且干燥少雨,夏季氣候溫和,最高溫度相對穩定。
南部沿海一帶,終年氣候溫暖,夏季炎熱,雨水充沛。
按月計算美國各地區降雨量均值及標準偏差,以均值 ± 一倍標準偏差繪制各地區降雨量誤差線圖。
從運行結果可知:
在大多數夏季月份,西部地區降雨量遠小于其他地區;
西部地區冬季月降雨量高于夏季月;
中西部地區是較為典型的溫帶大陸性氣候,秋冬降雨逐漸減少,春夏降雨逐漸升高;
南部地區偏向海洋性氣候,全年降雨量相對平均。
需要安裝joypy包。
日均最高氣溫變化趨勢
通過 joypy 包的 joyplot 接口,可以繪制帶堆積效應的直方分布曲線,將 1980 年 - 2008 年的日均最高溫度按每隔 4 年的方式繪制其分布圖,并標注 25%、75% 分位數。
從運行結果可知:
1980 - 2008 年區間,美國全境日均最高溫度分布的低溫區正逐漸升高,同時高溫區正逐漸降低,分布更趨向于集中;
1980 - 2008 年區間,美國全境日均最高溫度的 25% 分位數和 75% 分位數有少量偏離但并不明顯。
日均降雨量變化趨勢
同樣的方式對降雨量數據進行處理并查看輸出結果。
篩選出加州和紐約州的日均降雨量數據,通過 plt.hist 接口繪制降雨量各月的分布圖。
從運行結果可知:
加州地區降雨量多集中在 0 - 1 mm 區間,很少出現大雨,相比而言,紐約州則顯得雨量充沛,日均降雨量分布在 2 - 4 mm 區間。
直方圖在堆積效應下會被覆蓋大多數細節,同時表達聚合、離散效應的箱線圖在此類問題上或許是更好的選擇。
通過 sns.boxplot 接口繪制加州和紐約州全年各月降雨量分布箱線圖.
從箱線圖上,我們可以清晰地對比每個月兩個州的降雨量分布,既可以看到集中程度,例如七月的加州降雨量集中在 0.1 - 0.5 mm 的窄區間,說明此時很少會有大雨;又可以看到離散情況,例如一月的加州,箱線圖箱子(box)部分分布較寬,且上方 10 mm 左右存在一個離散點,說明此時的加州可能偶爾地會出現大到暴雨。
視覺上更為美觀且簡約的是擺動的誤差線圖,實驗 「美國全境降雨量月度分布」 將所有類別標簽的 x 位置均放于同一處,導致誤差線高度重合。可通過調節 x 坐標位置將需要對比的序列緊湊排布。
從輸出結果可以看出,加州冬季的降雨量不確定更強,每年的的十一月至次年的三月,存在降雨量大,且降雨量存在忽多忽少的現象(誤差線長)。
上面的實驗均在研究單變量的分布,但經常性地,我們希望知道任意兩個變量的聯合分布有怎樣的特征。
核密度估計 , 是研究此類問題的主要方式之一, sns.kdeplot 接口通過高斯核函數計算兩變量的核密度函數并以等高線的形式繪制核密度。
從運行結果可知:
加州在高溫區和低降雨期存在一個較為明顯的高密度分布區(高溫少雨的夏季);
紐約州在高溫及低溫區均存在一個高密度的分布區,且在不同溫區降雨量分布都較為均勻。
將美國全境的降雨量與空氣溫度通過 plt.hist2d 接口可視化。
從運行結果可知:
美國全境最高密度的日均高溫溫度區域和降雨量區間分別為,78 F (約等于 25 C)和 2.2 mm 左右,屬于相對舒適的生活氣候區間。
美國全境降雨量與空氣溫度的關系-核密度估計
在上面實驗基礎上,在 x, y 軸上分別通過 sns.rugplot 接口繪制核密度估計的一維分布圖,可在一張繪圖平面上同時獲取聯合分布和單變量分布的特征。
美國全境降雨量與空氣溫度的關系-散點分布和直方分布
sns.jointplot 接口通過柵格的形式,將單變量分布用子圖的形式進行分別繪制,同時通過散點圖進行雙變量關系的展示,也是一種較好的展現數據分布的方式。
上面兩個實驗研究了雙變量分布的可視化,以下研究 3 變量聚合結果的可視化。
通過 sns.heatmap 接口可實現對透視數據的可視化,其原理是對透視結果的值賦予不同的顏色塊,以可視化其值的大小,并通過顏色條工具量化其值大小。
上面的兩個實驗可視化了各州隨年份日均最高溫度的中位數變化趨勢,從圖中并未看出有較為顯著地變化。
以下通過 t 檢驗的方式查看統計量是否有顯著性差異。stats.ttest_ind 接口可以輸出 1980 年 與 2010 年主要氣候指數的顯著性檢驗統計量及 p 值。
從運行結果可以看出:
檢驗結果拒絕了降雨量相等的原假設,即 1980 年 與 2010 年兩年間,美國降雨量是不同的,同時沒有拒絕日均日照、日均最大氣溫兩個變量相等的原假設,說明氣溫未發生顯著性變化。
kde(kernel density estimation)是核密度估計。核的作用是根據離散采樣,估計連續密度分布。
如果原始采樣是《陰陽師》里的式神,那么kernel(核函數)就相當于御魂。
假設現在有一系列離散變量X = [4, 5, 5, 6, 12, 14, 15, 15, 16, 17],可見5和15的概率密度應該要高一些,但具體有多高呢?有沒有三四層樓那么高,有沒有華萊士高?如果要估計的是沒有出現過的3呢?這就要自己判斷了。
核函數就是給空間的每個離散點都套上一個連續分布。最簡單的核函數是Parzen窗,類似一個方波:
這時候單個離散點就可以變成區間,空間或者高維空間下的超立方,實質上是進行了升維。
設h=4,則3的概率密度為:
(只有4對應的核函數為1,其他皆為0)
kernel是非負實值對稱可積函數,表示為K,且一本滿足:
這樣才能保證cdf仍為1。
實際上應用最多的是高斯核函數(Gaussian Kernel),也就是標準正態分布。所謂核密度估計就是把所有離散點的核函數加起來,得到整體的概率密度分布。核密度估計在很多機器學習算法中都有應用,比如K近鄰、K平均等。
在支持向量機里,也有“核”的概念,同樣也是給數據升維,最常用的還是高斯核函數,也叫徑向基函數(Radial Basis Funtion)。
seaborn.kdeplot內置了多種kerne,總有一款適合你。
pairplot函數。7在python中快速瀏覽數據集調用pairplot函數,此函數使用散點圖和直方圖,還可以在非對角線上繪制回歸圖,在對角線上繪制核密度估計圖。
文章標題:python核密度函數 python 概率密度函數
文章位置:http://vcdvsql.cn/article8/hpjoop.html
成都網站建設公司_創新互聯,為您提供做網站、域名注冊、網站制作、網站排名、軟件開發、商城網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯