早在2016年,我用我的 阿里云ECS上運行了一個長期性質的爬蟲程序,內容是采集風云二號氣象衛(wèi)星照片,現(xiàn)在假期終于有時間回來查看結果,簡單統(tǒng)計如下(附圖):
成都創(chuàng)新互聯(lián)公司成立于2013年,是專業(yè)互聯(lián)網技術服務公司,擁有項目成都網站設計、網站建設網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元漢南做網站,已為上家服務,為漢南各地企業(yè)和個人服務,聯(lián)系電話:13518219792圖片總數:45869 個文件
最早文件:201609131345.jpg
最晚文件:201910091415.jpg
1,數據源:
當時意外獲得一個長期有效的數據來源,其URL參數,為時間格式,也就是說有著明顯的規(guī)律。適合爬蟲運行
2,爬蟲運行:
這個爬蟲的運行條件其實有2個:1定時下載;2不停機運行;
既然是氣象數據,當然得定時抓取,所以我寫了一個windows服務,置于后臺連續(xù)運行。雖然中間由于服務器其他問題導致中斷過幾次,不過架不住時間長久,因此還是成功連續(xù)采集了很多數據。
還有個要求就是不能關機,程序需要連續(xù)運行。我的最終方案就是使用 云服務器ECS部署運行。避免使用個人PC長期開機來運行。
3,處理存儲:
首先,這個程序既然要長期運行,那么非常避諱的一點就是所有結果都集中在一個本地文件夾里,因此我選用了阿里云對象存儲OSS,同時由于我需要不關機,所以我最終是 云服務器ECS+ 對象存儲OSS,ECS和OSS使用了同地域的,因此內網打通傳輸很快。這樣我就只在本地做一個臨時存儲,轉存OSS后不再占用本地硬盤,這樣一來我才可以放心啟動后“免維護”運行這好幾年。
4,爬蟲關停
爬蟲的關停并非我本意,是我假期期間查看日志才知道數據源已經失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效數據源,但是由于老數據我都沒用好,那么新的數據就暫時先不去尋找了。
我選用了阿里云推薦的OSS客戶端工具,由于我提前規(guī)劃好了ECS和OSS同地域,因此可以直接內網下載到我的ECS,速度還是很快的,工具顯示大于60MB/s。工具部分截圖如圖:
為了避免OSS公網下載流量的費用支出(其實是窮:直接下載6G大小文件,忙時價格為1塊5毛錢),我將OSS數據內網下載后,走ECS的出帶寬下載回我PC本地。本地查看:
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新編輯依此鏈接為準。歡迎關注源站原創(chuàng)文章!
分享名稱:爬蟲分享風云2號衛(wèi)星氣象照片-創(chuàng)新互聯(lián)
文章位置:http://vcdvsql.cn/article4/hchoe.html
成都網站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網站建設、品牌網站制作、靜態(tài)網站、企業(yè)網站制作、移動網站建設、企業(yè)建站
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)