這篇文章主要講解了用python寫爬蟲難嗎,內容清晰明了,對此有興趣的小伙伴可以學習一下,相信大家閱讀完之后會有幫助。
所謂網絡爬蟲,通俗的講,就是通過向我們需要的URL發出http請求,獲取該URL對應的http報文主體內容,之后提取該報文主體中我們所需要的信息。
下面是一個簡單的爬蟲程序
http基本知識
當我們通過瀏覽器訪問指定的URL時,需要遵守http協議。本節將介紹一些關于http的基礎知識。
http基本流程
我們打開一個網頁的過程,就是一次http請求的過程。這個過程中,我們自己的主機充當著客戶機的作用,而充當客戶端的是瀏覽器。我們輸入的URL對應著網絡中某臺服務器上面的資源,服務器接收到客戶端發出的http請求之后,會給客戶端一個響應,響應的內容就是請求的URL對應的內容,當客戶端接收到服務器的響應時,我們就可以在瀏覽器上看見請求的信息了。
我們可以通過python的requests模塊很方便的發起http請求。requests模塊是第三方模塊,安裝完成之后直接import就能使用。下面介紹一些簡單的用法
發起請求
import requests # 請求的首部信息 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36' } # 例子的url url = 'https://voice.hupu.com/nba' # 虎撲nba新聞 # 利用requests對象的get方法,對指定的url發起請求 # 該方法會返回一個Response對象 res = requests.get(url, headers=headers) # 通過Response對象的text方法獲取網頁的文本信息 print(res.text)
網站名稱:用python寫爬蟲難嗎-創新互聯
瀏覽地址:http://vcdvsql.cn/article24/dchoje.html
成都網站建設公司_創新互聯,為您提供服務器托管、靜態網站、網站建設、定制網站、網站改版、企業建站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯