這篇文章給大家分享的是有關python爬蟲中js反爬的示例分析的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
網站建設哪家好,找創新互聯!專注于網頁設計、網站建設、微信開發、微信平臺小程序開發、集團企業網站建設等服務項目。為回饋新老客戶創新互聯還提供了文山州免費建站歡迎大家使用!目標網站
列表頁url: http://www.hnrexian.com/archives/category/jk。
正常網站我們請求url會返回給我們網頁數據內容等,看看這個網站返回給我們的是什么呢?
我們把相應中返回的js代碼格式化一下,方便查看。
< script type = "text/javascript" > function stringToHex(str) { var val = ""; for (var i = 0; i < str.length; i++) { if (val == "") val = str.charCodeAt(i).toString(16); else val += str.charCodeAt(i).toString(16); } return val; } function YunSuoAutoJump() { var width = screen.width; var height = screen.height; var screendate = width + "," + height; var curlocation = window.location.href; if ( - 1 == curlocation.indexOf("security_verify_")) { document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;"; } self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate); } < /script> <script>setTimeout("YunSuoAutoJump()", 50);</script >
說好的返回網頁數據源碼呢,這是什么東西!
js破解思路
js破解提供兩種思路,一種是直接用Python來重寫js內容,實現模擬js的操作,這種一般用于比較簡單的js;還有一種是用Python第三方庫來解析js,比如pyv8,execjs這些(個人覺得execjs比較好用),這種一般用于比較復雜的js解析。
分析返回的js分成兩個部分。第一部分,定義了stringToHex和YunSuoAutoJump兩個函數。第二部分,50毫秒后執行YunSuoAutoJump這個函數。
YunSuoAutoJump這個函數功能是添加一個cookie并去請求一個構造的url,可以從document.cookie 和 self.location這里看出。stringToHex這個函數的共能其實就是字符串的轉換,具體js內容可以參考這個網址https://www.runoob.com/js/js-tutorial.html自行查找。
python重寫代碼
那么接下來就是用python來重寫js啦,重寫后代碼如下。
def stringToHex(string): length = len(string) hex_string = str() for i in xrange(length): hex_string += hex(ord(string[i]))[2:] return hex_string def get_cookie(url): hex_string = stringToHex(url) cookie = {"srcurl": hex_string, "path": "/"} return cookie
這是那兩個函數,一個用于字符串轉換,一個用于獲取cookie。
最后拿到結果
接下來模擬瀏覽器操作,其中是分為三部分。第一次,我們請求目標url,然后返回給我們js內容;第二次,js添加1個cookie并請求了1個構造出的url;第三次請求原目標url,得到最終的數據。
這里我們用requests.Session來保持連接,模擬上面三部的內容。
url = "http://www.hnrexian.com/archives/category/jk" s = requests.Session() r = s.get(url) url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0] screen_date = "1920,1080" url_2 = url_2 + stringToHex(screen_date) url_2 = urljoin(url, url_2) cookie = get_cookie(url) s.cookies.update(cookie) r2 = s.get(url_2) url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0] r3 = s.get(url3) r3.encoding = "gbk" print r3.text
到這里我們就完美得到最后想要的內容了。
感謝各位的閱讀!關于“python爬蟲中js反爬的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
新聞標題:python爬蟲中js反爬的示例分析-創新互聯
標題URL:http://vcdvsql.cn/article10/diopgo.html
成都網站建設公司_創新互聯,為您提供域名注冊、移動網站建設、網站收錄、靜態網站、網站營銷、服務器托管
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯