今天一起學起使用selenium和pyquery爬取京東的商品列表。本文的所有代碼是在pycharm IDE中完成的,操作系統window 10。
我們提供的服務有:成都網站建設、成都做網站、微信公眾號開發、網站優化、網站認證、肅南裕固族自治ssl等。為上千家企事業單位解決了網站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的肅南裕固族自治網站制作公司1、準備工作
安裝pyquery和selenium類庫。依次點擊file->settings,會彈出如下的界面:
然后依次點擊:project->project Interpreter->"+",,如上圖的紅色框所示。然后會彈出下面的界面:
輸入selenium,在結果列表中選中“selenium”,點擊“install package”按鈕安裝selenium類庫。pyquery也是一樣的安裝方法。
安裝chrome和chrome driver插件。chrome dirver插件下載地址:http://npm.taobao.org/mirrors/chromedriver/。 切記chrome和chrome dirver的版本要一致。我的chrome版本是70,對應chrome driver是2.44,2.43,2.42。
下載chrome driver解壓后,將exe文件拷貝到pycharm開發空間的Scripts文件夾中:
2、分析要爬取的頁面
這次是爬取京東圖書中計算機書籍類書籍的信息。
打開chrome,打開開發者工具,輸入www.jd.com,分析查詢輸入框和查詢按鈕的css代碼:
通過分析發現,搜索框的css代碼是id=“key”,查詢按鈕的css代碼是class=“button”。下面是使用selenium調用chrome瀏覽器在搜索框輸入關鍵詞“計算機書籍”并點擊查詢按鈕出發查詢請求的代碼:
from selenium import webdriver from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from pyquery import PyQuery as pq #通過Chrome()方法打開chrome瀏覽器 browser = webdriver.Chrome() #訪問京東網站 browser.get("https://www.jd.com") #等待50秒 wait = WebDriverWait(browser, 50) #通過css選擇器的id屬性獲得輸入框 input = browser.find_element_by_id('key') #在輸入框中寫入要查詢的信息 input.send_keys('計算機書籍') #獲取查詢按鈕 submit_button = browser.find_element_by_class_name('button') #點擊查詢按鈕 submit_button.click()
當前名稱:使用selenium和pyquery爬取京東商品列表過程解析-創新互聯
路徑分享:http://vcdvsql.cn/article46/didieg.html
成都網站建設公司_創新互聯,為您提供關鍵詞優化、網站內鏈、用戶體驗、動態網站、靜態網站、響應式網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯