如何用Python爬取百度搜索結(jié)果并保存

這篇文章主要講解了“如何用Python爬取百度搜索結(jié)果并保存”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“如何用Python爬取百度搜索結(jié)果并保存”吧！

創(chuàng)新互聯(lián)是一家專注于網(wǎng)站設(shè)計制作、成都網(wǎng)站建設(shè)與策劃設(shè)計,海晏網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)做網(wǎng)站,專注于網(wǎng)站建設(shè)10余年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:海晏等地區(qū)。海晏做網(wǎng)站價格咨詢:18980820575

一、前言

眾所周知，百度上直接搜索關(guān)鍵字會出來一大堆東西，時常還會伴隨有廣告出現(xiàn)，不小心就點(diǎn)進(jìn)去了，還得花時間退出來，有些費(fèi)勁。

最近群里有個小伙伴提出一個需求，需要獲取百度上關(guān)于糧食的相關(guān)講話文章標(biāo)題和鏈接。正好小編最近在學(xué)習(xí)爬蟲，就想著拿這個需求來練練手。我們都知道，對Python來說，有大量可用的庫，實(shí)現(xiàn)起來并不難，動手吧。

二、項目目標(biāo)

爬取百度上關(guān)鍵字為“糧食”的搜索結(jié)果，并保存，提交給客戶，用于進(jìn)一步分析我國糧食政策。

三、項目準(zhǔn)備

軟件：PyCharm

需要的庫：json， requests，etree

四、項目分析

1)如何進(jìn)行關(guān)鍵詞搜索?

利用response庫，直接Get網(wǎng)址獲得搜索結(jié)果。網(wǎng)址如下：

https://www.baidu.com/s?wd=糧食

2)如何獲取標(biāo)題和鏈接?

利用etree對原代碼進(jìn)行規(guī)范梳理后，通過Xpath定位到文章標(biāo)題和href，獲取標(biāo)題和文章鏈接。

3)如何保存搜索結(jié)果?

新建txt文件，對搜索結(jié)果循環(huán)寫入，保存即可。

五、項目實(shí)現(xiàn)

1、第一步導(dǎo)入需要的庫

import json import requests from lxml import etree

2、第二步用requests進(jìn)行請求搜索

headers = {     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36" } response = requests.get('https://www.baidu.com/s?wd=糧食&lm=1', headers=headers)

3、第三步對獲取的源代碼進(jìn)行整理分析，通過Xpath定位需要的資源

r = response.text    html = etree.HTML(r, etree.HTMLParser())    r1 = html.xpath('//h4')    r2 = html.xpath('//*[@class="c-abstract"]')    r3 = html.xpath('//*[@class="t"]/a/@href')

4、第四步把有用資源循環(huán)讀取保存

for i in range(10):     r11 = r1[i].xpath('string(.)')     r22 = r2[i].xpath('string(.)')     r33 = r3[i]     with open('ok.txt', 'a', encoding='utf-8') as c:          c.write(json.dumps(r11,ensure_ascii=False) + '\n')          c.write(json.dumps(r22, ensure_ascii=False) + '\n')          c.write(json.dumps(r33, ensure_ascii=False) + '\n')     print(r11, end='\n')     print('------------------------')     print(r22, end='\n')     print(r33)

六、效果展示

1、程序運(yùn)行結(jié)果，如下圖所示：

如何用Python爬取百度搜索結(jié)果并保存

2、保存為txt的文件最終結(jié)果如下圖所示：

如何用Python爬取百度搜索結(jié)果并保存

七、總結(jié)

本文介紹了如何利用Python對百度搜索結(jié)果進(jìn)行爬取、保存，是一個小爬蟲，這也是Python好玩的地方，有大量免費(fèi)的庫可用，能幫你實(shí)現(xiàn)各種需求。工作量大，學(xué)會用Python!

感謝各位的閱讀，以上就是“如何用Python爬取百度搜索結(jié)果并保存”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對如何用Python爬取百度搜索結(jié)果并保存這一問題有了更深刻的體會，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點(diǎn)的文章，歡迎關(guān)注！

名稱欄目：如何用Python爬取百度搜索結(jié)果并保存
標(biāo)題URL：http://vcdvsql.cn/article12/gjgcdc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供云服務(wù)器、移動網(wǎng)站建設(shè)、手機(jī)網(wǎng)站建設(shè)、App設(shè)計、網(wǎng)站收錄、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

如何用Python爬取百度搜索結(jié)果并保存