Python爬蟲,使用BeautifulSoup可以輕松解析頁(yè)面結(jié)果,下面是使用該方法爬取boss頁(yè)面的職位信息:包括職位名稱、薪資、地點(diǎn)、公司名稱、公司融資情況等信息。通過(guò)這個(gè)示例可以輕松看到BeautifulSoup的使用方法。
成都網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁(yè)設(shè)計(jì)、成都網(wǎng)站建設(shè)、微信開發(fā)、小程序制作、集團(tuán)成都企業(yè)網(wǎng)站定制等服務(wù)項(xiàng)目。核心團(tuán)隊(duì)均擁有互聯(lián)網(wǎng)行業(yè)多年經(jīng)驗(yàn),服務(wù)眾多知名企業(yè)客戶;涵蓋的客戶類型包括:成都濕噴機(jī)等眾多領(lǐng)域,積累了大量豐富的經(jīng)驗(yàn),同時(shí)也獲得了客戶的一致稱贊!
import requests
from bs4 import BeautifulSoup
from middlewares import get_random_proxy,get_random_agent
import time
class Boss_Spider(object):
def __init__(self, page=3):
self.proxies = []
self.verify_pro = []
self.page = page
self.headers = {}
#第一步:獲取首頁(yè)所有招聘連接
def Parse_pre(self):
base_url = 'https://www.zhipin.com/'
headers = get_random_agent()
proxy = get_random_proxy()
time.sleep(1)
resp = requests.get(base_url, headers=headers)
if resp.status_code == 200:
soup = BeautifulSoup(resp.text, 'lxml')
for job_menu in soup.find_all(class_='menu-sub'):
for li in job_menu.find_all('li'):
job_type = li.find('h5').get_text()
for job_list in li.find_all('a'):
job_sub = job_list.get_text()
job_uri = job_list['href']
for i in range(0,11):
job_url = base_url + job_uri + '?page=%d&ka=page-%d' %(i,i)
requests.get(job_url,headers=headers,proxies=proxy)
meta = {
'job_type': job_type,
'job_sub': job_sub,
}
self.Parse_index(meta=meta,url=job_url)
#爬取具體頁(yè)數(shù)據(jù)
def Parse_index(self,meta,url):
headers = get_random_agent()
proxy = get_random_proxy()
time.sleep(1)
resp = requests.get(url, headers=headers)
if resp.status_code == 200:
soup = BeautifulSoup(resp.text, 'lxml')
print(soup)
for li in soup.find(class_='job-list').find_all('li'):
print('###########')
position = li.find(class_='job-title').get_text()
salary = li.find(class_='red').get_text()
add = li.find('p').get_text()
need = li.find('p').find('em').get_text()
company_name = li.find(class_='company-text').find('a').get_text()
tag = li.find(class_='company-text').find('p')
print(position,"$$$",salary,"$$$",add,"$$$",need,"$$$",company_name,"$$$",tag)
if __name__ == '__main__':
b = Boss_Spider()
b.Parse_pre()
運(yùn)行輸出結(jié)果如下:
后端開發(fā) $$$ 15-30K $$$ 北京 朝陽(yáng)區(qū) 朝外3-5年本科 $$$ $$$ 米花互動(dòng) $$$ 游戲不需要融資20-99人
###########
后端開發(fā)工程師 $$$ 35-55K $$$ 北京 朝陽(yáng)區(qū) 望京經(jīng)驗(yàn)不限本科 $$$ $$$ 云賬戶 $$$ 移動(dòng)互聯(lián)網(wǎng)C輪100-499人
###########
當(dāng)前標(biāo)題:Python爬蟲,使用BeautifulSoup解析頁(yè)面結(jié)果
轉(zhuǎn)載源于:http://vcdvsql.cn/article28/iipdcp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、靜態(tài)網(wǎng)站、網(wǎng)站建設(shè)、小程序開發(fā)、商城網(wǎng)站、App設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)