Python爬蟲(chóng)框架的組成需要具備什么功能

這篇文章主要介紹Python爬蟲(chóng)框架的組成需要具備什么功能，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

成都創(chuàng)新互聯(lián)主要從事網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站設(shè)計(jì)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)海南州,十余年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):18980820575

1、組成

爬蟲(chóng)框架需要具備哪些功能。Scrapy，pyspider有http請(qǐng)求庫(kù)，html解析工具，數(shù)據(jù)庫(kù)存儲(chǔ)等，但其實(shí)最核心的是他們的調(diào)度（scheduler）程序：即如何讓你的請(qǐng)求，解析，存儲(chǔ)協(xié)同工作。

一個(gè)最小的爬蟲(chóng)框架只需要一套調(diào)度程序就可以了，其他的請(qǐng)求，解析，存儲(chǔ)都可以作為框架的擴(kuò)展來(lái)使用，比如：gaoxinge/spidery。另外既然一個(gè)最小的爬蟲(chóng)框架只有一套調(diào)度程序，那么它也可以用來(lái)做非爬蟲(chóng)的工作。

2、實(shí)例

# -*- coding: utf-8 -*-
"""
url: https://stackoverflow.com/questions
fetch: requests
parse: lxml
presist: txt
"""
import requests
from lxml import etree
from spidery import Spider
 
spider = Spider(
    urls = ['http://stackoverflow.com/questions/?page=' + str(i) + '&sort=votes' for i in range(1, 4)],
)
 
@spider.fetch
def fetch(url):
    response = requests.get(url)
    return response
 
@spider.parse
def parse(response):
    root = etree.HTML(response.text)
    results = root.xpath('//div[@class=\'question-summary\']')
    for result in results:
        question = {}
        question['votes']   = result.xpath('div[@class=\'statscontainer\']//strong/text()')[0]
        question['answers'] = result.xpath('div[@class=\'statscontainer\']//strong/text()')[1]
        question['views']   = result.xpath('div[@class=\'statscontainer\']/div[@class=\'views supernova\']/text()')[0].strip()
        question['title']   = result.xpath('div[@class=\'summary\']/h4/a/text()')[0]
        question['link']    = result.xpath('div[@class=\'summary\']/h4/a/@href')[0]
        yield question, None
 
@spider.presist
def presist(item):
    f.write(str(item) + '\n')
 
f = open('stackoverflow.txt', 'wb')
spider.consume_all()
f.close()

python的數(shù)據(jù)類型有哪些?

python的數(shù)據(jù)類型：1. 數(shù)字類型，包括int（整型）、long（長(zhǎng)整型）和float（浮點(diǎn)型）。2.字符串，分別是str類型和unicode類型。3.布爾型，Python布爾類型也是用于邏輯運(yùn)算，有兩個(gè)值：True（真）和False（假）。4.列表，列表是Python中使用最頻繁的數(shù)據(jù)類型，集合中可以放任何數(shù)據(jù)類型。5. 元組，元組用”()”標(biāo)識(shí)，內(nèi)部元素用逗號(hào)隔開(kāi)。6. 字典，字典是一種鍵值對(duì)的集合。7. 集合，集合是一個(gè)無(wú)序的、不重復(fù)的數(shù)據(jù)組合。

以上是“Python爬蟲(chóng)框架的組成需要具備什么功能”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

網(wǎng)頁(yè)名稱：Python爬蟲(chóng)框架的組成需要具備什么功能
文章起源：http://vcdvsql.cn/article36/pphpsg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)頁(yè)設(shè)計(jì)公司、微信公眾號(hào)、手機(jī)網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

Python爬蟲(chóng)框架的組成需要具備什么功能

python的數(shù)據(jù)類型有哪些?