介紹:
創新互聯專業為企業提供西安網站建設、西安做網站、西安網站設計、西安網站制作等企業網站建設、網頁設計與制作、西安企業網站模板建站服務,10年西安做網站經驗,不只是建網站,更提供有價值的思路和整體網絡服務。
最近在學Python爬蟲,在這里對數據解析模塊bs4做個學習筆記。
用途:
bs4用于解析xml文檔,而html只是xml的一種
bs4 官方文檔地址:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
學習筆記:
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class=... ... ... ... ... ... "sister" id="link1">Elsie</a>,
<a class="sister" id="link2">Lacie</a> and
<a class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc,'html.parser')? ? #創建一個BeautifulSoup對象,添加html文件解析器,在不同平臺可能不同,在Linux上就不需要
print(soup.prettify())? ? #美化輸出
print(soup.get_text())? ??#將html_doc變量中保存的全部內容輸出(Linux系統會以\n隔開)
print('')
print(type(soup.title))
print(dir(soup.title))
print(soup.title)? ? #獲取html標題
????<title>The Dormouse's story</title>
print(soup.title.text)? ? #獲取html標題內容
????"The Dormouse's story"
print(soup.a)? ? ? ?#獲取a標簽(第一個)
????<a class="sister" id="link1">Elsie</a>
print(soup.a.attrs)? ?#獲取第一個a標簽的所有屬性,組成一個字典
????{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}
print(soup.a.attrs['href'])? ? #獲取第一個a標簽的href屬性
????'http://example.com/elsie'
print(soup.a.has_attr('class'))? ? ?#判斷class屬性是否存在
????True
print(soup.p)? ? #獲取p標簽(第一個)
????<p class="title"><b>The Dormouse's story</b></p>
print(soup.p.children)? ? #獲取第一個p標簽下的所有子節點
????<list_iterator object at 0x7fe8185261d0>
print(list(soup.p.children))
????[<b>The Dormouse's story</b>]
print(list(soup.p.children)[0])
????<b>The Dormouse's story</b>
print(list(soup.p.children)[0].text)
????"The Dormouse's story"
print(soup.find_all('a'))? ? #獲取所有的a標簽
????[<a class="sister" id="link1">Elsie</a>, <a class="sister" id=a class="sister" id="link3">Tillie</a>]
for a in soup.find_all('a'):? ?#遍歷所有的a標簽
? ? print(a.attrs['href'])
print(soup.find(id='link3'))? ? #獲取id=link3的標簽
????<a class="sister" id="link3">Tillie</a>
print('#'*150)
#支持CSS選擇器
#查找類名為story的節點
print(soup.select('.story'))
print('')
print(soup.select('.story a'))
print('')
#查找id=link1的節點
print(soup.select('#link1'))
網站標題:Python爬蟲之數據解析模塊bs4基礎
本文網址:http://vcdvsql.cn/article42/gjggec.html
成都網站建設公司_創新互聯,為您提供營銷型網站建設、商城網站、網站改版、App開發、搜索引擎優化、網站收錄
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯