這篇文章主要講解了“python怎么爬明星貼吧”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“python怎么爬明星貼吧”吧!
創(chuàng)新互聯(lián)建站于2013年成立,是專(zhuān)業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站建設(shè)、成都做網(wǎng)站網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元蓬萊做網(wǎng)站,已為上家服務(wù),為蓬萊各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話(huà):18982081108
貼吧的翻頁(yè)通過(guò)url的變化來(lái)實(shí)現(xiàn),主要是pn參數(shù):
https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn=頁(yè)數(shù)*50
帖子的內(nèi)容、發(fā)帖者及跟帖數(shù)量都可以在網(wǎng)頁(yè)中找到:
所以,我們只需要用requests模擬請(qǐng)求獲得,再用bs4解析就可以獲得想要的內(nèi)容了
1.爬取數(shù)據(jù)
用了靜態(tài)網(wǎng)頁(yè)爬蟲(chóng)的老套路,根據(jù)網(wǎng)頁(yè)源碼的特點(diǎn),用find_all函數(shù)提取了帖子、發(fā)帖人及跟帖數(shù)量等信息,并將3類(lèi)信息放入列表中,最終生成1個(gè)二維列表result,主要為了方便存入數(shù)據(jù)庫(kù),代碼如下:
for t in range(250): print('第{0}頁(yè)'.format(t+1)) url='https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn={0}'.format(t*50) header = { 'User-Agent': 'Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0' } response = requests.get(url, header) soup = BeautifulSoup(response.text, 'html.parser') items_content = soup.find_all('a', class_='j_th_tit') #內(nèi)容 items_user = soup.find_all('span', class_='tb_icon_author') #昵稱(chēng) items_comment = soup.find_all(class_='threadlist_rep_num center_text') #跟帖數(shù)量 for i, j, k in zip(items_content, items_user, items_comment): result.append([i.get('title'), j.get('title')[5:], k.text]) time.sleep(1)
2.存入數(shù)據(jù)庫(kù)
先創(chuàng)建1個(gè)新表,命名為‘STAR’,然后再創(chuàng)建3列,分別命名為“title”、‘a(chǎn)uthor’和‘num’,用于存放1中怕的內(nèi)容,最后將二維列表result中的內(nèi)容存入數(shù)據(jù)庫(kù):
conn=pyMySQL.connect( host='127.0.0.1', port=3306, user='root', password='數(shù)據(jù)庫(kù)密碼', db='test1', charset='utf8mb4' ) cur = conn.cursor() #如果存在TIEBA表,則刪除 cur.execute("DROP STAR IF EXISTS STAR") #創(chuàng)建TIEBA表 sql = """ create table STAR( title char(255), author char(100), num char(20)) """ cur.execute(sql) for i in result: cur.execute("INSERT INTO STAR(title,author,num) VALUES ('{0}','{1}','{2}')". format(i[0].replace('\'','').replace('\"','').replace('\\',''), i[1], i[2])) conn.commit()
由于帖子內(nèi)容中存在表情等符號(hào),所以選擇用'utf8mb4'這樣就可以把表情也存入數(shù)據(jù)庫(kù)了,但是還有一些標(biāo)點(diǎn)符號(hào)在寫(xiě)入過(guò)程會(huì)出錯(cuò),所以用replace給替換掉了。
總共爬了1萬(wàn)3千多條數(shù)據(jù),基本把最近兩年的帖子都爬完了。
用create_engine模塊讀取數(shù)據(jù)庫(kù)表中的內(nèi)容,代碼如下:
import pandas as pd from sqlalchemy importcreate_engine # 初始化數(shù)據(jù)庫(kù)連接,使用create_engine模塊 engine =create_engine('mysql+pymysql://root:密碼@127.0.0.1:3306/test1') # 查詢(xún)語(yǔ)句,選出STAR表中的所有數(shù)據(jù) sql = ''' select *from STAR; ''' # read_sql_query的兩個(gè)參數(shù): sql語(yǔ)句, 數(shù)據(jù)庫(kù)連接 df =pd.read_sql_query(sql, engine) # 輸出STAR表的查詢(xún)結(jié)果 df['num']=[int(i) for i in list(df['num'])] df=df.drop_duplicates(subset=['title','author','num'], keep='first')
因?yàn)楦麛?shù)量是以字符格式存入的,所以先將其轉(zhuǎn)為整數(shù),再用drop_duplicates模塊對(duì)數(shù)據(jù)進(jìn)行去重,這樣就把數(shù)據(jù)整理完畢了。
上萬(wàn)條數(shù)據(jù)放在你面前,用肉眼是看不出什么名堂的,所以我這里選擇了幾個(gè)角度,用python統(tǒng)計(jì)分析這個(gè)貼吧里到底隱藏著什么秘密
1.找出發(fā)帖數(shù)量最多的20個(gè)人
說(shuō)簡(jiǎn)單點(diǎn)就是創(chuàng)建1個(gè)空字典,然后把df['author']轉(zhuǎn)成列表,統(tǒng)計(jì)列表中元素個(gè)數(shù),將元素及個(gè)數(shù)存入字典中,再對(duì)字典進(jìn)行排序,將前十個(gè)畫(huà)成柱狀圖,代碼如下:
#發(fā)帖數(shù)量排名 rank_num={} for i in list(set(list(df['author']))): rank_num[i.replace(' ', '')] = list(df['author']).count(i) rank_num = sorted(rank_num.items(), key=lambda x: x[1], reverse=True) bar = Bar("柱狀圖", "發(fā)帖數(shù)量-昵稱(chēng)") bar.add("發(fā)帖數(shù)量-昵稱(chēng)", [i[0] for i in rank_num[:10]], [i[1] for i in rank_num[:10]], xaxis_rotate=45, mark_line=["average"], mark_point=["max", "min"]) bar.render('發(fā)帖數(shù)量-昵稱(chēng).html')
結(jié)果如下:
這個(gè)獵頭發(fā)帖有點(diǎn)猛啊,單人最高發(fā)了751個(gè),真厲害。
2.找出跟帖數(shù)最多的20個(gè)帖子
dff=df.sort_values(by='num', ascending=False).head(10) bar = Bar('跟帖數(shù)量排名',width=1000,height=400) bar.use_theme('dark') bar.add('' ,dff['title'][::-1], dff['num'][::-1], is_convert=True, is_yaxis_inverse=False, xaxis_rotate=45,is_label_show=True,label_pos='right') bar.render("跟帖數(shù)量排名.html")
跟帖最多的竟然是個(gè)水貼,數(shù)量高達(dá)73459次
3.制作所有帖子的詞云圖
先把所有帖子連接成字符,用jieba進(jìn)行分詞,插入背景圖片,代碼如下:
import matplotlib.pyplot as plt import jieba from wordcloud importwordcloud text='' for i in list(df['title']): text+=i print(text) cut_text = jieba.cut(text) result=[] for i in cut_text: result.append(i) result = ">
效果如下:
感謝各位的閱讀,以上就是“python怎么爬明星貼吧”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)python怎么爬明星貼吧這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
當(dāng)前文章:python怎么爬明星貼吧
轉(zhuǎn)載來(lái)于:http://vcdvsql.cn/article4/pdchoe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、網(wǎng)站導(dǎo)航、網(wǎng)站制作、App開(kāi)發(fā)、搜索引擎優(yōu)化、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)