本文主要給大家簡單講講使用pandas模塊解決MySQL中的重復數據問題,相關專業術語大家可以上網查查或者找一些相關書籍補充一下,這里就不涉獵了,我們就直奔主題吧,希望使用pandas模塊解決mysql中的重復數據問題這篇文章可以給大家帶來一些實際幫助。
創新互聯公司服務項目包括融水網站建設、融水網站制作、融水網頁制作以及融水網絡營銷策劃等。多年來,我們專注于互聯網行業,利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等,向廣大中小型企業、政府機構等提供互聯網行業的解決方案,融水網站推廣取得了明顯的社會效益與經濟效益。目前,我們服務的客戶以成都為中心已經輻射到融水省份的部分城市,未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任!
直接上代碼
import pymysql import pandas as pda conn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8") sql="select * from table001" data1 = pda.read_sql(sql,conn) print(data1.count()) data2 = data1.drop_duplicates(subset="big",keep="last") data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False) print(data2.count())
table001表為原始表,big為表里不能重復的字段,keep="last"代表留重復數據的最后一條,table002表為清洗完數據保存數據的表。
運行該腳本,十來分鐘左右,800W條數據已經全部清洗完畢,還剩余200W條不重復數據,并且還和朋友正確的數據一條不差。
隨后將數據表上傳至朋友的線上云服務器,朋友驗證數據都沒問題。
使用pandas模塊解決mysql中的重復數據問題就先給大家講到這里,對于其它相關問題大家想要了解的可以持續關注我們的行業資訊。我們的板塊內容每天都會捕捉一些行業新聞及專業知識分享給大家的。
文章標題:使用pandas模塊解決mysql中的重復數據問題
文章網址:http://vcdvsql.cn/article28/gjspjp.html
成都網站建設公司_創新互聯,為您提供網站排名、App設計、ChatGPT、移動網站建設、定制網站、動態網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯