MySQL 過濾重復數據
成都創新互聯2013年開創至今,先為可克達拉等服務建站,可克達拉等地企業,進行企業商務咨詢服務。為可克達拉企業網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。
有些 MySQL 數據表中可能存在重復的記錄,有些情況我們允許重復數據的存在,但有時候我們也需要刪除這些重復的數據。
如果你需要讀取不重復的數據可以在 SELECT 語句中使用 DISTINCT 關鍵字來過濾重復數據。
from 樹懶學堂- 一站式數據知識學習平臺
你也可以使用 GROUP BY 來讀取數據表中不重復的數據:
MySQL 刪除重復數據
有些 MySQL 數據表中可能存在重復的記錄,有些情況我們允許重復數據的存在,但有時候我們也需要刪除這些重復的數據。
本章節我們將為大家介紹如何防止數據表出現重復數據及如何刪除數據表中的重復數據。
刪除重復數據
如果你想刪除數據表中的重復數據,你可以使用以下的SQL語句:
from 樹懶學堂 - 一站式數據知識平臺
當然你也可以在數據表中添加 INDEX(索引) 和 PRIMAY KEY(主鍵)這種簡單的方法來刪除表中的重復記錄。方法如下:
在用select語句查詢mysql數據庫的時候,你可以加上distinct修飾符,這樣就可以去掉好多重復的,比如
SELECT
distinct(`lcontent`)
FROM
`caiji_ym_liuyan`
當然實際情況中的重復問題還有很多,需要自己的實際情況,構造相應的select語句。
一張user表 中的name字段,里面有10個張三。我要只查詢出一個張三。
SQL: select distinct name from user
如果還要查詢出id
SQL: select distinct name,id from user
SQL :select name from user group by name
group by理解:表里的某一個字段(比如:name) 當出現相同的數據時,group by就將這2條數據合二為一。name就顯示一條 數據了。 但是name達到合二為一了,這2條數據的其他數據怎么辦呢? 這時候需要配合聚合函數的使用。
where條件:分組前的條件,配合任何關鍵字使用
Having 條件:分組后的條件 (事后條件) ,只配合group by使用。having條件通常使用聚合函數
SQL :select deptno,sum(sal) from emp group by deptno having sum(sal) 9000;
SQL: select deptno,count(*) from emp where sal 1000 group by deptno haing sum(sal) 8000
拓展:
聚合函數定義:聚合函數對一組值進行計算并返回單一的值。(以下都屬于聚合函數)
count(*) : 不包括空值。返回對行數目的計數。計算出有多少行,多少條數據。
count() : 包含空值。返回對數目的計數。計算表里有多少行,相當于多少條數據。
sum() : 求和運算
max(); 最大值
min(): 最小值
avg(): 平均值
通常情況下,一個我們在做一個產品的時候,一開始可能由于設計考慮不周或者程序寫的不夠嚴謹,某個字段上的值產生重復了,但是又必須去掉,這個時候就稍微麻煩了一點,直接加一個 UNIQUE KEY 肯定是不行了,因為會報錯。
現在,我們來采用一種變通的辦法,不過可能會丟失一些數據 :)
在這里,我們設定一個表,其結構如下:
mysql desc `user`;
+-------+------------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------+------------------+------+-----+---------+----------------+
| id | int(10) unsigned | NO | PRI | NULL | auto_increment |
| name | char(10) | NO | | | |
| extra | char(10) | NO | | | |
+-------+------------------+------+-----+---------+----------------+
原來表中的數據假定有以下幾條:
mysql SELECT * FROM `user`;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 2 | user2 | user2 |
| 3 | user3 | user3 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 6 | user3 | user6 |
| 7 | user6 | user7 |
| 8 | user2 | user8 |
| 9 | USER2 | user9 |
| 10 | USER6 | user10 |
+----+-------+--------+
1、將原來的數據導出
mysqlSELECT * INTO OUTFILE '/tmp/user.txt' FROM `user`;
2、清空數據表
mysqlTRUNCATE TABLE `user`;
3、創建唯一索引,并且修改 `name` 字段的類型為 BINARY CHAR 區分大小寫
mysql ALTER TABLE `user` MODIFY `name` CHAR(10) BINARY NOT NULL DEFAULT '';
mysql ALTER TABLE `user` ADD UNIQUE KEY ( `name` );
現在來看看新的表結構:
mysql desc user;
+-------+------------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------+------------------+------+-----+---------+----------------+
| id | int(10) unsigned | NO | PRI | NULL | auto_increment |
| name | char(10) | NO | UNI | | |
| extra | char(10) | NO | | | |
+-------+------------------+------+-----+---------+----------------+
4、把數據導回去,在這里,有兩種選擇:新的重復記錄替換舊的記錄,只保留最新的記錄 或者是 新的記錄略過,只保留最舊的記錄
mysql LOAD DATA INFILE '/tmp/user.txt' REPLACE INTO TABLE `user`;
Query OK, 10 rows affected (0.00 sec)
Records: 8 Deleted: 2 Skipped: 0 Warnings: 0
mysql SELECT * FROM USER;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 8 | user2 | user8 |
| 6 | user3 | user6 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 7 | user6 | user7 |
| 9 | USER2 | user9 |
| 10 | USER6 | user10 |
+----+-------+--------+
上面是采用 REPLACE 的方式,可以看到,導入過程中刪掉了兩條數據,結果驗證確實是 新的重復記錄替換舊的記錄,只保留最新的記錄。
現在,來看看用 IGNORE 的方式:
mysql LOAD DATA INFILE '/tmp/user.txt' IGNORE INTO TABLE `user`;
Query OK, 6 rows affected (0.01 sec)
Records: 8 Deleted: 0 Skipped: 2 Warnings: 0
mysql SELECT * FROM USER;
+----+-------+--------+
| id | name | extra |
+----+-------+--------+
| 1 | user1 | user1 |
| 2 | user2 | user2 |
| 3 | user3 | user3 |
| 4 | user4 | user4 |
| 5 | user5 | user5 |
| 7 | user6 | user7 |
| 9 | USER2 | user9 |
| 10 | USER6 | user10 |
+----+-------+--------+
看到了吧,確實是 新的記錄略過,只保留最舊的記錄。
mysql數據表中有多條重復數據記錄,現在想刪除刪除部分重復數據,保留最后一條更新或者插入的數據。
以學生表為例,我們創建一個簡單的數據表來做實驗:
往表里面插入一些實驗數據:
我們可以根據分組查詢先將重復數據查詢出來,同時也可以獲取到最后的更新時間,然后再與原表聯表查詢小于最大時間的數據,將查詢出來的數據刪除。
------先來慢慢消化-------
在做刪除前,我們可以先看看有哪些數據是有重復的:
可以看到張三,李四,王五的數據是有重復的,趙六沒有重復,下面我們查找最后更新的記錄。
可以看到,最后更新的數據為15:57:46的記錄沒有在結果中。
可以看到重復記錄已經被清理掉。
假如有兩行記錄是完全一樣的,這個方法就不可行了,往表里面在跑一次數據插入:
執行刪除計劃:
創建一個臨時表存放最后插入的一條數據(包含重復與沒有重復的),然后清空原表,再將臨時表的數據復制到原表中,最后把臨時表刪除。
這個很好理解,相當于ctrl+c,ctrl+v的操作,數據表如下:
這樣數據去重就完成了,需要注意的是, 如果表數據量很大,注意在group by 里面的字段建立索引,同時,生產環境注意好先進行數據備份操作 。
分享文章:mysql怎么去重復,mysql消除重復
新聞來源:http://vcdvsql.cn/article44/heciee.html
成都網站建設公司_創新互聯,為您提供面包屑導航、品牌網站建設、品牌網站制作、標簽優化、網站建設、云服務器
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯