亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

關(guān)于MySQL 大批量插入時(shí)如何過濾掉重復(fù)數(shù)據(jù)

 更新時(shí)間:2021年09月16日 11:51:51   作者:佚名  
這篇文章主要介紹關(guān)于MySQL 大批量插入時(shí)如何過濾重復(fù)數(shù)據(jù),比如線上庫有6個(gè)表存在重復(fù)數(shù)據(jù),其中2個(gè)表比較大,96萬+和30萬+,因?yàn)橹疤幚磉^相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡(jiǎn)單,就是連接數(shù)據(jù)庫,查出來重復(fù)數(shù)據(jù),循環(huán)刪除,需要的朋友可以參考下

前言:

加班原因是上線,解決線上數(shù)據(jù)庫存在重復(fù)數(shù)據(jù)的問題,發(fā)現(xiàn)了程序的bug,很好解決,有點(diǎn)問題的是,修正線上的重復(fù)數(shù)據(jù)。

線上庫有6個(gè)表存在重復(fù)數(shù)據(jù),其中2個(gè)表比較大,一個(gè)96萬+、一個(gè)30萬+,因?yàn)橹疤幚磉^相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡(jiǎn)單,就是連接數(shù)據(jù)庫,查出來重復(fù)數(shù)據(jù),循環(huán)刪除。

emmmm,但是這個(gè)效率嘛,實(shí)在是太低了,1秒一條,重復(fù)數(shù)據(jù)大約2萬+,預(yù)估時(shí)間大約在8個(gè)小時(shí)左右。。。

盲目依靠前人的東西,而不去自己思考是有問題的!總?cè)ハ胫霸趺纯梢?,現(xiàn)在怎么不行了,這也是有問題的!我發(fā)現(xiàn),最近確實(shí)狀態(tài)不太對(duì),失去了探索和求知的欲望,今天算是一個(gè)警醒,頗有迷途知返的感覺。

言歸正傳,下面詳細(xì)介紹去重步驟。

一、發(fā)現(xiàn)問題

CREATE TABLE `animal` (  
  `id` int(11) NOT NULL AUTO_INCREMENT,  
  `name` varchar(20) DEFAULT NULL,  
  `age` int(11) DEFAULT NULL,  
  PRIMARY KEY (`id`)  
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;  
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');  
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');  
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');  
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');  
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42'); 


目標(biāo):我們要去掉name相同的數(shù)據(jù)。

先看看哪些數(shù)據(jù)重復(fù)了

SELECT name,count( 1 )   
FROM  
 student   
GROUP BY  
NAME   
HAVING  
 count( 1 ) > 1; 


輸出:

name count(1) cat 2 dog 2

namecatdog的數(shù)據(jù)重復(fù)了,每個(gè)重復(fù)的數(shù)據(jù)有兩條;

Select * From 表 Where 重復(fù)字段 In (Select 重復(fù)字段 From 表 Group By 重復(fù)字段 Having Count(1)>1) 

二、刪除全部重復(fù)數(shù)據(jù),一條不留

直接刪除會(huì)報(bào)錯(cuò)

DELETE   
FROM  
 student   
WHERE  
 NAME IN (  
 SELECT NAME   
 FROM  
  student   
 GROUP BY  
 NAME   
HAVING  
 count( 1 ) > 1) 


報(bào)錯(cuò):

1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s 


原因是:更新這個(gè)表的同時(shí)又查詢了這個(gè)表,查詢這個(gè)表的同時(shí)又去更新了這個(gè)表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作

解決辦法:把要更新的幾列數(shù)據(jù)查詢出來做為一個(gè)第三方表,然后篩選更新。

DELETE   
FROM  
 student   
WHERE  
 NAME IN (  
 SELECT  
  t.NAME   
FROM  
 ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t) 

三、刪除表中刪除重復(fù)數(shù)據(jù),僅保留一條

在刪除之前,我們可以先查一下,我們要?jiǎng)h除的重復(fù)數(shù)據(jù)是啥樣的

SELECT  
 *   
FROM  
 student   
WHERE  
 id NOT IN (  
 SELECT  
  t.id   
 FROM  
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t   
 ) 


啥意思呢,就是先通過name分組,查出id最小的數(shù)據(jù),這些數(shù)據(jù)就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要?jiǎng)h除的重復(fù)數(shù)據(jù)。

四、開始刪除重復(fù)數(shù)據(jù),僅留一條

很簡(jiǎn)單,剛才的select換成delete即可

DELETE   
FROM  
 student   
WHERE  
 id NOT IN (  
 SELECT  
  t.id   
 FROM  
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t   
 ) 


90萬+的表執(zhí)行起來超級(jí)快。

到此這篇關(guān)于關(guān)于MySQL 大批量插入時(shí)如何過濾掉重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)MySQL過濾掉重復(fù)數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • MySql中JOIN的用法示例詳解

    MySql中JOIN的用法示例詳解

    join顧名思義就是連接兩張表,大致分為內(nèi)連接,外連接,右連接,左連接,自然連接,今天通過本文給大家介紹MySql中JOIN的用法詳解,感興趣的朋友一起看看吧
    2022-03-03
  • Mysql數(shù)據(jù)庫的優(yōu)化詳解

    Mysql數(shù)據(jù)庫的優(yōu)化詳解

    這篇文章主要介紹了Mysql數(shù)據(jù)庫的優(yōu)化詳解,查詢優(yōu)化的本質(zhì)是讓數(shù)據(jù)庫優(yōu)化器為SQL語句選擇最佳的執(zhí)行計(jì)劃,一般來說,對(duì)于在線交易處理(OLTP)系統(tǒng)的數(shù)據(jù)庫,減少數(shù)據(jù)庫磁盤I/O是SQL語句性能優(yōu)化的首要方法,需要的朋友可以參考下
    2023-07-07
  • Mysql select in 按id排序?qū)崿F(xiàn)方法

    Mysql select in 按id排序?qū)崿F(xiàn)方法

    有時(shí)候我們?cè)诤笈_(tái)選擇了一系列的id,我們想安裝填寫id的順序進(jìn)行排序,那么就需要下面的order by方法,測(cè)試通過
    2013-03-03
  • Mysql中的count()與sum()區(qū)別詳細(xì)介紹

    Mysql中的count()與sum()區(qū)別詳細(xì)介紹

    本文將介紹Mysql中的count()與sum()區(qū)別,需要的朋友可以參考下
    2012-11-11
  • insert...on?duplicate?key?update語法詳解

    insert...on?duplicate?key?update語法詳解

    本文主要介紹了insert...on?duplicate?key?update語法詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-01-01
  • mysql主從同步快速設(shè)置方法

    mysql主從同步快速設(shè)置方法

    記錄一個(gè)比較簡(jiǎn)便的mysql的主從同步設(shè)置步驟,方便日后使用。
    2010-12-12
  • EF(EntityFramework) 插入或更新數(shù)據(jù)報(bào)錯(cuò)的解決方法

    EF(EntityFramework) 插入或更新數(shù)據(jù)報(bào)錯(cuò)的解決方法

    出現(xiàn)EF(EntityFramework) 插入或更新數(shù)據(jù)報(bào)錯(cuò)的問題怎么解決呢?下面小編就為大家分析一下錯(cuò)誤原因及解決方法。一起跟隨小編過來看看吧
    2017-12-12
  • MySql優(yōu)化之InnoDB,4GB內(nèi)存,多查詢的my.ini中文配置方案詳解

    MySql優(yōu)化之InnoDB,4GB內(nèi)存,多查詢的my.ini中文配置方案詳解

    本文是一個(gè)針對(duì) 4G 內(nèi)存系統(tǒng)(主要運(yùn)行只有 InnoDB 表的 MySQL 并使用幾個(gè)連接數(shù)執(zhí)行復(fù)雜的查詢)的MySQL配置文件方案
    2018-03-03
  • sql和MySQL的語句執(zhí)行順序分析

    sql和MySQL的語句執(zhí)行順序分析

    本文就sql和mysql的語句執(zhí)行順序問題向大家作了詳細(xì)介紹,小編覺得挺不錯(cuò)的,這里分享下,供大家參考。
    2017-10-10
  • MySQL 全文檢索的使用示例

    MySQL 全文檢索的使用示例

    全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過程類似于通過字典中的檢索字表查字的過程。
    2021-06-06

最新評(píng)論