腳本之家服務器常用軟件

快捷導航

SQL中distinct 和 row_number() over() 的區(qū)別及用法

更新時間：2017年03月03日 15:57:00 作者：維C果糖

這篇文章主要介紹了SQL中distinct 和 row_number() over() 的區(qū)別及用法的相關資料,需要的朋友可以參考下

1 前言

在咱們編寫 SQL 語句操作數(shù)據(jù)庫中的數(shù)據(jù)的時候，有可能會遇到一些不太爽的問題，例如對于同一字段擁有相同名稱的記錄，我們只需要顯示一條，但實際上數(shù)據(jù)庫中可能含有多條擁有相同名稱的記錄，從而在檢索的時候，顯示多條記錄，這就有違咱們的初衷啦！因此，為了避免這種情況的發(fā)生，咱們就需要進行“去重”處理啦，那么何為“去重”呢？說白了，就是對同一字段讓擁有相同內(nèi)容的記錄只顯示一條記錄。

那么，如何實現(xiàn)“去重”的功能呢？對此，咱們有兩種方式可以實現(xiàn)該功能。

第一種，在編寫 select 語句的時候，添加 distinct 關鍵詞；

第二種，在編寫 select 語句的時候，調(diào)用 row_number() over() 函數(shù)。

以上兩種方式都可以實現(xiàn)“去重”功能，那兩者之間有何異同呢？接下來，作者將給出詳細的說明。

2 distinct

在 SQL 中，關鍵字 distinct 用于返回唯一不同的值。其語法格式為：

SELECT DISTINCT 列名稱 FROM 表名稱

假設有一個表“CESHIDEMO”，包含兩個字段，分別 NAME 和 AGE，具體格式如下：

CESHIDEMO

觀察以上的表，咱們會發(fā)現(xiàn)：擁有相同 NAME 的記錄有兩條，擁有相同 AGE 的記錄有三條。如果咱們運行下面這條 SQL 語句，

/**
* 其中 PPPRDER 為 Schema 的名字，即表 CESHIDEMO 在 PPPRDER 中
*/

select name from PPPRDER.CESHIDEMO

將會得到如下結果：

name

觀察該結果，咱們會發(fā)現(xiàn)在以上的四條記錄中，包含兩條 NAME 值相同的記錄，即第 2 條記錄和第 3 條記錄的值都為“gavin”。那么，如果咱們想讓擁有相同 NAME 的記錄只顯示一條該如何實現(xiàn)呢？這時，就需要用到 distinct 關鍵字啦！接下來，運行如下 SQL 語句，

select distinct name from PPPRDER.CESHIDEMO

將會得到如下結果：

distinct

觀察該結果，顯然咱們的要求得到實現(xiàn)啦！但是，咱們不禁會想到，如果將 distinct 關鍵字同時作用在兩個字段上將會產(chǎn)生什么效果呢？既然想到了，咱們就試試唄，運行如下 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

nameandage

觀察該結果，哎呀，貌似沒有作用??？她將全部的記錄都顯示出來了??！其中 NAME 值相同的記錄有兩條，AGE 值相同的記錄有三條，完全沒有變化啊！但事實上，結果就應該是這樣的。因為當 distinct 作用在多個字段的時候，她只會將所有字段值都相同的記錄“去重”掉，顯然咱們“可憐”的四條記錄并不滿足該條件，因此 distinct 會認為上面四條記錄并不相同?？湛跓o憑，接下來，咱們再向表“CESHIDEMO”中添加一條完全相同的記錄，驗證一下即可。添加一條記錄后的表如下所示：

添加一條記錄

再運行如下的 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

nameandage

觀察該結果，完美的驗證了咱們上面的結論。

此外，有一點需要大家特別注意，即：關鍵字 distinct 只能放在 SQL 語句中所有字段的最前面才能起作用，如果放錯位置，SQL 不會報錯，但也不會起到任何效果。

3 row_number() over()

在 SQL Server 數(shù)據(jù)庫中，為咱們提供了一個函數(shù) row_number() 用于給數(shù)據(jù)庫表中的記錄進行標號，在使用的時候，其后還跟著一個函數(shù) over()，而函數(shù) over() 的作用是將表中的記錄進行分組和排序。兩者使用的語法為：

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

意為：將表中的記錄按字段 COLUMN1進行分組，按字段 COLUMN2 進行排序，其中

PARTITION BY：表示分組ORDER BY：表示排序

接下來，咱們還用表“CESHIDEMO”中的數(shù)據(jù)進行測試。首先，給出沒有使用 row_number() over() 函數(shù)時查詢的結果，如下所示：

添加一條記錄

然后，運行如下 SQL 語句，

select PPPRDER.CESHIDEMO.*, row_number() over(partition by age order by name desc) from PPPRDER.CESHIDEMO

得到的結果如下所示：

函數(shù)

從上面的結果可以看出，其在原表的基礎上，多了一列標有數(shù)字排序的列。那么反過來分析咱們運行的 SQL 語句，發(fā)現(xiàn)其確實按字段 AGE 的值進行分組了，也按字段 NAME 的值進行排序啦！因此，函數(shù)的功能得到了驗證。

接下來，咱們就研究如何用 row_number() over() 函數(shù)實現(xiàn)“去重”的功能。通過觀察上面的結果，咱們可以發(fā)現(xiàn)，如果以 NAME 分組，以 AGE 排序，然后再取每組的第一個記錄或許就可以實現(xiàn)“去重”的功能??！那么試試看，運行如下 SQL 語句，

/*
* 其中 rn 表示最后添加的那一列
*/

select * from 
(select PPPRDER.CESHIDEMO.*, row_number() over(partition by name order by age desc) rn from PPPRDER.CESHIDEMO)
where rn = 1

運行后，得到的結果如下所示：

觀察以上的結果，我們發(fā)現(xiàn)，哎呀，數(shù)據(jù)“去重”的功能一不小心就被咱們實現(xiàn)了??！不過很遺憾，如果咱們細心的話，會發(fā)現(xiàn)一個很不爽的事情，那就是在執(zhí)行以上 SQL 語句進行“去重”的時候，有一條 NAME 值為“gavin”、AGE 值為“18”的記錄被過濾掉了，但是在現(xiàn)實生活會中，同名不同年齡的事情太正常了。

4 總結

通過閱讀及實踐以上內(nèi)容，咱們已經(jīng)知道了，無論是用關鍵字 distinct 還是用函數(shù) row_number() over() 都可以實現(xiàn)數(shù)據(jù)“去重”的功能。但是在實現(xiàn)使用的過程中，咱們要特別注意兩者的用法特點以及區(qū)別。

在使用關鍵字 distinct 的時候，咱們要知道其作用于單個字段和多個字段的時候是有區(qū)別的，作用于單個字段時，其“去重”的是表中所有該字段值重復的數(shù)據(jù)；作用于多個字段的時候，其“去重”的表中所有字段（即 distinct 具體作用的多個字段）值都相同的數(shù)據(jù)。

在使用函數(shù) row_number() over() 的時候，其是按先分組排序后，再取出每組的第一條記錄來進行“去重”的（在本篇博文中如此）。當然，在此處咱們還可以通過不同的限制條件來進行“去重”，具體如何實現(xiàn)，就需要大家自己去動腦思考啦！

最后，在本篇博文中，作者詳述了自己對用關鍵字 distinct 和函數(shù) row_number() over() 進行數(shù)據(jù)“去重”的一些認識，希望以上的內(nèi)容能夠?qū)Υ蠹矣兴鶐椭?/p>

感謝閱讀，希望能幫助到大家，謝謝大家對本站的支持！

您可能感興趣的文章: