C#集合數(shù)據(jù)去重的5種方式及對(duì)比分析
BenchmarkDotNet介紹
BenchmarkDotNet是一個(gè)基于.NET開源、功能全面、易于使用的性能基準(zhǔn)測試框架,它為.NET開發(fā)者提供了強(qiáng)大的性能評(píng)估和優(yōu)化能力。通過自動(dòng)化測試、多平臺(tái)支持、高級(jí)統(tǒng)計(jì)分析和自定義配置等特性,BenchmarkDotNet幫助開發(fā)者更好地理解和優(yōu)化軟件系統(tǒng)的性能表現(xiàn)。
使用HashSet去重
C# 中的 HashSet 是一種集合類型,它確保其中的元素是唯一的,不允許重復(fù)值的存在。當(dāng)你嘗試向 HashSet 中添加一個(gè)重復(fù)的元素時(shí),HashSet 會(huì)忽略重復(fù)的值,而不會(huì)引發(fā)錯(cuò)誤。這使得 HashSet 成為一個(gè)非常方便的數(shù)據(jù)結(jié)構(gòu),用于存儲(chǔ)一組唯一的元素,并且在需要時(shí)可以高效地進(jìn)行查找、插入和刪除操作,注意HashSet中的元素是無序的。
/// <summary> /// 使用HashSet去重 /// TODO:HashSet是一個(gè)集合類,它的特點(diǎn)是不允許重復(fù)元素,可以方便地實(shí)現(xiàn)去重功能。 /// </summary> public static void HashSetDuplicate() { var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 }; HashSet<int> uniqueData = new HashSet<int>(dataSource); Console.WriteLine(string.Join(", ", uniqueData)); }
使用循環(huán)遍歷去重
/// <summary> /// 直接循環(huán)遍歷去重 /// </summary> public static void LoopTraversalDuplicate() { var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 }; var uniqueData = new List<int>(); foreach (var item in dataSource) { //if (!uniqueData.Any(x => x == item)) //if (!uniqueData.Exists(x => x == item)) if (!uniqueData.Contains(item)) { uniqueData.Add(item); } } Console.WriteLine(string.Join(", ", uniqueData)); }
使用Linq的Distinct()方法去重
Linq中的Distinct()方法用于從集合中篩選出不重復(fù)的元素。Distinct()方法基于元素的相等性來進(jìn)行篩選,并返回一個(gè)包含不重復(fù)元素的新序列。底層實(shí)現(xiàn)還是使用到了HashSet。
/// <summary> /// 使用Linq的Distinct()方法去重 /// </summary> public static void DistinctDuplicate() { var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 }; var uniqueData = dataSource.Distinct().ToList(); Console.WriteLine(string.Join(", ", uniqueData)); }
使用Linq的GroupBy()方法去重
GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會(huì)有一個(gè)唯一的鍵,通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素,實(shí)現(xiàn)了去重的效果。
/// <summary> /// 使用Linq的GroupBy()方法去重 /// </summary> public static void GroupByDuplicate() { var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 }; //GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會(huì)有一個(gè)唯一的鍵,通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素,實(shí)現(xiàn)了去重的效果。 var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList(); Console.WriteLine(string.Join(", ", uniqueData)); }
使用自定義的比較器和循環(huán)遍歷
/// <summary> /// 使用自定義的比較器和循環(huán)遍歷 /// </summary> public static void CustomEqualityComparerDuplicate() { var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 }; var uniqueData = new List<int>(); foreach (var item in dataSource) { if (!uniqueData.Contains(item, new CustomEqualityComparer())) { uniqueData.Add(item); } } Console.WriteLine(string.Join(", ", uniqueData)); } /// <summary> /// 自定義的比較器 /// </summary> public class CustomEqualityComparer : IEqualityComparer<int> { public bool Equals(int x, int y) { return x == y; } public int GetHashCode(int obj) { return obj.GetHashCode(); } }
性能基準(zhǔn)對(duì)比測試分析
接下來我們使用BenchmarkDotNet
對(duì)這5種集合去重的方式進(jìn)行性能基準(zhǔn)對(duì)比測試分析。
測試代碼
using BenchmarkDotNet.Attributes; namespace BenchmarkDotNetExercise { [MemoryDiagnoser]//記錄內(nèi)存分配情況 public class DataSetDeduplicationBenchmark { private List<int> dataSource; public DataSetDeduplicationBenchmark() { // 生成大量重復(fù)數(shù)據(jù) dataSource = Enumerable.Repeat(Enumerable.Range(1, 100), 10000).SelectMany(x => x).ToList(); } /// <summary> /// 使用HashSet去重 /// TODO:HashSet是一個(gè)集合類,它的特點(diǎn)是不允許重復(fù)元素,可以方便地實(shí)現(xiàn)去重功能。 /// </summary> [Benchmark] public void HashSetDuplicate() { HashSet<int> uniqueData = new HashSet<int>(dataSource); } /// <summary> /// 直接循環(huán)遍歷去重 /// </summary> [Benchmark] public void LoopTraversalDuplicate() { var uniqueData = new List<int>(); foreach (var item in dataSource) { //if (!uniqueData.Any(x => x == item)) //if (!uniqueData.Exists(x => x == item)) if (!uniqueData.Contains(item)) { uniqueData.Add(item); } } } /// <summary> /// 使用Linq的Distinct()方法去重 /// </summary> [Benchmark] public void DistinctDuplicate() { var uniqueData = dataSource.Distinct().ToList(); } /// <summary> /// 使用Linq的GroupBy()方法去重 /// </summary> [Benchmark] public void GroupByDuplicate() { //GroupBy()方法將原始集合中的元素進(jìn)行分組,根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會(huì)有一個(gè)唯一的鍵,通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素,實(shí)現(xiàn)了去重的效果。 var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList(); } /// <summary> /// 使用自定義的比較器和循環(huán)遍歷 /// </summary> [Benchmark] public void CustomEqualityComparerDuplicate() { var uniqueData = new List<int>(); foreach (var item in dataSource) { if (!uniqueData.Contains(item, new CustomEqualityComparer())) { uniqueData.Add(item); } } } /// <summary> /// 自定義的比較器 /// </summary> public class CustomEqualityComparer : IEqualityComparer<int> { public bool Equals(int x, int y) { return x == y; } public int GetHashCode(int obj) { return obj.GetHashCode(); } } } }
分析生成的報(bào)告
Method | Mean | Error | StdDev | Gen0 | Gen1 | Gen2 | Allocated |
---|---|---|---|---|---|---|---|
HashSetDuplicate | 7.043 ms | 0.0546 ms | 0.0511 ms | 343.7500 | 343.7500 | 343.7500 | 18169.63 KB |
LoopTraversalDuplicate | 7.385 ms | 0.0309 ms | 0.0274 ms | - | - | - | 1.16 KB |
DistinctDuplicate | 7.034 ms | 0.0497 ms | 0.0465 ms | 343.7500 | 343.7500 | 343.7500 | 18170.1 KB |
GroupByDuplicate | 12.685 ms | 0.1025 ms | 0.0958 ms | 2265.6250 | 1781.2500 | 515.6250 | 12843.65 KB |
CustomEqualityComparerDuplicate | 25.608 ms | 0.1826 ms | 0.1708 ms | 3812.5000 | - | - | 23438.68 KB |
說明:
- Mean: 所有測量值的算術(shù)平均值。
- Error: 99.9% 置信區(qū)間的一半。
- StdDev: 所有測量值的標(biāo)準(zhǔn)差。
- Gen0: 第 0 代 GC 每 1000 次操作收集一次。
- Gen1: 第 1 代 GC 每 1000 次操作收集一次。
- Gen2: 第 2 代 GC 每 1000 次操作收集一次。
- Allocated: 每次操作分配的內(nèi)存(僅托管內(nèi)存,包含所有內(nèi)容,1KB = 1024B)。
- 1 ms: 1 毫秒(0.001 秒)。
以上就是C#集合數(shù)據(jù)去重的5種方式及對(duì)比分析的詳細(xì)內(nèi)容,更多關(guān)于C#集合數(shù)據(jù)去重的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
手把手教你如何基于C#制作一個(gè)網(wǎng)址檢測工具
這篇文章主要給大家介紹了關(guān)于如何基于C#制作一個(gè)網(wǎng)址檢測工具的相關(guān)資料,文中通過圖文以及實(shí)例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用C#具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2023-02-02C#簡單讀取、改變文件的創(chuàng)建、修改及訪問時(shí)間的方法
這篇文章主要介紹了C#簡單讀取、改變文件的創(chuàng)建、修改及訪問時(shí)間的方法,涉及C#文件類SetCreationTime、SetLastWriteTime及SetLastAccessTime的相關(guān)使用技巧,需要的朋友可以參考下2015-07-07C#中委托的基礎(chǔ)入門與實(shí)現(xiàn)方法
這篇文章主要給大家介紹了關(guān)于C#中委托的基礎(chǔ)入門與實(shí)現(xiàn)方法的相關(guān)資料,究竟什么是委托,用最通俗易懂的話來講,你就可以把委托看成是用來執(zhí)行方法(函數(shù))的一個(gè)東西,需要的朋友可以參考下2021-08-08C#實(shí)現(xiàn)的中國移動(dòng)官網(wǎng)手機(jī)號(hào)碼采集器
這篇文章主要介紹了C#實(shí)現(xiàn)的中國移動(dòng)官網(wǎng)手機(jī)號(hào)碼采集器,本文先是采集號(hào)碼入庫,同時(shí)給出了篩選各類靚號(hào)的SQL語句,需要的朋友可以參考下2014-10-10c#中Winform實(shí)現(xiàn)多線程異步更新UI(進(jìn)度及狀態(tài)信息)
本篇文章主要介紹了c#中Winform實(shí)現(xiàn)多線程異步更新UI(進(jìn)度及狀態(tài)信息) ,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-02-02c#數(shù)據(jù)庫與TXT導(dǎo)入導(dǎo)出的實(shí)例
最近剛學(xué)完ADO.NET,做了個(gè)數(shù)據(jù)導(dǎo)入導(dǎo)出的題目,是將txt中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,然后將數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)出到txt中,這里說的數(shù)據(jù)的格式是“tom|23”,tom指名字,23指年齡。廢話也不多說了,大家直接看代碼。2013-04-04