快捷導(dǎo)航

C#集合數(shù)據(jù)去重的5種方式及對比分析

更新時(shí)間：2024年11月29日 08:28:31 作者：追逐時(shí)光者

今天我們一起來討論一下關(guān)于C#集合數(shù)據(jù)去重的5種方式并且使用BenchmarkDotNet對這5種方式進(jìn)行性能基準(zhǔn)對比測試分析,每種方法都有其特點(diǎn)和適用場景,我們可以根據(jù)具體需求和執(zhí)行效率選擇一種進(jìn)行使用,需要的朋友可以參考下

BenchmarkDotNet介紹

BenchmarkDotNet是一個(gè)基于.NET開源、功能全面、易于使用的性能基準(zhǔn)測試框架，它為.NET開發(fā)者提供了強(qiáng)大的性能評估和優(yōu)化能力。通過自動(dòng)化測試、多平臺支持、高級統(tǒng)計(jì)分析和自定義配置等特性，BenchmarkDotNet幫助開發(fā)者更好地理解和優(yōu)化軟件系統(tǒng)的性能表現(xiàn)。

使用HashSet去重

C# 中的 HashSet 是一種集合類型，它確保其中的元素是唯一的，不允許重復(fù)值的存在。當(dāng)你嘗試向 HashSet 中添加一個(gè)重復(fù)的元素時(shí)，HashSet 會忽略重復(fù)的值，而不會引發(fā)錯(cuò)誤。這使得 HashSet 成為一個(gè)非常方便的數(shù)據(jù)結(jié)構(gòu)，用于存儲一組唯一的元素，并且在需要時(shí)可以高效地進(jìn)行查找、插入和刪除操作，注意HashSet中的元素是無序的。

        /// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一個(gè)集合類，它的特點(diǎn)是不允許重復(fù)元素，可以方便地實(shí)現(xiàn)去重功能。
        /// </summary>
        public static void HashSetDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            HashSet<int> uniqueData = new HashSet<int>(dataSource);

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用循環(huán)遍歷去重

        /// <summary>
        /// 直接循環(huán)遍歷去重
        /// </summary>
        public static void LoopTraversalDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的Distinct()方法去重

Linq中的Distinct()方法用于從集合中篩選出不重復(fù)的元素。Distinct()方法基于元素的相等性來進(jìn)行篩選，并返回一個(gè)包含不重復(fù)元素的新序列。底層實(shí)現(xiàn)還是使用到了HashSet。

        /// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        public static void DistinctDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = dataSource.Distinct().ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的GroupBy()方法去重

GroupBy()方法將原始集合中的元素進(jìn)行分組，根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會有一個(gè)唯一的鍵，通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素，實(shí)現(xiàn)了去重的效果。

        /// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        public static void GroupByDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };

            //GroupBy()方法將原始集合中的元素進(jìn)行分組，根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會有一個(gè)唯一的鍵，通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素，實(shí)現(xiàn)了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用自定義的比較器和循環(huán)遍歷

        /// <summary>
        /// 使用自定義的比較器和循環(huán)遍歷
        /// </summary>
        public static void CustomEqualityComparerDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

        /// <summary>
        /// 自定義的比較器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {
                return obj.GetHashCode();
            }
        }

性能基準(zhǔn)對比測試分析

接下來我們使用BenchmarkDotNet對這5種集合去重的方式進(jìn)行性能基準(zhǔn)對比測試分析。

測試代碼

using BenchmarkDotNet.Attributes;

namespace BenchmarkDotNetExercise
{
    [MemoryDiagnoser]//記錄內(nèi)存分配情況
    public class DataSetDeduplicationBenchmark
    {
        private List<int> dataSource;

        public DataSetDeduplicationBenchmark()
        {
            // 生成大量重復(fù)數(shù)據(jù)  
            dataSource = Enumerable.Repeat(Enumerable.Range(1, 100), 10000).SelectMany(x => x).ToList();
        }

        /// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一個(gè)集合類，它的特點(diǎn)是不允許重復(fù)元素，可以方便地實(shí)現(xiàn)去重功能。
        /// </summary>
        [Benchmark]
        public void HashSetDuplicate()
        {
            HashSet<int> uniqueData = new HashSet<int>(dataSource);
        }

        /// <summary>
        /// 直接循環(huán)遍歷去重
        /// </summary>
        [Benchmark]
        public void LoopTraversalDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        [Benchmark]
        public void DistinctDuplicate()
        {
            var uniqueData = dataSource.Distinct().ToList();
        }

        /// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        [Benchmark]
        public void GroupByDuplicate()
        {
            //GroupBy()方法將原始集合中的元素進(jìn)行分組，根據(jù)指定的鍵或條件進(jìn)行分組。每個(gè)分組都會有一個(gè)唯一的鍵，通過將原始集合分組并選擇每個(gè)分組中的第一個(gè)元素，實(shí)現(xiàn)了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();
        }

        /// <summary>
        /// 使用自定義的比較器和循環(huán)遍歷
        /// </summary>
        [Benchmark]
        public void CustomEqualityComparerDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 自定義的比較器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {
                return obj.GetHashCode();
            }
        }
    }
}

分析生成的報(bào)告

Method	Mean	Error	StdDev	Gen0	Gen1	Gen2	Allocated
HashSetDuplicate	7.043 ms	0.0546 ms	0.0511 ms	343.7500	343.7500	343.7500	18169.63 KB
LoopTraversalDuplicate	7.385 ms	0.0309 ms	0.0274 ms	-	-	-	1.16 KB
DistinctDuplicate	7.034 ms	0.0497 ms	0.0465 ms	343.7500	343.7500	343.7500	18170.1 KB
GroupByDuplicate	12.685 ms	0.1025 ms	0.0958 ms	2265.6250	1781.2500	515.6250	12843.65 KB
CustomEqualityComparerDuplicate	25.608 ms	0.1826 ms	0.1708 ms	3812.5000	-	-	23438.68 KB