C#使用位域技術進行對象二進制序列化優(yōu)
1. 引言
在操作系統(tǒng)中,進程信息對于系統(tǒng)監(jiān)控和性能分析至關重要。假設我們需要開發(fā)一個監(jiān)控程序,該程序能夠捕獲當前操作系統(tǒng)的進程信息,并將其高效地傳輸?shù)狡渌耍ㄈ绶斩嘶虮O(jiān)控端)。在這個過程中,如何將捕獲到的進程對象轉換為二進制數(shù)據(jù),并進行優(yōu)化,以減小數(shù)據(jù)包的大小,成為了一個關鍵問題。本文將通過逐步分析,探討如何使用位域技術對C#對象進行二進制序列化優(yōu)化。

首先,我們給出了一個進程對象的字段定義示例。為了通過網(wǎng)絡(TCP/UDP)傳輸該對象,我們需要將其轉換為二進制格式。在這個過程中,如何做到最小的數(shù)據(jù)包大小是一個挑戰(zhàn)。
| 字段名 | 說明 | 示例 |
|---|---|---|
| PID | 進程ID | 10565 |
| Name | 進程名稱 | 碼界工坊 |
| Publisher | 發(fā)布者 | 沙漠盡頭的狼 |
| CommandLine | 命令行 | dotnet CodeWF.Tools.dll |
| CPU | CPU(所有內核的總處理利用率) | 2.3% |
| Memory | 內存(進程占用的物理內存) | 0.1% |
| Disk | 磁盤(所有物理驅動器的總利用率) | 0.1 MB/秒 |
| Network | 網(wǎng)絡(當前主要網(wǎng)絡上的網(wǎng)絡利用率 | 0 Mbps |
| GPU | GPU(所有GPU引擎的最高利用率) | 2.2% |
| GPUEngine | GPU引擎 | GPU 0 - 3D |
| PowerUsage | 電源使用情況(CPU、磁盤和GPU對功耗的影響) | 低 |
| PowerUsageTrend | 電源使用情況趨勢(一段時間內CPU、磁盤和GPU對功耗的影響) | 非常低 |
| Type | 進程類型 | 應用 |
| Status | 進程狀態(tài) | 效率模式 |
2. 優(yōu)化過程
2.1. 進程對象定義與初步分析
我們根據(jù)字段的示例值確定了每個字段的數(shù)據(jù)類型。
| 字段名 | 數(shù)據(jù)類型 | 說明 | 示例 |
|---|---|---|---|
| PID | int | 進程ID | 10565 |
| Name | string? | 進程名稱 | 碼界工坊 |
| Publisher | string? | 發(fā)布者 | 沙漠盡頭的狼 |
| CommandLine | string? | 命令行 | dotnet CodeWF.Tools.dll |
| CPU | string? | CPU(所有內核的總處理利用率) | 2.3% |
| Memory | string? | 內存(進程占用的物理內存) | 0.1% |
| Disk | string? | 磁盤(所有物理驅動器的總利用率) | 0.1 MB/秒 |
| Network | string? | 網(wǎng)絡(當前主要網(wǎng)絡上的網(wǎng)絡利用率 | 0 Mbps |
| GPU | string? | GPU(所有GPU引擎的最高利用率) | 2.2% |
| GPUEngine | string? | GPU引擎 | GPU 0 - 3D |
| PowerUsage | string? | 電源使用情況(CPU、磁盤和GPU對功耗的影響) | 低 |
| PowerUsageTrend | string? | 電源使用情況趨勢(一段時間內CPU、磁盤和GPU對功耗的影響) | 非常低 |
| Type | string? | 進程類型 | 應用 |
| Status | string? | 進程狀態(tài) | 效率模式 |
創(chuàng)建一個C#類SystemProcess表示進程信息:
public class SystemProcess
{
public int PID { get; set; }
public string? Name { get; set; }
public string? Publisher { get; set; }
public string? CommandLine { get; set; }
public string? CPU { get; set; }
public string? Memory { get; set; }
public string? Disk { get; set; }
public string? Network { get; set; }
public string? GPU { get; set; }
public string? GPUEngine { get; set; }
public string? PowerUsage { get; set; }
public string? PowerUsageTrend { get; set; }
public string? Type { get; set; }
public string? Status { get; set; }
}
定義測試數(shù)據(jù)
private SystemProcess _codeWFObject = new SystemProcess()
{
PID = 10565,
Name = "碼界工坊",
Publisher = "沙漠盡頭的狼",
CommandLine = "dotnet CodeWF.Tools.dll",
CPU = "2.3%",
Memory = "0.1%",
Disk = "0.1 MB/秒",
Network = "0 Mbps",
GPU = "2.2%",
GPUEngine = "GPU 0 - 3D",
PowerUsage = "低",
PowerUsageTrend = "非常低",
Type = "應用",
Status = "效率模式"
};
2.2. 排除Json序列化
將對象轉為Json字段串,這在Web開發(fā)是最常見的,因為簡潔,前后端都方便處理:
public class SysteProcessUnitTest
{
private readonly ITestOutputHelper _testOutputHelper;
private SystemProcess _codeWFObject // 前面已給出定義,這里省
public SysteProcessUnitTest(ITestOutputHelper testOutputHelper)
{
_testOutputHelper = testOutputHelper;
}
/// <summary>
/// Json序列化大小測試
/// </summary>
[Fact]
public void Test_SerializeJsonData_Success()
{
var jsonData = JsonSerializer.Serialize(_codeWFObject);
_testOutputHelper.WriteLine($"Json長度:{jsonData.Length}");
var jsonDataBytes = Encoding.UTF8.GetBytes(jsonData);
_testOutputHelper.WriteLine($"json二進制長度:{jsonDataBytes.Length}");
}
}
標準輸出:
Json長度:366
json二進制長度:366
盡管Json序列化在Web開發(fā)中非常流行,因為它簡潔且易于處理,但在TCP/UDP網(wǎng)絡傳輸中,Json序列化會導致不必要的數(shù)據(jù)包大小增加(冗余的字段名聲明)。因此,我們排除了Json序列化,并尋找其他更高效的二進制序列化方法。
{"PID":10565,"Name":"\u7801\u754C\u5DE5\u574A","Publisher":"\u6C99\u6F20\u5C3D\u5934\u7684\u72FC","CommandLine":"dotnet CodeWF.Tools.dll","CPU":"2.3%","Memory":"0.1%","Disk":"0.1 MB/\u79D2","Network":"0 Mbps","GPU":"2.2%","GPUEngine":"GPU 0 - 3D","PowerUsage":"\u4F4E","PowerUsageTrend":"\u975E\u5E38\u4F4E","Type":"\u5E94\u7528","Status":"\u6548\u7387\u6A21\u5F0F"}
2.3. 使用BinaryWriter進行二進制序列化
使用站長前面一篇文章寫的二進制序列化幫助類SerializeHelper轉換,該類使用BinaryWriter將對象轉換為二進制數(shù)據(jù)(反序列化使用BinaryReader)。
首先,我們使SystemProcess類實現(xiàn)了一個空接口INetObject,并在類上添加了NetHeadAttribute特性(加上了數(shù)據(jù)包頭部定義,便于多個網(wǎng)絡對象反序列化識別,序列化后會多出數(shù)個字節(jié),主要是系統(tǒng)Id、網(wǎng)絡對象Id、對象版本號等序列化輔助字段)。
/// <summary>
/// 網(wǎng)絡對象序列化接口
/// </summary>
public interface INetObject
{
}
[NetHead(1, 1)]
public class SystemProcess : INetObject
{
// 省略字段定義
}
然后,我們編寫了一個單元測試方法來驗證序列化和反序列化的正確性,并打印了序列化后的二進制數(shù)據(jù)長度。
/// <summary>
/// 二進制序列化測試
/// </summary>
[Fact]
public void Test_SerializeToBytes_Success()
{
var buffer = SerializeHelper.SerializeByNative(_codeWFObject, 1);
_testOutputHelper.WriteLine($"序列化后二進制長度:{buffer.Length}");
var deserializeObj = SerializeHelper.DeserializeByNative<SystemProcess>(buffer);
Assert.Equal("碼界工坊", deserializeObj.Name);
}
標準輸出:
序列化后二進制長度:152
比Json體積小了一半以上(366到152,還多了幾個字段哦),上面單元測試也測試了數(shù)據(jù)反序列化后驗證數(shù)據(jù)是否正確,我們就以這個基礎繼續(xù)優(yōu)化。
2.4. 數(shù)據(jù)類型調整
為了進一步優(yōu)化二進制數(shù)據(jù)的大小,我們對數(shù)據(jù)類型進行了調整。通過對進程數(shù)據(jù)示例的分析,我們發(fā)現(xiàn)一些字段的數(shù)據(jù)類型可以更加緊湊地表示。例如,CPU利用率可以只傳遞數(shù)字部分(如2.3),而不需要傳遞百分號;進程類型只傳遞枚舉值,而不用傳遞個性化字符串。這種調整可以減小數(shù)據(jù)包的大小。
| 字段名 | 數(shù)據(jù)類型 | 說明 | 示例 |
|---|---|---|---|
| PID | int | 進程ID | 10565 |
| Name | string? | 進程名稱 | 碼界工坊 |
| Publisher | string? | 發(fā)布者 | 沙漠盡頭的狼 |
| CommandLine | string? | 命令行 | dotnet CodeWF.Tools.dll |
| CPU | float | CPU(所有內核的總處理利用率) | 2.3 |
| Memory | float | 內存(進程占用的物理內存) | 0.1 |
| Disk | float | 磁盤(所有物理驅動器的總利用率) | 0.1 |
| Network | float | 網(wǎng)絡(當前主要網(wǎng)絡上的網(wǎng)絡利用率 | 0 |
| GPU | float | GPU(所有GPU引擎的最高利用率) | 2.2 |
| GPUEngine | byte | GPU引擎,0:無,1:GPU 0 - 3D | 1 |
| PowerUsage | byte | 電源使用情況(CPU、磁盤和GPU對功耗的影響),0:非常低,1:低,2:中,3:高,4:非常高 | 1 |
| PowerUsageTrend | byte | 電源使用情況趨勢(一段時間內CPU、磁盤和GPU對功耗的影響),0:非常低,1:低,2:中,3:高,4:非常高 | 0 |
| Type | byte | 進程類型,0:應用,1:后臺進程 | 0 |
| Status | byte | 進程狀態(tài),0:正常運行,1:效率模式,2:掛起 | 1 |
修改測試數(shù)據(jù)定義:
[NetHead(1, 2)]
public class SystemProcess2 : INetObject
{
public int PID { get; set; }
public string? Name { get; set; }
public string? Publisher { get; set; }
public string? CommandLine { get; set; }
public float CPU { get; set; }
public float Memory { get; set; }
public float Disk { get; set; }
public float Network { get; set; }
public float GPU { get; set; }
public byte GPUEngine { get; set; }
public byte PowerUsage { get; set; }
public byte PowerUsageTrend { get; set; }
public byte Type { get; set; }
public byte Status { get; set; }
}
/// <summary>
/// 普通優(yōu)化字段數(shù)據(jù)類型
/// </summary>
private SystemProcess2 _codeWFObject2 = new SystemProcess2()
{
PID = 10565,
Name = "碼界工坊",
Publisher = "沙漠盡頭的狼",
CommandLine = "dotnet CodeWF.Tools.dll",
CPU = 2.3f,
Memory = 0.1f,
Disk = 0.1f,
Network = 0,
GPU = 2.2f,
GPUEngine = 1,
PowerUsage = 1,
PowerUsageTrend = 0,
Type = 0,
Status = 1
};
添加單元測試如下:
/// <summary>
/// 二進制序列化測試
/// </summary>
[Fact]
public void Test_SerializeToBytes2_Success()
{
var buffer = SerializeHelper.SerializeByNative(_codeWFObject2, 1);
_testOutputHelper.WriteLine($"序列化后二進制長度:{buffer.Length}");
var deserializeObj = SerializeHelper.DeserializeByNative<SystemProcess2>(buffer);
Assert.Equal("碼界工坊", deserializeObj.Name);
Assert.Equal(2.2f, deserializeObj.GPU);
}
測試結果:
標準輸出:
序列化后二進制長度:99
包體積又優(yōu)化了1/3,由152字節(jié)減小到99字節(jié)長度,這是部分字段string?調整為float或byte的結果。
2.5. 再次數(shù)據(jù)類型調整與位域優(yōu)化
更進一步地,我們引入了位域技術。位域允許我們更加精細地控制字段在內存中的布局,從而進一步減小二進制數(shù)據(jù)的大小。我們重新定義了字段規(guī)則,并使用位域來表示一些枚舉值字段。通過這種方式,我們能夠顯著地減小數(shù)據(jù)包的大小。
看前面一張表和下表比對,主要是兩種數(shù)據(jù)類型調整,規(guī)則如下:
第一種:部分字段只是一些枚舉值,使用的byte表示,即8位(bit),其中比如進程類型只有2個狀態(tài)(0:應用,1:后臺進程),正好可以用1位表示(0、1);像電源使用情況,無非就是5個狀態(tài),用3位可表示全(可表示6種狀態(tài));
第二種:部分float數(shù)據(jù)類型,實際情況我們只會要求精確到小數(shù)位1位。數(shù)值表示的百分比,那么不會超過1(即100.0%),可以考慮取整,如23.3%,傳遞的23.3,乘以10,傳233即可,最大不會超過1000(即100.0,100%),另一進程解析數(shù)據(jù)后,再除以10使用,那么就可以將數(shù)據(jù)類型由float表示的4字節(jié)32位優(yōu)化為10位(最大值1024)。
按這個規(guī)則我們重新定義字段規(guī)則如下:
| 字段名 | 數(shù)據(jù)類型 | 說明 | 示例 |
|---|---|---|---|
| PID | int | 進程ID | 10565 |
| Name | string? | 進程名稱 | 碼界工坊 |
| Publisher | string? | 發(fā)布者 | 沙漠盡頭的狼 |
| CommandLine | string? | 命令行 | dotnet CodeWF.Tools.dll |
| Data | byte[8] | 固定大小的幾個字段,為啥是8個字節(jié)長度(注:反序列化還會多定義4個字節(jié)表示byte[]長度)?見下表定義 |
固定字段(Data)的詳細說明如下:
| 字段名 | Offset | Size | 說明 | 示例 |
|---|---|---|---|---|
| CPU | 0 | 10 | CPU(所有內核的總處理利用率),最后一位表示小數(shù)位,比如23表示2.3% | 23 |
| Memory | 10 | 10 | 內存(進程占用的物理內存),最后一位表示小數(shù)位,比如1表示0.1%,值可根據(jù)基本信息計算 | 1 |
| Disk | 20 | 10 | 磁盤(所有物理驅動器的總利用率),最后一位表示小數(shù)位,比如1表示0.1%,值可根據(jù)基本信息計算 | 1 |
| Network | 30 | 10 | 網(wǎng)絡(當前主要網(wǎng)絡上的網(wǎng)絡利用率),最后一位表示小數(shù)位,比如253表示25.3%,值可根據(jù)基本信息計算 | 0 |
| GPU | 40 | 10 | GPU(所有GPU引擎的最高利用率),最后一位表示小數(shù)位,比如253表示25.3 | 22 |
| GPUEngine | 50 | 1 | GPU引擎,0:無,1:GPU 0 - 3D | 1 |
| PowerUsage | 51 | 3 | 電源使用情況(CPU、磁盤和GPU對功耗的影響),0:非常低,1:低,2:中,3:高,4:非常高 | 1 |
| PowerUsageTrend | 54 | 3 | 電源使用情況趨勢(一段時間內CPU、磁盤和GPU對功耗的影響),0:非常低,1:低,2:中,3:高,4:非常高 | 0 |
| Type | 57 | 1 | 進程類型,0:應用,1:后臺進程 | 0 |
| Status | 58 | 2 | 進程狀態(tài),0:正常運行,1:效率模式,2:掛起 | 1 |
上面這張表是部分固定示例字段的位域規(guī)則表,Offset表示字段在Data字節(jié)數(shù)組中的位置(以bit為單位計算),Size表示字段在Data中占有的大小(同樣以bit單位計算),如Memory字段,在Data字節(jié)數(shù)組中,占據(jù)10到20位的空間。
由此就將固定大小的、原本25個字節(jié)長度的10個字段優(yōu)化到8字節(jié)了(5個float 4字節(jié)32位優(yōu)化為10位,單字節(jié)8位優(yōu)化到2位、4位、6位,即200位(25*8)優(yōu)化到64位(實際是60位,由于網(wǎng)絡傳輸最小單位是byte,所以向上取整8字節(jié)64位))。
修改類定義如下,注意看代碼中的注釋:
[NetHead(1, 3)]
public class SystemProcess3 : INetObject
{
public int PID { get; set; }
public string? Name { get; set; }
public string? Publisher { get; set; }
public string? CommandLine { get; set; }
private byte[]? _data;
/// <summary>
/// 序列化,這是實際需要序列化的數(shù)據(jù)
/// </summary>
public byte[]? Data
{
get => _data;
set
{
_data = value;
// 這是關鍵:在反序列化將byte轉換為對象,方便程序中使用(位域操作)
_processData = _data?.ToFieldObject<SystemProcessData>();
}
}
private SystemProcessData? _processData;
/// <summary>
/// 進程數(shù)據(jù),添加NetIgnoreMember在序列化會忽略
/// </summary>
[NetIgnoreMember]
public SystemProcessData? ProcessData
{
get => _processData;
set
{
_processData = value;
// 這里關鍵:將對象轉換為byte[](位域序列化操作)
_data = _processData?.FieldObjectBuffer();
}
}
}
public record SystemProcessData
{
[NetFieldOffset(0, 10)] public short CPU { get; set; }
[NetFieldOffset(10, 10)] public short Memory { get; set; }
[NetFieldOffset(20, 10)] public short Disk { get; set; }
[NetFieldOffset(30, 10)] public short Network { get; set; }
[NetFieldOffset(40, 10)] public short GPU { get; set; }
[NetFieldOffset(50, 1)] public byte GPUEngine { get; set; }
[NetFieldOffset(51, 3)] public byte PowerUsage { get; set; }
[NetFieldOffset(54, 3)] public byte PowerUsageTrend { get; set; }
[NetFieldOffset(57, 1)] public byte Type { get; set; }
[NetFieldOffset(58, 2)] public byte Status { get; set; }
}
添加單元測試如下:
/// <summary>
/// 極限優(yōu)化字段數(shù)據(jù)類型
/// </summary>
private SystemProcess3 _codeWFObject3 = new SystemProcess3()
{
PID = 10565,
Name = "碼界工坊",
Publisher = "沙漠盡頭的狼",
CommandLine = "dotnet CodeWF.Tools.dll",
ProcessData = new SystemProcessData()
{
CPU = 23,
Memory = 1,
Disk = 1,
Network = 0,
GPU = 22,
GPUEngine = 1,
PowerUsage = 1,
PowerUsageTrend = 0,
Type = 0,
Status = 1
}
};
/// <summary>
/// 二進制極限序列化測試
/// </summary>
[Fact]
public void Test_SerializeToBytes3_Success()
{
var buffer = SerializeHelper.SerializeByNative(_codeWFObject3, 1);
_testOutputHelper.WriteLine($"序列化后二進制長度:{buffer.Length}");
var deserializeObj = SerializeHelper.DeserializeByNative<SystemProcess3>(buffer);
Assert.Equal("碼界工坊", deserializeObj.Name);
Assert.Equal(23, deserializeObj.ProcessData.CPU);
Assert.Equal(1, deserializeObj.ProcessData.PowerUsage);
}
測試輸出:
標準輸出:
序列化后二進制長度:86
99又優(yōu)化到86個字節(jié),13個字節(jié)哦,有極限網(wǎng)絡環(huán)境下非常可觀,比如100萬數(shù)據(jù),那不就是12.4MB了?關于位域序列化和反序列的代碼這里不細說了,很枯燥,站長可能也說不清楚,代碼長這樣:
public partial class SerializeHelper
{
public static byte[] FieldObjectBuffer<T>(this T obj) where T : class
{
var properties = typeof(T).GetProperties();
var totalSize = 0;
// 計算總的bit長度
foreach (var property in properties)
{
if (!Attribute.IsDefined(property, typeof(NetFieldOffsetAttribute)))
{
continue;
}
var offsetAttribute =
(NetFieldOffsetAttribute)property.GetCustomAttribute(typeof(NetFieldOffsetAttribute))!;
totalSize = Math.Max(totalSize, offsetAttribute.Offset + offsetAttribute.Size);
}
var bufferLength = (int)Math.Ceiling((double)totalSize / 8);
var buffer = new byte[bufferLength];
foreach (var property in properties)
{
if (!Attribute.IsDefined(property, typeof(NetFieldOffsetAttribute)))
{
continue;
}
var offsetAttribute =
(NetFieldOffsetAttribute)property.GetCustomAttribute(typeof(NetFieldOffsetAttribute))!;
dynamic value = property.GetValue(obj)!; // 使用dynamic類型動態(tài)獲取屬性值
SetBitValue(ref buffer, value, offsetAttribute.Offset, offsetAttribute.Size);
}
return buffer;
}
public static T ToFieldObject<T>(this byte[] buffer) where T : class, new()
{
var obj = new T();
var properties = typeof(T).GetProperties();
foreach (var property in properties)
{
if (!Attribute.IsDefined(property, typeof(NetFieldOffsetAttribute)))
{
continue;
}
var offsetAttribute =
(NetFieldOffsetAttribute)property.GetCustomAttribute(typeof(NetFieldOffsetAttribute))!;
dynamic value = GetValueFromBit(buffer, offsetAttribute.Offset, offsetAttribute.Size,
property.PropertyType);
property.SetValue(obj, value);
}
return obj;
}
/// <summary>
/// 將值按位寫入buffer
/// </summary>
/// <param name="buffer"></param>
/// <param name="value"></param>
/// <param name="offset"></param>
/// <param name="size"></param>
private static void SetBitValue(ref byte[] buffer, int value, int offset, int size)
{
var mask = (1 << size) - 1;
buffer[offset / 8] |= (byte)((value & mask) << (offset % 8));
if (offset % 8 + size > 8)
{
buffer[offset / 8 + 1] |= (byte)((value & mask) >> (8 - offset % 8));
}
}
/// <summary>
/// 從buffer中按位讀取值
/// </summary>
/// <param name="buffer"></param>
/// <param name="offset"></param>
/// <param name="size"></param>
/// <param name="propertyType"></param>
/// <returns></returns>
private static dynamic GetValueFromBit(byte[] buffer, int offset, int size, Type propertyType)
{
var mask = (1 << size) - 1;
var bitValue = (buffer[offset / 8] >> (offset % 8)) & mask;
if (offset % 8 + size > 8)
{
bitValue |= (buffer[offset / 8 + 1] << (8 - offset % 8)) & mask;
}
dynamic result = Convert.ChangeType(bitValue, propertyType); // 根據(jù)屬性類型進行轉換
return result;
}
}
3. 優(yōu)化效果與總結
通過逐步優(yōu)化,我們從最初的Json序列化366字節(jié)減小到了使用普通二進制序列化的152字節(jié),再進一步使用位域技術優(yōu)化到了86字節(jié)。這種優(yōu)化在網(wǎng)絡傳輸中是非??捎^的,尤其是在需要傳輸大量數(shù)據(jù)的情況下。
本文通過一個示例案例,探討了C#對象二進制序列化的優(yōu)化方法。通過使用位域技術,我們實現(xiàn)了對數(shù)據(jù)包大小的極限壓縮,提高了網(wǎng)絡傳輸?shù)男?。這對于開發(fā)C/S程序來說是一種樂趣,也是追求極致性能的一種體現(xiàn)。
以上就是C#使用位域技術進行對象二進制序列化優(yōu)的詳細內容,更多關于C#對象二進制序列化的資料請關注腳本之家其它相關文章!
相關文章
C#實現(xiàn)十進制數(shù)轉換為十六進制的幾種方式
在C#中,十進制和十六進制轉換非常簡單,本文給大家介紹了C#實現(xiàn)十進制數(shù)轉換為十六進制的幾種方式,并通過代碼示例講解的非常詳細,對大家的學習或工作有一定的幫助,需要的朋友可以參考下2024-04-04
C#中String和StringBuilder的簡介與區(qū)別
今天小編就為大家分享一篇關于C#中String和StringBuilder的簡介與區(qū)別,小編覺得內容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2018-10-10

