快捷導(dǎo)航

java實(shí)現(xiàn)字符與Unicode碼轉(zhuǎn)換(附源碼)

更新時(shí)間：2025年07月08日 10:24:34 作者：Katie。

在 Java 開發(fā)中,經(jīng)常需要在字符（char 或 String）與其對(duì)應(yīng)的Unicode 碼點(diǎn)（int）之間進(jìn)行相互轉(zhuǎn)換,下面小編就來(lái)和大家詳細(xì)介紹一下具體實(shí)現(xiàn)方法吧

一、項(xiàng)目背景詳細(xì)介紹

在 Java 開發(fā)中，經(jīng)常需要在字符（char 或 String）與其對(duì)應(yīng)的Unicode 碼點(diǎn)（int）之間進(jìn)行相互轉(zhuǎn)換，以滿足以下場(chǎng)景：

文本處理：在處理多語(yǔ)言文本時(shí)，需要獲得字符的 Unicode 碼點(diǎn)來(lái)判斷字符類別或進(jìn)行編碼轉(zhuǎn)換；
編碼調(diào)試：調(diào)試亂碼問(wèn)題時(shí)，通過(guò)打印字符的碼點(diǎn)及其十六進(jìn)制值，定位問(wèn)題字符；
安全過(guò)濾：對(duì)輸入字符按 Unicode 區(qū)間分類（如中文、Emoji、特殊符號(hào)）實(shí)現(xiàn)過(guò)濾或轉(zhuǎn)義；
工具開發(fā)：編寫字符檢索、正則可視化、字體測(cè)試等工具，需要顯示字符串中每個(gè)字符的碼點(diǎn)；
協(xié)議與數(shù)據(jù)交換：在協(xié)議設(shè)計(jì)或二進(jìn)制數(shù)據(jù)處理中，需要將字符轉(zhuǎn)換為固定寬度的 Unicode 編碼。

因此，提供一套簡(jiǎn)潔易用的 Java 工具，以便在字符↔碼點(diǎn)、碼點(diǎn)↔Unicode 轉(zhuǎn)義序列之間互轉(zhuǎn)，對(duì)于提高開發(fā)效率和保證編碼安全具有重要意義。

二、項(xiàng)目需求詳細(xì)介紹

1.字符到碼點(diǎn)

提供方法將單個(gè) char 或 String 中的每個(gè)字符，轉(zhuǎn)換為對(duì)應(yīng)的 Unicode 碼點(diǎn)（int）；
以十進(jìn)制、十六進(jìn)制（0xXXXX）或 Unicode 轉(zhuǎn)義形式（\uXXXX）輸出。

2.碼點(diǎn)到字符

提供方法將給定十進(jìn)制或十六進(jìn)制碼點(diǎn)，轉(zhuǎn)換為對(duì)應(yīng)的 char；
對(duì)超出 BMP（基本多文種平面，>0xFFFF）的碼點(diǎn)，支持 Character.toChars(int) 返回 UTF-16 代理對(duì)。

3.字符串編碼/解碼

將整段字符串轉(zhuǎn)為一串 \uXXXX 格式的轉(zhuǎn)義序列；
將含有 Unicode 轉(zhuǎn)義的字符串（如 "\\u4E2D\\u6587"）解析還原為原始字符。

4.易用 API

工具類 UnicodeUtils：

List<Integer> toCodePoints(String text);
String toHexCodes(String text);
String toUnicodeEscapes(String text);
String fromUnicodeEscapes(String escapes);
char fromCodePoint(int codePoint);

5.邊界與錯(cuò)誤處理

對(duì)非法轉(zhuǎn)義序列拋出明確異?；蛱^(guò)；
對(duì)超出 Character.MAX_CODE_POINT 的碼點(diǎn)校驗(yàn)并提示。

6.性能與線程安全

工具方法無(wú)共享可變狀態(tài)，可安全并發(fā)調(diào)用；
對(duì)大文本批量轉(zhuǎn)換時(shí)，性能應(yīng)在可接受范圍。

三、相關(guān)技術(shù)詳細(xì)介紹

1.Java 字符與碼點(diǎn) API

char 存儲(chǔ) UTF-16 單元，范圍 0x0000–0xFFFF；
int codePoint = text.codePointAt(index) 獲取碼點(diǎn)；
int[] cps = text.codePoints().toArray() 批量獲取；
char[] chars = Character.toChars(codePoint) 處理代理對(duì)。

2.字符串轉(zhuǎn)義與正則

Unicode 轉(zhuǎn)義格式 \uXXXX，16 進(jìn)制 4 位；
使用正則 \\\\u([0-9A-Fa-f]{4}) 匹配并替換。

3.錯(cuò)誤與異常

非法十六進(jìn)制字符需捕獲 NumberFormatException；
未匹配的轉(zhuǎn)義序列可按原文保留或拋 IllegalArgumentException。

4.性能考慮

使用 StringBuilder 進(jìn)行拼接，避免字符串大量中間創(chuàng)建；
對(duì)流式 API（codePoints(), mapToObj）處理大文本更直觀。

四、實(shí)現(xiàn)思路詳細(xì)介紹

1.提取碼點(diǎn)

toCodePoints(String)：遍歷 text.codePoints()，收集至 List<Integer>；

toHexCodes：在 toCodePoints 基礎(chǔ)上，將每個(gè) int 格式化為 String.format("0x%04X", cp)。

2.生成轉(zhuǎn)義序列

toUnicodeEscapes(String)：對(duì)每個(gè)碼點(diǎn)，若 <0x10000 則 \uXXXX，否則先 toChars 得到代理對(duì)，再分別轉(zhuǎn)義。

3.解析轉(zhuǎn)義

fromUnicodeEscapes(String)：使用正則查找 \\uXXXX，對(duì)每個(gè)匹配組 XXXX 調(diào)用 Integer.parseInt(...,16) 轉(zhuǎn)為 char，替換原文；

4.單點(diǎn)轉(zhuǎn)換

fromCodePoint(int)：校驗(yàn)范圍后返回 Character.toChars(codePoint)[0] 或代理對(duì)組合。

/*
 * =====================================================
 * File: UnicodeUtils.java
 * 工具類：字符 ? Unicode 碼點(diǎn) 轉(zhuǎn)換與轉(zhuǎn)義
 * =====================================================
 */
package com.example.unicode;

import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors;

public final class UnicodeUtils {
    private static final Pattern UNICODE_ESCAPE = Pattern.compile("\\\\u([0-9A-Fa-f]{4})");

    private UnicodeUtils() { /* 禁止實(shí)例化 */ }

    /**
     * 將字符串拆分為碼點(diǎn)列表
     */
    public static List<Integer> toCodePoints(String text) {
        if (text == null) return Collections.emptyList();
        return text.codePoints()
                   .boxed()
                   .collect(Collectors.toList());
    }

    /**
     * 將字符串轉(zhuǎn)換為十六進(jìn)制碼點(diǎn)表示，如 "0x4E2D 0x6587"
     */
    public static String toHexCodes(String text) {
        return toCodePoints(text).stream()
            .map(cp -> String.format("0x%04X", cp))
            .collect(Collectors.joining(" "));
    }

    /**
     * 將字符串編碼為 Unicode 轉(zhuǎn)義序列，如 "\\u4E2D\\u6587"
     */
    public static String toUnicodeEscapes(String text) {
        if (text == null) return "";
        StringBuilder sb = new StringBuilder();
        for (int cp : text.codePoints().toArray()) {
            if (cp <= 0xFFFF) {
                sb.append(String.format("\\u%04X", cp));
            } else {
                // 代理對(duì)
                char[] surrogates = Character.toChars(cp);
                sb.append(String.format("\\u%04X", (int) surrogates[0]));
                sb.append(String.format("\\u%04X", (int) surrogates[1]));
            }
        }
        return sb.toString();
    }

    /**
     * 將含有 Unicode 轉(zhuǎn)義序列的字符串還原
     */
    public static String fromUnicodeEscapes(String escapes) {
        if (escapes == null) return "";
        Matcher m = UNICODE_ESCAPE.matcher(escapes);
        StringBuffer sb = new StringBuffer();
        while (m.find()) {
            String hex = m.group(1);
            int cp = Integer.parseInt(hex, 16);
            m.appendReplacement(sb, new String(Character.toChars(cp)));
        }
        m.appendTail(sb);
        return sb.toString();
    }

    /**
     * 從單個(gè)碼點(diǎn)構(gòu)造字符（僅 BMP）
     */
    public static char fromCodePoint(int codePoint) {
        if (codePoint < Character.MIN_CODE_POINT || codePoint > Character.MAX_CODE_POINT) {
            throw new IllegalArgumentException(
                "碼點(diǎn)超出范圍: " + codePoint);
        }
        if (codePoint <= 0xFFFF) {
            return (char) codePoint;
        }
        // 非 BMP 碼點(diǎn)，返回第一個(gè)代理項(xiàng)
        return Character.toChars(codePoint)[0];
    }
}

代碼詳細(xì)解讀

1.toCodePoints(String)

使用 String.codePoints() 獲取 UTF-16 編碼下的所有碼點(diǎn)，裝箱為 List<Integer> 返回。

2.toHexCodes(String)

基于碼點(diǎn)列表，將每個(gè)碼點(diǎn)格式化為 "0x%04X" 并以空格分隔，便于調(diào)試查看。

3.toUnicodeEscapes(String)

遍歷每個(gè)碼點(diǎn)：若在 BMP（≤ 0xFFFF），直接生成 \uXXXX；
若為輔助平面碼點(diǎn)（> 0xFFFF），使用 Character.toChars 生成代理對(duì)（兩個(gè) char），分別轉(zhuǎn)義。

4.fromUnicodeEscapes(String)

通過(guò)正則 \\u([0-9A-Fa-f]{4}) 匹配所有轉(zhuǎn)義子串；
對(duì)每一個(gè)四位十六進(jìn)制數(shù)，解析為碼點(diǎn)并轉(zhuǎn)換為字符（支持代理對(duì)），替換進(jìn)結(jié)果。

5.fromCodePoint(int)

校驗(yàn)碼點(diǎn)范圍，若在 BMP 區(qū)間則返回單個(gè) char；如超出，則返回對(duì)應(yīng)的第一個(gè)代理項(xiàng)（一般不建議僅取一半，使用 toChars 全面處理）。

項(xiàng)目詳細(xì)總結(jié)

本工具類 UnicodeUtils 提供了字符 ↔ 碼點(diǎn)及Unicode 轉(zhuǎn)義的雙向轉(zhuǎn)換方法：

碼點(diǎn)提取：通過(guò) codePoints() 準(zhǔn)確獲取包括輔助平面字符在內(nèi)的所有碼點(diǎn)；
十六進(jìn)制表示：將碼點(diǎn)格式化為 0xXXXX 風(fēng)格，便于調(diào)試與日志記錄；
轉(zhuǎn)義與反轉(zhuǎn)義：支持將任意字符串編碼為 \uXXXX 序列，并能精確還原回原始字符；
邊界處理：對(duì)超出 BMP 的碼點(diǎn)正確生成代理對(duì)轉(zhuǎn)義，并在還原時(shí)支持解碼。

項(xiàng)目常見問(wèn)題及解答

為何要區(qū)分 BMP 與輔助平面？

Java char 為 UTF-16 單元，BMP 碼點(diǎn)對(duì)應(yīng)單個(gè) char，輔助平面需使用代理對(duì)（兩個(gè) char）。

fromCodePoint 為什么只返回第一個(gè)代理項(xiàng)？

該方法示例僅展示如何校驗(yàn)并返回 char；如需全字符，應(yīng)使用 Character.toChars 并處理完整 char[]。

轉(zhuǎn)義序列中的大寫 X 與小寫 x 有區(qū)別？

Java 標(biāo)準(zhǔn)僅支持 \u 小寫，后續(xù)的 4 位十六進(jìn)制不區(qū)分大小寫。

非法轉(zhuǎn)義序列如何處理？

本實(shí)現(xiàn)只替換匹配的合法 \uXXXX，其它內(nèi)容保留原文；若需嚴(yán)格校驗(yàn)，可在替換后檢查剩余反斜杠。

性能瓶頸在哪里？

正則替換和流式碼點(diǎn)處理會(huì)在大文本中產(chǎn)生較多對(duì)象，可考慮復(fù)用 Matcher 或使用低級(jí)循環(huán)優(yōu)化。

擴(kuò)展方向與性能優(yōu)化

全代理對(duì)支持

改進(jìn) fromCodePoint 返回完整 String，而非單個(gè) char，確保輔助平面字符完整；

并行流處理

對(duì)超大文本可用 text.codePoints().parallel().mapToObj(...) 并行轉(zhuǎn)換，提升吞吐；

自定義轉(zhuǎn)義格式

支持 &#xXXXX;、&#DDDD; HTML/XML 風(fēng)格的 Unicode 表示；

API 豐富

增加 toDecimalCodes 輸出十進(jìn)制碼點(diǎn)列表；

增加 escapeNonAscii 僅轉(zhuǎn)義非 ASCII 字符。

工具集成

將該工具打包為 CLI 應(yīng)用，或集成到 Web UI 前端，實(shí)時(shí)顯示字符與碼點(diǎn)對(duì)應(yīng)關(guān)系。

到此這篇關(guān)于java實(shí)現(xiàn)字符與Unicode碼轉(zhuǎn)換(附源碼)的文章就介紹到這了,更多相關(guān)java字符與Unicode碼轉(zhuǎn)換內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: