快捷導(dǎo)航

Mysql建庫字符集和排序規(guī)則及說明

更新時(shí)間：2022年12月09日 15:45:25 作者：Lou_Lan

這篇文章主要介紹了Mysql建庫字符集和排序規(guī)則及說明，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

概述

我們?cè)谑褂胢ysql的時(shí)候，尤其是在創(chuàng)建數(shù)據(jù)庫的時(shí)候，我們需要選擇當(dāng)前數(shù)據(jù)庫的字符集和排序規(guī)則，這樣你庫里面的創(chuàng)建數(shù)據(jù)表的時(shí)候默認(rèn)的編碼方式就是庫選擇好的。

我們這里舊按照navicat創(chuàng)建數(shù)據(jù)庫的來說。（主要講述中國的使用習(xí)慣）

在這里插入圖片描述

由于漢字的特殊性，數(shù)量多等原因，我們一般在寫代碼或者寫其它文檔的時(shí)候都是選擇***UTF-8***的編碼方式，所以我們創(chuàng)建數(shù)據(jù)庫的時(shí)候一般是選擇UTF-8.但是我們可以看到數(shù)據(jù)床架的時(shí)候，字符集的選擇有：utf8 以及 utf8mb4 這兩種方式。

那么兩種因該是選擇哪一種呢，下面稍后看我給你吹（一般是utf8mb4）。

在這里插入圖片描述

字符集選擇結(jié)束之后我們還需要選擇這個(gè)排序規(guī)則，我們都知道字符集是保存數(shù)據(jù)時(shí)候需要的編碼方式，那么這個(gè)排序規(guī)則是干什么用的呢？

排序規(guī)則

是指對(duì)指定字符集下不同字符的比較規(guī)則。其特征有以下幾點(diǎn)

1.兩個(gè)不同的字符集不能有相同的排序規(guī)則
2.兩個(gè)字符集有一個(gè)默認(rèn)的排序規(guī)則
3.有一些常用的命名規(guī)則。如_ci結(jié)尾表示大小寫不敏感（caseinsensitive）,_cs表示大小寫敏感（case sensitive）,_bin表示二進(jìn)制的比較（binary）.

那么排序的規(guī)則應(yīng)該怎么選擇，也看下面我給你吹。

字符集的選擇

概述中我們已經(jīng)說了，在中國一般使用的編碼方式大部分都是UTF-8，但是mysql的數(shù)據(jù)庫中給出了兩種選“utf8”,一個(gè)是“utf8mb4”。

根據(jù)查詢資料得知mysql的“utf8”并不是我們常見到的UTF-8，反而“utf8mb4”是我們常用的UTF-8。

為什么會(huì)這樣呢？

根據(jù)查詢得知MYSQL中的“utf8”編碼只支持每個(gè)字符最大3個(gè)字節(jié)的編碼方式，而我們通常使用的UTF-8是每個(gè)字符最大4個(gè)字節(jié)的編碼方式。

這個(gè)問題在我們中國看來就是一個(gè)bug，但是MYSQL并沒有對(duì)這個(gè)bug進(jìn)行修復(fù)，而是在2010年增加了一個(gè)新的字符集“utf8mb4”，這個(gè)才對(duì)應(yīng)了我們常使用的UTF-8。

所以在我們這邊，尤其是存儲(chǔ)漢字的時(shí)候，需要使用的編碼方式是“utf8mb4”。

#查詢utf8和utf8mb4長(zhǎng)度信息
SHOW CHARSET LIKE 'utf8%';
# 修改表的字符集
ALTER TABLE dm_user CONVERT TO CHARACTER SET utf8mb4;

排序規(guī)則

編碼規(guī)則我就按照字符集是“utf8mb4”的繼續(xù)說明，我們要說的字符集主要就三個(gè)：

utf8mb4_bin
utf8mb4_general_ci
utf8mb4_unicode_ci

1. utf8mb4_bin

bin的意思就是二進(jìn)制的意思，也就是說排序查找的規(guī)則是按照二進(jìn)制的方式進(jìn)行查找的，這里就會(huì)涉及到我們常常說到的數(shù)據(jù)庫里面的大小寫區(qū)分。

比如說：

a的二進(jìn)制編碼是： 01100001
A的二進(jìn)制編碼是： 01000001

那么我們?cè)趫?zhí)行

SELECT * FROM dm_user WHERE username='a';
SELECT * FROM dm_user WHERE username='A';

這兩條sql語句的結(jié)果是不一樣的，因?yàn)閍和A的二進(jìn)制編碼是不一樣的。

2. utf8mb4_unicode_ci 和 utf8mb4_general_ci

首先要說明的是，這兩種排序規(guī)則都是不區(qū)分大小寫的，也就是說在這兩種排序規(guī)則下，a和A是一樣的。

根據(jù)資料了解，這兩種排序規(guī)則要從兩個(gè)方面來看，一個(gè)是準(zhǔn)確性，一個(gè)是性能。兩種排序規(guī)則的說明鏈接

準(zhǔn)確性

utf8mb4_unicode_ci 是基于標(biāo)準(zhǔn)的Unicode來排序和比較，能夠在各種語言之間精確排序。
utf8mb4_general_ci 沒有實(shí)現(xiàn)Unicode排序規(guī)則，在遇到某些特殊語言或字符是，排序結(jié)果可能不是所期望的。

utf8mb4_unicode_ci使用unicode規(guī)則進(jìn)行排序和比較，它使用相當(dāng)復(fù)雜的算法在各種語言中以及在使用各種特殊字符時(shí)進(jìn)行正確排序。

這些規(guī)則需要考慮到特定語言的約定，并不是每個(gè)人都按照我們所說的“字母順序”對(duì)字符進(jìn)行排序。就拉丁語（即“歐洲”）而言，MySQL中的Unicode排序和簡(jiǎn)化的utf8mb4_general_ci排序沒有太大區(qū)別，但仍有一些區(qū)別：

例如：Unicode排序規(guī)則按使用這些字符的人通常希望的方式將“ß”排序?yàn)?ldquo;ss”，將“Œ”排序?yàn)?ldquo;OE”，而utf8mb4_general_ci將它們排序?yàn)閱蝹€(gè)字符（可能分別類似于“s”和“e”）。

一些Unicode字符被定義為可忽略字符，這意味著它們不應(yīng)計(jì)入排序順序，而應(yīng)將比較移到下一個(gè)字符。utf8mb4_unicode_ci可以正確處理這些問題。在非拉丁語言（如亞洲語言或不同字母表的語言）中，Unicode排序和簡(jiǎn)化的utf8mb4_ci排序之間可能有更多的差異。utf8mb4_-general_ci的適用性將在很大程度上取決于所使用的語言。對(duì)某些語言來說，這是相當(dāng)不夠的。

性能