快捷導(dǎo)航

Mysql字符集和排序規(guī)則詳解

更新時(shí)間：2022年09月27日 11:25:31 作者：Java面試365???????

這篇文章主要介紹了Mysql字符集和排序規(guī)則詳解，在mysql中存儲的是字符串?dāng)?shù)據(jù)，那么這些數(shù)據(jù)到底在Mysql中如何存儲呢？這就涉及到字符集的概念，接下來我們一起進(jìn)入文章學(xué)習(xí)詳細(xì)內(nèi)容介紹吧

前言

計(jì)算機(jī)存儲數(shù)據(jù)的方式都是二進(jìn)制數(shù)據(jù)，但是我們在mysql中存儲的是字符串?dāng)?shù)據(jù)，那么這些數(shù)據(jù)到底在Mysql中如何存儲呢？這就涉及到字符集的概念。

什么是字符集

舉例如下，假設(shè)存在編碼集test，只能識別a,b,A,B這幾項(xiàng)，同時(shí)編碼規(guī)則如下：

a---->00000001（0x01）
b---->00000010（0x02）
A---->00000011（0x03）
B---->00000100（0x04）

那么字符串'aAB'可以映射為 000000010000001100000100（十六進(jìn)制 0x10304）

而ac將無法轉(zhuǎn)換，因?yàn)槌隽俗R別范圍。

上面提到的將字符串根據(jù)字符集映射為二進(jìn)制的過程稱之為編碼，反之就為解碼。

什么是比較規(guī)則

那什么是比較規(guī)則呢？其實(shí)就是字符串的比較規(guī)則，如上舉例而言，可以考慮比較二進(jìn)制編碼的大小，如字符'a'編碼值的十六進(jìn)制為0x01，字符'b'編碼值的十六進(jìn)制為0x02，那么可以確定a<b，這就是二進(jìn)制比較規(guī)則，但是顯然這種規(guī)則適用范圍有限，如果遇到需要忽略大小寫的場景，顯然二進(jìn)制編碼比較規(guī)則并不適用，一個(gè)字符集可能對應(yīng)多種比較規(guī)則。

常用字符集

根據(jù)上面的舉例我們知道了test字符集描述的就是一個(gè)字符范圍的界定，我們常用的字符集還有很多如下所示

ASCII字符集

這是一個(gè)最簡單的字符集包含128個(gè)字符包含大小寫字母，空格，數(shù)字，標(biāo)點(diǎn)符號，特殊字符等，因?yàn)榭偣仓挥?28個(gè)字符，那么可以只采用一個(gè)字節(jié)編碼。

ISO8859-1

在ASCII字符集上擴(kuò)充了128個(gè)西歐常用字符，總共包含256個(gè)字符，這個(gè)字符集又被稱為latin1。

GB2312

收錄漢字以及拉丁字母，希臘字母等，這種字符集兼容ASCII字符，在編碼規(guī)則如下：

如果是ASCII編碼范圍的字符，采用一個(gè)字節(jié)編碼
否則采用兩個(gè)字節(jié)編碼

這種情況編碼長度不確定的被稱為變長編碼。

GBK字符集

GBK對GB2312的字符范圍進(jìn)行的擴(kuò)充，兼容GB2312。

Unicode字符集

UniCode收錄了地球上的所有字符，是所有國家通用的字符集，由此又被稱為萬國碼，UniCode的編碼規(guī)則包含UTF8、UTF16、UTF32這幾種編碼方案，其中UTF8采用1~4個(gè)字節(jié)編碼一個(gè)字符，UTF16使用了2個(gè)字節(jié)或者4個(gè)字節(jié)編碼一個(gè)字符，UTF32采用4個(gè)字節(jié)編碼一個(gè)字符。

不過需要注意的是Mysql中沒有區(qū)分編碼方案和字符集，所以后續(xù)的uft8可以看作字符集。

注意點(diǎn)

在mysql中有兩個(gè)特殊的字符集：

utf8mb3：是UniCode字符集編碼方案中utf8的閹割版本，采用的是1~3個(gè)字節(jié)編碼一個(gè)字符，它的另外一個(gè)名字就是utf8也就是說mysql中使用的就是閹割版本的utf8字符集。
**utf8mb4：**采用4個(gè)字節(jié)編碼一個(gè)字符，最常見的就是存儲emoji表情。

Mysql中查詢字符集和比較規(guī)則

查詢字符集

查詢字符集命令可以采用show character set;或者show charset;都可以實(shí)現(xiàn)字符集查看，可以支持字符集模糊查詢?nèi)?code>show character set like '%utf8%';

##### mysql5.7.26版本中，包含41個(gè)字符集，下面列出常用的幾個(gè)
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_general_ci  |      4 |
........
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)

查詢比較規(guī)則

每個(gè)字符集都會(huì)對應(yīng)一些比較規(guī)則，查詢所有字符集的比較規(guī)則顯然是太多了，所以這里以utf8字符集為例查詢比較規(guī)則。

#### mysql5.7.26版本中utf8字符集對應(yīng)27個(gè)比較規(guī)則，其余省略
mysql> show collation like '%utf8\_%';
+--------------------------+---------+-----+---------+----------+---------+
| Collation                | Charset | Id  | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci          | utf8    |  33 | Yes     | Yes      |       1 |
| utf8_bin                 | utf8    |  83 |         | Yes      |       1 |
| utf8_unicode_ci          | utf8    | 192 |         | Yes      |       8 |
| utf8_spanish_ci          | utf8    | 199 |         | Yes      |       8 |
.........
+--------------------------+---------+-----+---------+----------+---------+
27 rows in set (0.00 sec)

Default列為YES表明該比較規(guī)則是默認(rèn)的，一般比較規(guī)則中包含general代表通用比較規(guī)則。

比較規(guī)則一般命名如規(guī)律如下：