简介

咱们晓得计算机最先衰亡是在国外，出于过后计算机性能的思考和外国罕用字符的思考，最开始计算机应用的是ASCII，ASCII编码可能示意的字符毕竟是无限的，随着计算机的倒退和全世界范畴的风行，须要更多的可能示意世界各地字符的编码方式，这种编码方式就是unicode。

当然在unicode呈现之前，各个国家或者地区依据外国的字符需要都制订过外国的编码标准，当然这些编码标准都是本地化的，不适用于全世界，所以并没有失去遍及。

明天咱们来讨论一下unicode编码的字符进行排序和正则匹配的问题。

ASCII字符的排序

ASCII的全称叫做American Standard Code for Information Interchange，也就是美国信息替换规范代码，到目前为止，ASCII只有128个字符。这里不具体探讨ASCII字符的形成。感兴趣的同学能够查看我之前写的对于unicode的文章。

ASCII字符蕴含了26个字母，咱们看下在javaScript中怎么对ASCII字符编码的：

const words = ['Boy', 'Apple', 'Bee', 'Cat', 'Dog'];words.sort();// [ 'Apple', 'Bee', 'Boy', 'Cat', 'Dog' ]

能够看到，这些字符是依照咱们想要的字典的程序进行排序的。

然而如果你将这些字符批改成中文，再进行排序，那么就失去的并不是咱们想要的后果：

const words = ['爱', '我', '中', '华'];words.sort();// [ '中', '华', '我', '爱' ]

这是为什么呢？

其实默认的这种sort是将字符串转换成字节，而后依照字节进行字典程序排序。如果是中文，那么并不会将其进行本地文字的转换。

本地字符的排序

既然应用ASCII字符不能对中文进行排序，那么咱们其实是想将汉字转换为拼音，而后依照拼音字母的程序来对其排序。

所以下面的”爱我中华“实际上是要比拟”ai“、”wo“、”zhong“、”hua“ 这几个拼音的程序。

有什么简略的办法来进行比拟吗？

在一些浏览器中提供了Intl.Collator和String.prototype.localCompare两种办法来进行本地字符的比拟。

比方我在chrome 91.0版本中：

应用Intl.Collator是能够失去后果的，而应用String.prototype.localCompare并不行。

再看下在firfox 89.0版本中：

后果和chrome是统一的。

上面是在nodejs v12.13.1版本的执行后果：

能够看到在nodejs中，并没有进行本地字符的转换和排序。

所以，上述的两个办法是和浏览器有关系的，也就是说和具体的实现是相干的。咱们并不能齐全对其信赖。

所以，要给字符串进行排序是一件十分傻的事件！

为什么不应用unicode进行排序

那么为什么不应用unicode进行排序呢？

首先，对于普通用户来说，他们并不知道unicode，他们所须要的也就是将字符串转换为本地语言进行字典排序。

其次，即便应用本地字符进行排序也是十分艰难的一件事件，因为浏览器须要对不同的语言进行本地化排序反对。这使得工作量变得微小。

emoji的正则匹配

文章最初，咱们来讲一下emoji的正则匹配问题。

emoji是一系列的表情，咱们能够应用unicode来对其示意，然而emoji表情十分多，差不多有3521个，如果要对emoji进行正则匹配，咱们须要写出上面的代码：

(?:\ud83e\uddd1\ud83c\udffb\u200d\u2764\ufe0f\u200d\ud83d\udc8b\u200d\ud83e\uddd1\ud83c\udffc|\ud83e\uddd1\ud83c\udffb\u200d\u2764\ufe0f\u200d\ud83d[... 前面省略很多]

以一个图像来直观的看一下emoji表情有多少：

这么多的emoji，有没有简略的方法对其进行正则匹配呢？答案是有的。

早在ECMAScript的TC39提议外面，就曾经把emoji的正则匹配退出了规范之中，咱们能够应用{Emoji_Presentation}来示意。

\p{Emoji_Presentation}

是不是很简略？

总结

本文简略介绍了本地字符的排序规定和emoji表情的正则匹配。心愿可能给大家在理论工作中带来帮忙。

本文已收录于 http://www.flydean.com/04-unicode-sorting/
最艰深的解读，最粗浅的干货，最简洁的教程，泛滥你不晓得的小技巧等你来发现！