什么是 Unicode?
Unicode(对立码、万国码、繁多码)是计算机科学畛域里的一项业界规范,包含字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了对立并且惟一的二进制编码,以满足跨语言、跨平台进行文本转换、解决的要求。
什么是字符串?
字符串或串 (String) 是由数字、字母、下划线组成的一串字符。个别记为 s=“a1a2···an”(n>=0)。它是编程语言中示意文本的数据类型。在程序设计中,字符串(string)为符号或数值的一个间断序列,如符号串(一串字符)或二进制数字串(一串二进制数字)。
一般字符串(在 python 中字符串默认应用 unicode 编码)
item = "肯德基"
unicode 字符串,申明字符串用 unicode 编码
item = u"肯德基"
将中文转换为 unicode
item = "肯德基"
res = item.encode('unicode-escape').decode()
print(f"res:{res}")
输入:
res:\u80af\u5fb7\u57fa
有些网站把 \ 转换为了 %
kw = res.replace("\\", "%")
print(f"kw:{kw}")
输入:
kw:%u80af%u5fb7%u57fa
将 unicode 转换为中文
uitem = "\u80af\u5fb7\u57fa"
print(f"uitem:{uitem}")
输入:
uitem: 肯德基