今天遇到一个需求,需要对表格数据进行数据清洗,其中有的字符是法语字符。就是这类àéêö,和咱们的注音差不多。我们的目标是将这类法语字符转换成英文字符。
我们需要用到 unidecode,如下面代码
import unicodedata
def strip_accents(text):
try:
text = unicode(text, 'utf-8')
except NameError: # unicode is a default on python 3
pass
text = unicodedata.normalize('NFD', text)\
.encode('ascii', 'ignore')\
.decode("utf-8")
return str(text)
s = strip_accents('àéêöhello')
print(s)