本文最后更新于1260天前，其中的信息可能已经有所发展或是发生改变。

1、python创建文件write出现UnicodeEncodeError: ‘gbk’ codec can’t encode character

在 windows 下面，新文件的默认编码是 gbk，这样的话，python 解释器会用 gbk 编码去解析我们的网络数据流 txt，然而 txt 此时已经是 decode 过的 unicode 编码，这样的话就会导致解析不了，出现上述问题。解决的办法就是，改变目标文件的编码

 f = open("out.html","w",encoding='utf-8')

2、Python报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode bytein position 2: illegal multibyte sequence

Unicode的解码（Decode）出现错误了，以gbk编码的方式去解码（该字符串变成Unicode），但是此处通过gbk的方式，却无法解码（can't decode）.''illegal multibyte sequence"的意思是非法的多字节序列，也就是说无法解码了。

出现这样的错误，可能是要处理的字符串本身不是gbk编码，却是以gbk编码去解码。比如，字符串本身是utf-8的，但用gbk去解码，必然出错。

file = open(path, encoding='gbk')

或者

file = pd.read_csv(path, encoding='gbk')

 file = open(path, encoding='gb18030'）

或者

file = pd.read_csv(path, encoding='gb18030')

file = open(path, encoding='gb18030', errors='ignore')

或者：

file = pd.read_csv(path, encoding='gb18030',error_bad_lines=False)

未完待续

发送评论编辑评论