第3条 了解bytes与str的区别
Python有两种类型可以表示字符序列:一种是bytes
,另一种是str
。bytes
实例包含的是原始数据,即8位的无符号值(通常按照ASCII编码标准来显示)。
str
实例包含的是Unicode码点(code point,也叫作代码点),这些码点与人类语言之中的文本字符相对应。
大家一定要记住:str
实例不一定非要用某一种固定的方案编码成二进制数据,bytes
实例也不一定非要按照某一种固定的方案解码成字符串。要把Unicode数据转换成二进制数据,必须调用str
的encode
方法。要把二进制数据转换成Unicode数据,必须调用bytes
的decode
方法。调用这些方法的时候,可以明确指出自己要使用的编码方案,也可以采用系统默认的方案,通常是指UTF-8(但有时也不一定,下面就会讲到这个问题)。
编写Python程序的时候,一定要把解码和编码操作放在界面最外层来做,让程序的核心部分可以使用Unicode数据来运作,这种办法通常叫作Unicode三明治(Unicode sandwich)。程序的核心部分,应该用str
类型来表示Unicode数据,并且不要锁定到某种字符编码上面。这样可以让程序接受许多种文本编码(例如Latin-1、Shift JIS及Big5),并把它们都转化成Unicode,也能保证输出的文本信息都是用同一种标准(最好是UTF-8)编码的。
两种不同的字符类型与Python中两种常见的使用情况相对应:
- 开发者需要操作原始的8位值序列,序列里面的这些8位值合起来表示一个应该按UTF-8或其他标准编码的字符串。
- 开发者需要操作通用的Unicode字符串,而不是操作某种特定编码的字符串。
我们通常需要编写两个辅助函数(helper function),以便在这两种情况之间转换,确保输入值类型符合开发者的预期形式。
第一个辅助函数接受bytes
或str
实例,并返回str
:
第二个辅助函数也接受bytes
或str
实例,但它返回的是bytes
:
在Python中使用原始的8位值与Unicode字符串时,有两个问题要注意。
第一个问题是,bytes
与str
这两种类型似乎是以相同的方式工作的,但其实例并不相互兼容,所以在传递字符序列的时候必须考虑好其类型。
可以用+操作符将bytes
添加到bytes
,str
也可以这样。
但是不能将str
实例添加到bytes
实例:
也不能将bytes
实例添加到str
实例:
bytes
与bytes
之间可以用二元操作符(binary operator)来比较大小,str
与str
之间也可以:
但是str
实例不能与bytes
实例比较:
反过来也一样,也就是说bytes
实例不能与str
实例比较:
判断bytes
与str
实例是否相等,总是会评估为假(False
),即便这两个实例表示的字符完全相同,它们也不相等。例如,在下面这个例子里,它们表示的字符串都相当于ASCII编码之中的foo
。
两种类型的实例都可以出现在%
操作符的右侧,用来替换左侧那个格式字符串(format string)里面的%s
。
如果格式字符串是bytes
类型,那么不能用str
实例来替换其中的%s
,因为Python不知道这个str
应该按照什么方案来编码。
但反过来却可以,也就是说如果格式字符串是str
类型,则可以用bytes
实例来替换其中的%s
,问题是,这可能跟你想要的结果不一样。
这样做,会让系统在bytes
实例上面调用__repr__
方法(参见第75条),然后用这次调用所得到的结果替换格式字符串里的%s
,因此程序会直接输出b'blue'
,而不是像你想的那样,输出blue
本身。
第二个问题发生在操作文件句柄的时候,这里的句柄指由内置的open
函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作,而不能采用原始的bytes
。习惯了Python 2的开发者,尤其容易碰到这个问题,进而导致程序出现奇怪的错误。例如,向文件写入二进制数据的时候,下面这种写法其实是错误的。
程序发生异常是因为在调用open
函数时,指定的是'w'
模式,所以系统要求必须以文本模式写入。如果想用二进制模式,那应该指定'wb'
才对。在文本模式下,write
方法接受的是包含Unicode数据的str
实例,不是包含二进制数据的bytes
实例。所以,我们得把模式改成'wb'
来解决该问题。
读取文件的时候也有类似的问题。例如,如果要把刚才写入的二进制文件读出来,那么不能用下面这种写法。
程序出错,是因为在调用open
函数时指定的是'r'
模式,所以系统要求必须以文本模式来读取。若要用二进制格式读取,应该指定'rb'
。以文本模式操纵句柄时,系统会采用默认的文本编码方案处理二进制数据。所以,上面那种写法会让系统通过bytes.decode
把这份数据解码成str
字符串,再用str.encode
把字符串编码成二进制值。然而对于大多数系统来说,默认的文本编码方案是UTF-8,所以系统很可能会把b'\xf1\xf2\xf3\xf4\xf5'
当成UTF-8格式的字符串去解码,于是就会出现上面那样的错误。为了修正错误,需要把模式改成'rb'
。
另一种改法是在调用open
函数的时候,通过encoding
参数明确指定编码标准,以确保平台特有的一些行为不会干扰代码的运行效果。例如,假设刚才写到文件里的那些二进制数据表示的是一个采用'cp1252'
标准(cp1252是一种老式的Windows编码方案)来编码的字符串,则可以这样写:
这样程序就不会出现异常了,但返回的字符串也与读取原始字节数据所返回的有很大区别。通过这个例子,我们要提醒自己注意当前操作系统默认的编码标准(可以执行python3 -c 'import locale; print(locale.getpreferredencoding())'
命令查看),了解它与你所期望的是否一致。如果不确定,那就在调用open
时明确指定encoding
参数。
要点
bytes
包含的是由8位值所组成的序列,str
包含的是由Unicode码点所组成的序列。- 我们可以编写辅助函数来确保程序收到的字符序列确实是期望要操作的类型(要知道自己想操作的到底是Unicode码点,还是原始的8位值。用UTF-8标准给字符串编码,得到的就是这样的一系列8位值)。
bytes
与str
这两种实例不能在某些操作符(例如>
、==
、+
、%
操作符)上面混用。- 从文件中读取二进制数据(或者把二进制数据写入文件)时,应该用
'rb'
('wb'
)这样的二进制模式打开文件。 - 如果要从文件中读取(或者要写入文件之中)的是Unicode数据,那么必须注意系统默认的文本编码方案。若无法肯定,可通过
encoding
参数明确指定。