首页 > python学习 > python中的文件方法及pickle和json模块
2018
10-30

python中的文件方法及pickle和json模块

open()方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。

注意:使用open()方法使用之后一定要关闭打开的文件对象,即调用 close() 方法。

open() 函数常用形式是接收两个参数:文件名(file)和模式(mode):open(file, mode='r')

完整的语法格式为:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明:

file: 必需,文件路径(相对或者绝对路径)。

mode: 可选,文件打开模式

buffering: 设置缓冲

encoding: 一般使用utf-8

errors: 报错级别,使用‘ignore’忽略非法字符,当编码读取报错时可以尝试

newline: 区分换行符,读取时不指定newline,则所有\n, \r, or \r\n被默认转换为\n ;写入时,不指定newline,则换行符为各系统默认的换行符(\n, \r, or \r\n,)

closefd: 传入的file参数类型

opener:

mode参数有:

t 文本模式 (默认)。
b 二进制模式。
x 写模式,新建一个文件,如果文件已存在则会报错。
r 只读方式打开。文件的指针将会放在文件的开头。这是默认模式。
w 打开一个文件只用于写入。如果文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果文件不存在,创建新文件。
a 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾,新内容将会被写入到已有内容之后。如果文件不存在,创建新文件进行写入。
+ 打开一个文件进行更新(可读可写)。
r+ 打开一个文件用于读写。文件指针将会放在文件的开头。
w+ 打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果文件不存在,创建新文件。
a+ 打开一个文件用于读写。如果该文件已存在,文件打开时会是追加模式,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。
U 通用换行模式(不推荐)。

使用open()创建的file对象常用的函数:

file.close():关闭打开的文件对象。关闭后文件不能再进行读写操作。

file.flush():刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。

file.fileno():返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。

file.isatty():如果文件连接到一个终端设备返回 True,否则返回 False。

file.next():返回文件下一行。

file.read([size]):从文件读取指定的字节数,如果未给定或为负则读取所有。

file.readline([size]):读取整行,包括 "\n" 字符。

file.readlines([sizeint]):读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。

file.seek(offset[, whence]):在文件对象中移动指针位置,从whence(0表示文件起始位置,1表示当前位置,2表示文件末尾)偏移offset个字节

file.tell():返回文件对象当前指针位置。

file.truncate([size]):从文件的首行首字符开始截断,截断文件为 size 个字符,无 size 表示从当前位置截断;截断之后后面的所有字符被删除,其中 Widnows 系统下的换行代表2个字符大小。

file.write(str):将字符串写入文件,返回的是写入的字符长度。

file.writelines(sequence):向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符,sequence应该是一个返回字符串的可迭代对象

这里遍历一个文件中的内容官方推荐一个方法:

f=open(file_name)
for each_line in f:
    print(each_line)

pickle模块

在实际使用中我们会碰到需要把一些复杂的对象永久保存(保存成文件),这时候如果使用传统方法保存成文本,需要把对象先转换为字符串,有些对象在转换成字符串的时候可能会出现不可预料的错误,pickle模块就是解决这个问题,把对象保存为二进制文件,如果有一个比较复杂的object对象需要保存

pickle.dump(obj, file, protocol=None):将obj的pickled表示写入打开的文件对象文件。
protocol是一个整数,它告诉pickler使用给定的协议版本;支持的协议是0到pickle.HIGHEST_PROTOCOL(这个常量表示可用的最高协议版本)。默认为pickle.DEFAULT_PROTOCOL(这个常量表示默认协议版本,可能小于最高协议,目前默认的协议是3,这是为python 3设计的新协议)。如果指定负数,则选择最高的协议。

pickle.dumps(obj, protocol=None):将obj的pickled表示返回为bytes对象,而不是将其写入文件。

pickle.load(file):从打开的文件对象文件中读取pickled数据,并返回其转换之后的原数据对象结构。会自动检测pickle的协议版本,因此不需要协议参数。

pickle.loads(bytes_object)把bytes类型的pickled对象转换为其原有的数据对象结构

import pickle
#写入并保存文件
pickle_file = open('D:\\save_file.packle','wb')#保存文件的后缀可以随意写,后面的模式要写上b,以二进制模式打开
pickle.dump(object,pickle_file)#使用pickle模块的dump()方法保存文件
pickle_file.close()
#读取并转换为原有数据格式
pickle_file = open('D:\\save_file.packle','rb')
object=pickle.load(pickle_file)

json模块

json.dump(obj, file_obj, *, skipkeys=False, ensure_ascii=True, indent=None, separators=None, default=None, sort_keys=False)

序列化obj为一个JSON格式的流并输出到file_obj(支持write()的文件或类文件对象)。
如果skipkeys是true,那么那些不是基本对象(包括 str, int、float、bool、None)的字典的键会被跳过而不引发TypeError。
json 模块始终产生 str 对象而非 bytes 对象。因此,fp.write() 必须支持 str 输入。
如果ensure_ascii是true ,将所有输入的非ASCII字符转义。否则这些字符会原样输出。
如果indent是一个非负整数或者字符串,那么JSON数组元素和对象成员会被美化输出为该值指定的缩进等级。如果缩进等级为零、负数或者 "",则只会添加换行符。None(默认值)选择最紧凑的表达。使用一个正整数会让每一层缩进同样数量的空格。如果 *indent* 是一个字符串(比如 "\t"),那个字符串会被用于缩进每一层。
当指定时,separators 应当是一个 (item_separator, key_separator) 元组。当indent为 None 时,默认值取 (', ', ': '),否则取 (',', ': ')。为了得到最紧凑的 JSON 表达式,你应该指定其为 (',', ':') 以消除空白字符。
当 default 被指定时,其应该是一个函数,每当某个对象无法被序列化时它会被调用。它应该返回该对象的一个可以被 JSON 编码的版本或者引发一个 TypeError。如果没有被指定,则会直接引发 TypeError。
如果 sort_keys 是 true(默认为 False),那么字典的输出会以键的名称排序

json.dumps(obj, *, skipkeys=False, ensure_ascii=True, indent=None, separators=None, default=None, sort_keys=False)

序列化obj为一个JSON格式str并返回该字符串,而不是将其写入文件。

json.load(file_obj, *, object_hook=None, parse_float=None, parse_int=None, object_pairs_hook=None)

将file_obj(支持read()并包含一个JSON文档的文件或类文件对象)反序列化为一个Python对象
object_hook:可选函数,它会被调用于每一个解码出的对象字面量(一个dict)。object_hook的返回值会取代原本的dict。被用于实现自定义解码器。
object_pairs_hook:可选函数,它将使用按顺序排列的对列表解码的任何对象文本的结果来调用。将使用对象对挂钩的返回值而不是dict。可用于实现自定义解码器。object_pairs_hook优先级高于object_hook。
parse_float:如果指定,将使用要解码的每个JSON浮点的字符串调用。默认情况下,这相当于float(num_str)。这可以用于为JSON浮点使用另一个数据类型或解析器
parse_int:如果指定,将使用要解码的每个JSON int的字符串调用。默认情况下,这相当于int(num_str)。这可用于为JSON整数使用另一个数据类型或解析器

json.loads(json_str, *, object_hook=None, parse_float=None, parse_int=None, object_pairs_hook=None)

将json_str反序列化为python对象。如果json_str不是有效的JSON文档,则会引发JSONDECODECORE错误

最后编辑:
作者:qingheluo
这个作者貌似有点懒,什么都没有留下。