共计 3773 个字符,预计需要花费 10 分钟才能阅读完成。
简介
在做科学计算的时候,咱们须要从内部加载数据,明天给大家介绍一下 NumPy 中十分有用的一个办法 genfromtxt。genfromtxt 能够分解成两步,第一步是从文件读取数据,并转化成为字符串。第二步就是将字符串转化成为指定的数据类型。
genfromtxt 介绍
先看下 genfromtxt 的定义:
numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars="!#$%&'()*+, -./:;<=>?@[\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')
genfromtxt 能够承受多个参数,这么多参数中只有 fname 是必须的参数,其余的都是可选的。
fname 能够有多种形式,能够是 file, str, pathlib.Path, list of str, 或者 generator。
如果是独自的 str,那么默认是本地或者近程文件的名字。如果是 list of str,那么每个 str 都被当做文件中的一行数据。如果传入的是近程的文件,这个文件会被主动下载到本地目录中。
genfromtxt 还能够自动识别文件是否是压缩类型,目前反对两种压缩类型:gzip 和 bz2。
接下来咱们看下 genfromtxt 的常见利用:
应用之前,通常须要导入两个库:
from io import StringIO
import numpy as np
StringIO 会生成一个 String 对象,能够作为 genfromtxt 的输出。
咱们先定义一个蕴含不同类型的 StringIO:
s = StringIO(u"1,1.3,abcde")
这个 StringIO 蕴含一个 int, 一个 float 和一个 str。并且宰割符是 ,
。
咱们看下 genfromtxt 最简略的应用:
In [65]: data = np.genfromtxt(s)
In [66]: data
Out[66]: array(nan)
因为默认的分隔符是 delimiter=None,所以 StringIO 中的数据会被作为一个整体转换成数组,后果就是 nan。
上面咱们增加一个逗号宰割符:
In [67]: _ = s.seek(0)
In [68]: data = np.genfromtxt(s,delimiter=",")
In [69]: data
Out[69]: array([1. , 1.3, nan])
这次有输入了,然而最初一个字符串因为不能被转换成为 float,所以失去了 nan。
留神,咱们第一行须要重置 StringIO 的指针到文件的结尾。这里咱们应用 s.seek(0)。
那么怎么把最初一个 str 也进行转换呢?咱们须要手动指定 dtype:
In [74]: _ = s.seek(0)
In [75]: data = np.genfromtxt(s,dtype=float,delimiter=",")
In [76]: data
Out[76]: array([1. , 1.3, nan])
下面咱们指定了所有的数组类型都是 float,咱们还能够别离为数组的每个元素指定类型:
In [77]: _ = s.seek(0)
In [78]: data = np.genfromtxt(s,dtype=[int,float,'S5'],delimiter=",")
In [79]: data
Out[79]: array((1, 1.3, b'abcde'), dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<U')])
咱们别离应用 int,float 和 str 来对文件中的类型进行转换, 能够看到失去了正确的后果。
除了指定类型,咱们还能够指定名字,下面的例子中,咱们没有指定名字,所以应用的是默认的 f0,f1,f2。看一个指定名字的例子:
In [214]: data = np.genfromtxt(s, dtype="i8,f8,S5",names=['myint','myfloat','mystring'], delimiter=",")
In [215]: data
Out[215]:
array((1, 1.3, b'abcde'),
dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])
分隔符除了应用字符之外,还能够应用 index:
In [216]: s = StringIO(u"11.3abcde")
In [217]: data = np.genfromtxt(s, dtype=None, names=['intvar','fltvar','strvar'],
...: delimiter=[1,3,5])
In [218]: data
Out[218]:
array((1, 1.3, b'abcde'),
dtype=[('intvar', '<i8'), ('fltvar', '<f8'), ('strvar', 'S5')])
下面咱们应用 index 作为 s 的宰割。
多维数组
如果数据中有换行符,那么能够应用 genfromtxt 来生成多维数组:
>>> data = u"1, 2, 3\n4, 5, 6"
>>> np.genfromtxt(StringIO(data), delimiter=",")
array([[1., 2., 3.],
[4., 5., 6.]])
autostrip
应用 autostrip
能够删除数据两边的空格:
>>> data = u"1, abc , 2\n 3, xxx, 4"
>>> # Without autostrip
>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5")
array([['1', 'abc', '2'],
['3', 'xxx', '4']], dtype='<U5')
>>> # With autostrip
>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5", autostrip=True)
array([['1', 'abc', '2'],
['3', 'xxx', '4']], dtype='<U5')
comments
默认的 comments 是 #,数据中所有以# 结尾的都被看做是正文。
>>> data = u"""#
... # Skip me !
... # Skip me too !
... 1, 2
... 3, 4
... 5, 6 #This is the third line of the data
... 7, 8
... # And here comes the last line
... 9, 0
... """>>> np.genfromtxt(StringIO(data), comments="#", delimiter=",")
array([[1., 2.],
[3., 4.],
[5., 6.],
[7., 8.],
[9., 0.]])
跳过行和抉择列
能够应用 skip_header
和 skip_footer
来跳过返回的数组特定的行:
>>> data = u"\n".join(str(i) for i in range(10))
>>> np.genfromtxt(StringIO(data),)
array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])
>>> np.genfromtxt(StringIO(data),
... skip_header=3, skip_footer=5)
array([3., 4.])
能够应用 usecols
来抉择特定的行数:
>>> data = u"1 2 3\n4 5 6"
>>> np.genfromtxt(StringIO(data), usecols=(0, -1))
array([[1., 3.],
[4., 6.]])
如果列还有名字的话,能够用 usecols
来抉择列的名字:
>>> data = u"1 2 3\n4 5 6"
>>> np.genfromtxt(StringIO(data),
... names="a, b, c", usecols=("a", "c"))
array([(1.0, 3.0), (4.0, 6.0)],
dtype=[('a', '<f8'), ('c', '<f8')])
>>> np.genfromtxt(StringIO(data),
... names="a, b, c", usecols=("a, c"))
array([(1.0, 3.0), (4.0, 6.0)],
dtype=[('a', '<f8'), ('c', '<f8')])
本文已收录于 http://www.flydean.com/06-python-numpy-genfromtxt/
最艰深的解读,最粗浅的干货,最简洁的教程,泛滥你不晓得的小技巧等你来发现!
欢送关注我的公众号:「程序那些事」, 懂技术,更懂你!