关于机器学习:pandasreadcsv-处理-CSV-文件的-6-个有用参数

pandas.read_csv 有很多有用的参数，你都晓得吗？本文将介绍一些 pandas.read_csv()有用的参数，这些参数在咱们日常解决CSV文件的时候是十分有用的。

pandas.read_csv() 是最风行的数据分析框架 pandas 中的一个办法。咱们日常应用的时候这个函数也是咱们用的最多的，然而pandas.read_csv() 有很多输出参数，其中 filepath或buffer 参数是必不可少的，其余的都是可选的。所以咱们个别也不会太关注，然而这些可选参数能够帮咱们解决大问题。以下是read_csv残缺的参数列表：

pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)

咱们用以下的CSV 文件作为样例。你能够将此数据复制到文本文件中并将其保留为 dummy.csv 文件。

#1.###############################################################,
#2. some metadata #,
#3. Last updated: 2022-06-23 05:49:15 UTC                        #,
#4.                                                              #,
#5. Terms Of Use:           #,
#6. For questions please contact         #,
#7. #############################################################,
#8. ,
date,name
2022-06-23 05:49:15,a1
2022-06-22 14:52:16,a2
2022-06-22 06:45:16,a3
2022-06-21 15:02:34,a4
2022-06-21 09:00:17,a5
2022-06-21 08:59:59,a6
2022-06-20 13:57:09,a7
2022-06-20 09:06:59,a8
2022-06-20 09:06:54,a9
2022-06-19 17:26:45,a10
2022-06-19 17:26:32,a11
2022-06-19 09:26:13,a12
2022-06-19 09:25:57,a13
2022-06-18 07:09:55,a14
2022-06-17 08:14:21,a15

1、skiprows

skiprows 接管一个正整数。在读取 CSV 文件时，如果应用了 skiprows，Pandas 将从头开始删除指定的行。咱们想从结尾跳过 8 行，因而将 skiprows 设置为 8。如下所示：

2、comment

comment接管一个字符。如果该字符在行首呈现，则将跳过该行。咱们想跳过下面显示的 CSV 文件中蕴含一些额定信息的行，所以 CSV 文件读入 pandas 时指定 comment = ‘#’：

3、nrows

nrows 示意从顶部开始读取的行数，这是在解决 skiprows 和comment参数后计算的。如果心愿从大文件中提取加载一部分数据，就须要这个参数。

例如，只读取在删除任何以数字“#”结尾的行之后剩下的前 5 行。

4、dtype

在读取数据时能够间接定义某些列的 dtype。咱们将name定义为string。

5、parse_dates

如果数据蕴含日期列，还能够在读取时应用 parse_dates 定义日期列。Pandas 将主动从指定的“日期”列推断日期格局。咱们将date传入parse_dates ， pandas 主动会将“date”列推断为日期 dtype。

6、skipfooter

与skiprows相似，它将跳过文件底部的行数。（这个参数不反对engine=’c’，所以须要指定engine=“python”，能够看上面截图中的提醒）。CSV 文件中，如果想删除最初一行，那么能够指定 skipfooter =1：

以上就是6个非常简单然而有用的参数，在读取CSV时应用它们能够最大限度地缩小数据加载所需的工作量并放慢数据分析。

https://avoid.overfit.cn/post/600f8b1b76734fe3b51394d6c2faf565

作者：R. Gupta

关于机器学习:pandasreadcsv-处理-CSV-文件的-6-个有用参数

1、skiprows

2、comment

3、nrows

4、dtype

5、parse_dates

6、skipfooter

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:pandasreadcsv-处理-CSV-文件的-6-个有用参数

1、skiprows

2、comment

3、nrows

4、dtype

5、parse_dates

6、skipfooter

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复