做网站的合同范文,wordpress 商家 用户,宜家设计装修怎么收费,做网站教程百度云前言
Pandas 是一个开源的数据分析和数据处理库#xff0c;它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具#xff0c;特别适用于处理结构化数据#xff0c;如表格型数据#xff08;类似于Excel表格#xff09;。 Pandas 主要引入了两种新…前言
Pandas 是一个开源的数据分析和数据处理库它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具特别适用于处理结构化数据如表格型数据类似于Excel表格。 Pandas 主要引入了两种新的数据结构DataFrame 和 Series。
环境准备
pip install pandasread_csv 参数详解
pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数
filepath_or_buffer: 要读取的文件路径或对象。sep: 字段分隔符默认为,。delimiter: 字段分隔符sep的别名。header: 用作列名的行号默认为0第一行如果没有列名则设为None。names: 列名列表用于结果DataFrame。index_col: 用作索引的列编号或列名。usecols: 返回的列可以是列名的列表或由列索引组成的列表。dtype: 字典或列表指定某些列的数据类型。skiprows: 需要忽略的行数从文件开头算起或需要跳过的行号列表。nrows: 需要读取的行数从文件开头算起。skipfooter: 文件尾部需要忽略的行数。encoding: 文件编码如’utf-8’latin-1’等。parse_dates: 将某些列解析为日期。infer_datetime_format: 如果 True 且 parse_dates 未指定那么将尝试解析日期。iterator: 如果 True返回 TextFileReader 对象用于逐块读取文件。chunksize: 每个块的行数用于逐块读取文件。compression: 压缩格式例如 ‘gzip’ 或 ‘xz’
filepath_or_buffer要读取的文件路径或对象
filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str] 可以接收3种类型文件路径读取文件的bytes 读取文件的str
可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL需要主机。本地文件可以是file://localhost/path/to/table.csv。如果你想传入一个路径对象pandas 接受任何 Path.我们所说的类文件对象是指具有 read() 方法的对象例如文件句柄例如通过内置 open 函数或 StringIO。
data.csv 测试数据
name,sex,age,email
张三,男,22,123qq.com
李四,男,23,222qq.com
王五,女,24,233qq.com
张六,男,22,123qq.com
李七,男,23,124qq.com
小明,女,24,125qq.com
张山,女,24,126qq.com
王二,男,23,127qq.com
王九,男,23,128qq.com
李明,男,20,129qq.com
刘三,男,29,130qq.com
刘四,男,28,131qq.com示例
import pandas
from pathlib import Path# 1.相对路径或文件绝对路径
df1 pandas.read_csv(data.csv)
print(df1)# 文件路径对象Path
file_path Path(__file__).parent.joinpath(data.csv)
df2 pandas.read_csv(file_path)
print(df2)读取一个url地址http://127.0.0.1:8000/static/data.csv, 此地址是一个data.csv文件在线下载地址
df3 pandas.read_csv(http://127.0.0.1:8000/static/data.csv)
print(df3)也可以是一个文件对象
with open(data.csv, encodingutf8) as fp:df4 pandas.read_csv(fp)print(df4)sep: 字段分隔符默认为,
sep 字段分隔符默认为, delimiter同sep分隔符
df1 pandas.read_csv(data.csv, sep,)
print(df1)df2 pandas.read_csv(data.csv, delimiter,)
print(df2)header 用作列名的行号
header: 指定哪一行作为列名默认为0即第一行如果没有列名则设为None。 如下数据没有header
张三,男,22,123qq.com
李四,男,23,222qq.com
王五,女,24,233qq.com
张六,男,22,123qq.com读取示例
df6 pandas.read_csv(data2.csv, headerNone)
print(df6)names自定义列名
names自定义列名如果headerNone则可以使用该参数。
df6 pandas.read_csv(data2.csv,headerNone,names[姓名, 性别, 年龄, 邮箱])
print(df6)如果有header也可以使用names自定义列名
df7 pandas.read_csv(data.csv,header0,names[姓名, 性别, 年龄, 邮箱])
print(df7)那么读取结果 姓名 性别 年龄 邮箱
0 张三 男 22 123qq.com
1 李四 男 23 222qq.com
2 王五 女 24 233qq.com
······index_col 用作行索引的列编号或列名
index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。 如果设置为None默认值CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置整数或列名字符串则该列将被用作DataFrame的索引。
import pandas as pd# 我们想要将email列作为DataFrame的索引df8 pd.read_csv(data.csv, index_colemail)
print(df8)# 或者如果我们知道email列在第4列的位置也可以这样指定
df9 pd.read_csv(data.csv, index_col3)
print(df9)usecols 读取指定的列
usecols 读取指定的列可以是列名或列编号。
import pandas as pd# 1.指定列的编号
df10 pd.read_csv(data.csv, usecols[0, 1])
print(df10)# 2.指定列的名称
df11 pd.read_csv(data.csv, usecols[name, sex])
print(df11)dtype 指定每列的数据类型
dtype参数在pandas.read_csv函数中用于指定列的数据类型。当你知道某些列的数据类型时可以使用dtype参数来提高读取文件的效率并且可以预防可能发生的类型错误。
name,sex,age,email
张三,男,22,123qq.com
李四,男,23,222qq.com默认情况下age得到的是int类型
df12 pd.read_csv(data.csv)
print(df12.to_dict())结果 ‘age’: {0: 22, 1: 23, 2: 24, 3: 22, 4: 23 …
可以指定age变成str或者float类型
df13 pd.read_csv(data.csv, dtype{age: str})
print(df13.to_dict())结果 ‘age’: {0: ‘22’, 1: ‘23’, 2: ‘24’, 3: ‘22’, 4: ‘23’
skiprows 、nrows 和skipfooter
skiprows: 需要忽略的行数从文件开头算起或需要跳过的行号列表。 nrows: 需要读取的行数从文件开头算起 skipfooter: 文件尾部需要忽略的行数。
import pandas as pd# 跳过前面2行
df15 pd.read_csv(data.csv, skiprows2)
print(df15)nrows 需要读取的行数
import pandas as pd# 读取前面2行
df15 pd.read_csv(data.csv, nrows2)
print(df15)skipfooter: 文件尾部需要忽略的行数。
import pandas as pd# 忽略文件尾部3行
df15 pd.read_csv(data.csv, skipfooter3)
print(df15)
parse_dates 将某些列解析为日期
数据文件ddd.csv
name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10读取示例
import pandas as pd# 1.指定列的编号
df16 pd.read_csv(ddd.csv)
print(df16)读取结果 name time date
0 Bob 21:33:30 2019-10-10
1 Jerry 21:30:15 2019-10-10
2 Tom 21:25:30 2019-10-10
3 Vince 21:20:10 2019-10-10
4 Hank 21:40:15 2019-10-10默认读取的date日期是字符串类型使用parse_dates 参数转成datetime类型
import pandas as pddf16 pd.read_csv(ddd.csv)
print(df16.to_dict()) # date: {0: 2019-10-10, 1: 2019-10-10,df17 pd.read_csv(ddd.csv, parse_dates[date])
print(df17.to_dict()) # date: {0: Timestamp(2019-10-10 00:00:00)