创建一个网站的费用,海口网站建设品牌大全,永久3e39cosvv457,2023新冠会二次爆发吗文章目录 1. DataFrame对象1.1 创建DataFrame对象1.2 DataFrame对象常用属性和方法1.3 布尔值列表获取DataFrame对象中部分数据1.4 DataFrame对象的运算 1. DataFrame对象
DataFrame是一个表格型的结构化数据结构#xff0c;它含有一组或多组有序的列#xff08;Series… 文章目录 1. DataFrame对象1.1 创建DataFrame对象1.2 DataFrame对象常用属性和方法1.3 布尔值列表获取DataFrame对象中部分数据1.4 DataFrame对象的运算 1. DataFrame对象
DataFrame是一个表格型的结构化数据结构它含有一组或多组有序的列Series每列可以是不同的值类型数值、字符串、布尔值等。
DataFrame是Pandas中的最基本的数据结构对象简称df可以认为df就是一个二维数据表这个表有行有列有索引。DataFrame是Pandas中最基本的数据结构Series的许多属性和方法在DataFrame中也一样适用。
1.1 创建DataFrame对象
通过 pd.read_csv(‘xxx’) 返回 df
import pandas as pd
df pd.read_csv(rE:\数据分析\00_资料\02_数据_数分\data_v2\a_scientists.csv)
df运行结果 - 将 Series对象 通过 to_frame() 转成 df
ages df[Age]
type(ages)
# 将Series对象通过to_frame()转成df
df2 ages.to_frame()
print(df2)
print(type(df2))运行结果
使用 列表 加 元组 返回 df
# 使用列表 加 元组 返回 df
student_list [(1,张三,18),(2,李四,19),(3,王五,23)]
df3 pd.DataFrame(student_list)
print(df3)
print(type(df3))运行结果
使用 字典 返回 df
# 使用 字典 返回 df
dict1 {id:[1, 2, 3], name:[张三, 李四, 王五], age:[18, 19, 28]}
df4 pd.DataFrame(dict1)
df4运行结果
1.2 DataFrame对象常用属性和方法
DataFrame对象常用属性和方法与Series对象的几乎相同。 print( 常用属性 )
# 查看维度, 返回元组类型 - (行数, 列数), 元素个数代表维度数
print(df.shape)# 查看数据值个数, 行数*列数, NaN值也算
print(df.size)# 查看数据值, 返回numpy的ndarray类型
print(df.values)# 查看维度数
print(df.ndim)# 返回列名和列数据类型
print(df.dtypes)# 查看索引值, 返回索引值对象
print(df.index)# 查看列名, 返回列名对象
print(df.columns)运行结果
print( 常用方法 )
# 查看前5行数据
df.head()# 查看后5行数据
df.tail()# 查看df的基本信息
df.info()# 查看df对象中所有数值列的描述统计信息
df.describe()# 查看df对象中所有非数值列的描述统计信息
# exclude:不包含指定类型列
print(df)
print(df.describe(exclude[int, float]))# 查看df对象中所有列的描述统计信息
# include:包含指定类型列, all代表所有类型
print(df.describe(includeall))
print(df)# 查看df的行数
print(len(df))# 查看df各列的最小值
print(df.min())# 查看df各列的非空值个数
print(df.count())# 查看df数值列的平均值
print(df.mean())1.3 布尔值列表获取DataFrame对象中部分数据
求 平均年龄
df[Age].mean()求 是否高于平均年龄
df[Age] df[Age].mean()求高于平均年龄的数据
df[df[Age] df[Age].mean()]求高于平均年龄的数据(列表)
list1 list(df[Age] df[Age].mean())
df[list1]总结 本质就是传入布尔值构成的列表来获取部分数据True所对应的数据会被保留。
1.4 DataFrame对象的运算
DataFrame和数值型变量计算时变量会与DataFrame中的每个元素逐一进行计算但df中存在非数值类型列时不能进行加减除运算。 两个DataFrame之间、以及df和s对象进行计算时索引值相同的行之间会进行计算索引值不同的行的计算结果会用NaN值(缺失值)填充。
观察df2
df 2运行结果
观察 dfdf
df df运行结果
观察 df * 2
df * 2运行结果 同上 df df
获取 是否是 [0, 2, 4] 的下标列表( isin )
df.index
df.index.isin([0, 2, 4])
df[df.index.isin([0, 2, 4])]运行结果
获取下标为0 2 4 的数据
df[df.index.isin([0, 2, 4])]运行结果