嘉兴做网站的公司有哪些,管理平台登录,2018年主流网站开发语言,八师石河子精神文明建设网站一、简介
Pandas是一个基于NumPy的分析结构化数据的工具集#xff0c;NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析#xff0c;同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁#xff0c;还拥有出众的数据处理能力和完备…一、简介
Pandas是一个基于NumPy的分析结构化数据的工具集NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁还拥有出众的数据处理能力和完备的辅助功能。归纳起来Pandas有以下5大特点。
具有极强的自适应能力。无论是Python还是NumPy的数据对象即使是结构不规则的数据也可以轻松转换为DataFrame。Pandas还可以自动处理缺失数据类似NumPy的掩码数组。NumPy为其提供了快速的数据组织和处理能力。Pandas支持任意增删数据列支持合并、连接、重塑、透视数据集支持聚合、转换、切片、花式索引、子集分解等操作。完善的时间序列。Pandas支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。拥有全面的I/O工具。Pandas支持读取文本文件CSV等支持分隔符的文件、Excel文件、HDF文件、SQL表数据、json数据、html数据甚至可以直接从url下载并解析数据也可以将数据保存为CSV文件或Excel文件。对用户友好的显示格式。不管数据复杂程度如何Pandas展现出的数据结构总是最清晰的它支持自动对齐对象和标签必要时也可以忽略标签。
二、Series与 DataFrame的介绍 1.1 第一件事导入所需的扩展库NumPy 和 Pandas import numpy as np
print(np.__version__) # 查看NumPy版本 import pandas as pd
print(pd.__version__) # 查看Pandas版本 1.2 使用Pandas读取csv文件了解Pandas的数据结构 DataFrame 和 Series df pd.read_csv(r./data/scores.csv, encoding gbk) # .data
df 注以上代码构建了一个带标签的二维数据表格。总分、学号、性别、操作系统、算法分析与设计、数据仓库与挖掘技术、平均分是每列数据的标签所有列的标签称为列名0-19是每一行数据的标签所有行的标签称为索引。这个带标签的二维数据表格就是Pandas最核心的数据结构DataFrame所有关于Pandas的操作和技巧几乎都是围绕着DataFrame这个结构进行的。 Series是由一组同一类型的数据和一组与数据对应的标签Index组成的数据结构这个标签又称为索引索引是允许重复的。Pandas提供了多种生成Series的方式。简言之Series就是带标签的一维数组。默认索引是从0开始的整型序列也可以指定索引。如下所示 pd.Series([1,2,3]) # 默认索引
pd.Series([1,2,3],index [2020, 2021, 2022]) #指定索引
pd.Series([1,2,3],index [2020, 2020, 2022]) #指定索引