成都网站优化软件,mod_rewrite wordpress,响水做网站哪家公司好,九一果冻制品厂最新电视剧红桃前言在数据处理的过程中#xff0c;我们应该都有这样的体会#xff0c;本质上数据处理与分析是相互协作#xff0c;彼此成就的过程。比如#xff0c;我们会用数据分析统计数据集中的缺失值、异常值#xff0c;更直观的也会进阶到数据可视化的部分(到达该部分一般是成了文章…前言在数据处理的过程中我们应该都有这样的体会本质上数据处理与分析是相互协作彼此成就的过程。比如我们会用数据分析统计数据集中的缺失值、异常值更直观的也会进阶到数据可视化的部分(到达该部分一般是成了文章类或汇报类的一部分)然后以统计结果为基础再对数据进行处理。这个过程往往不是一次性过程是循环往复的。然后数据处理的结果是有质量的对后期的数据挖掘、机器学习、深度学习以及其他更多的应用提供了坚实的基础。接下来我们就一起来梳理和总结一下数据处理过程中经常遇到的缺失值处理方法。小编在本文中主要通过python技术来讲解不同数据需求背景下的数据缺失值处理方法。特别提示一下我们在学习的过程中需要有这样的思维我们是为了处理数据而使用python不是为了使用python而进行数据处理。我们需要从本质上掌握缺失值处理方法然后才是python技术在这些场景上有什么样的函数或方法可以更便捷、更简单的解决问题。缺失值的处理方法通常分为两种一是直接将其进行滤除二是使用固定值或衍生值去填充缺失值下面进行逐一介绍。回顾滤除缺失值方法滤除缺失值数据有两种场景一种是对Series结构的数据进行滤除另外则是对DataFrame数据进行滤除。1.Series结构数据缺失值滤除关于python技术滤除缺失值的方法小编在过往的分享中已经进行了介绍。在本文中我们一起来简单回顾大家可以加深一下印象。首先从numpy中导入缺失值方法具体代码如下#书写方式如下from numpy import nan as NA其次dropna使用方法具体写法如下data.dropna()另外一种同样能够达到此目的的方式是通过布尔型索引具体写法如下Data[data.notnull()]2.DataFrame结构数据缺失值滤除接下来我们具体来回顾一下dropna方法是如何DataFrame结构数据的行、列和时间序列数据进行滤除的不同场景下使用的方法如下所示(1)dropna默认丢弃任何含有缺失值的行书写方式data.dropna()(2)传入how’all’将只丢弃全为NA的那些行书写方式data.dropna(how’all’)(3)传入axis1丢弃列书写方式data.dropna(how’all’,axis1)(4)thresh参数过滤时间序列数据书写方式df.dropna(thresh3)上述的不同场景下滤除缺失值的方法相对比较完整大家可以在亲自进行尝试和体会。如何使用固定值或衍生值填充缺失值在回顾了缺失值滤除方法后我们重点来介绍如何使用固定值或衍生值填充缺失值。在有少量缺失值但相对完整的数据中直接滤除缺失值是一种相对粗暴的解决方法。而实际的数据处理过程中我们经常进行的是使用固定值或衍生值填充缺失值然后再进行下一步的其他动作。我们使用dropna方法进行缺失值滤除而缺失值填充使用的则是fillna这个工具。小编在本文中主要介绍4种填充缺失值的场景及相应的示例具体如下1.用平均值填充NA值2.对不同分组填充不同的值假设需要对不同的分组填充不同的值。只需将数据分组并使用apply和一个能够对各数据块调用fillna的函数即可。3.用分组平均值去填充NA值4.在代码中预定义各组的填充值由于分组具有一个name属性所以可以用一下总结综上所述dropna和fillna两种python技术工具实现了缺失值的滤除和填充。除此之外本文介绍了9种缺失值处理的应用场景与方法分别为Series结构的缺失值滤除、DataFrame结构数据缺失值滤除(4种)、4种使用固定值或衍生值填充缺失值的场景与方法基本涵盖了数据处理中经常使用的缺失值处理应用场景与方法。python好书推荐