建设银行附近网站点,淘宝客怎样建设网站,期刊网站源码,wordpress必应《大数据挖掘及应用》学习笔记。
第2章 数据认知与预处理 2.1 数据分析的定义和流程 数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释#xff0c;提取出有用的信息形成结论#xff0c;从而对数据加以详细研究和概括总结的过程。
2.1.1 如…《大数据挖掘及应用》学习笔记。
第2章 数据认知与预处理 2.1 数据分析的定义和流程 数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释提取出有用的信息形成结论从而对数据加以详细研究和概括总结的过程。
2.1.1 如何理解和描述数据分析的问题 理解和抽象出一个待分析的数据分析问题模型步骤
理解待分析的问题。考察待分析问题的当前形势。确定待分析问题的数据分析模型。制定实施该问题的数据分析步骤。
2.1.2 数据获取与准备 获取数据的主要途径
数据库数据仓库文件
2.1.3 数据质量评估
准确性完整性一致性时效性
2.2 数据类型 我们获取的数据集都由一个一个数据对象组成每一个对象都代表一个实例。
2.2.1 属性的定义 属性(attribute)是一个字段表示数据对象的一个特征。对象与属性是不可分的没有属性的对象是不存在的因为对象不用属性来进行描述就不能称之为对象了而属性如果不用来描述对象也就没有意义。 属性的取值范围决定了属性的类型 2.2.2 标称属性(nominal attribute) 指一些不同的符号或事物的名称每个值提供了足够的信息以区分对象。 例如描述水果类的数据对象名称值可能是梨、苹果、桃子等种类值可能是浆果类、核果类、柑橘类等而颜色的值可能是红色、青色、黄色等。 如苹果、核果类、红色表明了其所描述的对象苹果的属性。 当然也可以用数字来表示标称属性如定义1表示苹果2表示梨等一般情况下不能求这些值的均值、中位数但可以求出该属性下最常出现的值这个值称为众数(mode)是一种中心趋势度量。
2.2.3 二元属性(binary attribute) 只有两个可选值的属性只有0和1或值True和False两个状态。
2.2.4 序值属性(ordinal attribute) 提供足够的信息确定数据对象之间的序但是值之间的差是未知的。序值属性可以定义众数、中位数或百分位数但不能定义均值。
2.2.5 数值属性(numeric attribute) 最常用的一种数据类型它是可度量的用整数或实数值表示它定量地描述对象。
2.3 数据的统计描述方法 在对数据进行分析之前把握数据的全貌是至关重要的。基本的统计描述方法不仅可以用来识别整个数据集的性质和特点发现数据集中的噪声或离群点还能够对缺失的数据值进行补全。
基本统计描述
…持续修改完善中