当前位置：首页 > news >正文

网站建设维护运营情况报告建站工具也成为什么系统

news 2025/11/14 22:45:06

网站建设维护运营情况报告,建站工具也成为什么系统,南京做企业网站,网站平台建设合作协议导读#xff1a;本文我们考虑应当采用哪些预处理步骤#xff0c;让数据更加适合挖掘。数据预处理是一个广泛的领域#xff0c;包含大量以复杂的方式相关联的不同策略和技术。我们将讨论一些最重要的思想和方法#xff0c;并试图指出它们之间的相互联系。作者#xff1a;陈…导读本文我们考虑应当采用哪些预处理步骤让数据更加适合挖掘。数据预处理是一个广泛的领域包含大量以复杂的方式相关联的不同策略和技术。我们将讨论一些最重要的思想和方法并试图指出它们之间的相互联系。作者陈封能(Pang-Ning Tan)、迈克尔·斯坦巴赫(Michael Steinbach)等来源华章科技这些重要的思想和方法具体地说包括聚集抽样维归约特征子集选择特征创建离散化和二元化变量变换粗略地说这些主题分为两类即选择分析所需要的数据对象和属性以及创建/改变属性。这两种情况的目标都是改善数据挖掘分析工作减少时间降低成本提高质量。本文将讨论聚集、抽样、维归约的细节其余主题请关注大数据DT后续文章或阅读《数据挖掘导论》(原书第2版)一书第2.3节。术语注记在下面的内容中我们有时根据习惯用法使用特征(feature)或变量(variable)指代属性(attribute)。01 聚集有时“少就是多”而聚集就是如此。聚集(aggregation)将两个或多个对象合并成单个对象。考虑一个由事务(数据对象)组成的数据集它记录一年中不同日期在各地(Minneapolis Chicago……)商店的商品日销售情况见表2.4。对该数据集的事务进行聚集的一种方法是用一个商店的事务替换该商店的所有事务。这把每天出现在一个商店的成百上千个事务记录归约成单个日事务而每天的数据对象的个数减少为商店的个数。▲表2.4 包含顾客购买信息的数据集在这里一个显而易见的问题是如何创建聚集事务即在创建代表单个商店或日期的聚集事务时如何合并所有记录的每个属性的值。定量属性(如价格)通常通过求和或求平均值进行聚集。定性属性(如商品)可以忽略也可以用更高层次的类别来概括例如电视和电子产品。表2.4中的数据也可以看作多维数组其中每个属性是一个维。从这个角度聚集是删除属性(如商品类型)的过程或者是压缩特定属性不同值个数的过程如将日期的可能值从365天压缩到12个月。这种类型的聚集通常用于联机分析处理(OnLine Analytical ProcessingOLAP)OLAP的引用在参考文献中给出。聚集的动机有多种。首先数据归约导致的较小数据集需要较少的内存和处理时间因此可以使用开销更大的数据挖掘算法。其次通过高层而不是低层数据视图聚集起到了范围或标度转换的作用。在前面的例子中在商店位置和月份上的聚集给出数据按月、按商店而不是按天、按商品的视图。最后对象或属性群的行为通常比单个对象或属性的行为更加稳定。这反映了统计学事实相对于被聚集的单个对象诸如平均值、总数等聚集量具有较小的变异性。对于总数实际变差大于单个对象的(平均)变差但是变差的百分比较小而对于均值实际变差小于单个对象的(平均)变差。聚集的缺点是可能丢失有趣的细节。在商店的例子中按月的聚集就丢失了星期几具有最高销售额的信息。例2.7 澳大利亚降水量该例基于澳大利亚从1982年到1993年的降水量。我们把澳大利亚国土按经纬度0.5°乘以0.5°大小分成3030个网格。图2.8a的直方图显示了这些网格单元上的平均月降水量的标准差。而图2.8b的直方图显示了相同位置的平均年降水量的标准差。可见平均年降水量比平均月降水量的变异性小。所有降水量的测量(以及它们的标准差)都以厘米(cm)为单位。▲图2.8 澳大利亚从1982年到1993年月和年降水量标准差的直方图02 抽样抽样是一种选择数据对象子集进行分析的常用方法。在统计学中抽样长期用于数据的事先调查和最终的数据分析。在数据挖掘中抽样也非常有用。然而在统计学和数据挖掘中抽样的动机并不相同。统计学家使用抽样的原因是获取感兴趣的整个数据集的代价太高并且太费时间而数据挖掘人员进行抽样通常是因为处理所有数据所需的内存或时间方面的计算成本太高。在某些情况下使用抽样的算法可以压缩数据量以便可以使用更好但开销较大的数据挖掘算法。有效抽样的主要原理如下如果样本是有代表性的则使用样本与使用整个数据集的效果几乎一样。反过来说若样本近似地具有与原数据集相同的(感兴趣的)性质则称样本是有代表性的。如果数据对象的均值(平均值)是感兴趣的性质而样本具有近似于原数据集的均值则样本就是有代表性的。由于抽样是一个统计过程特定样本的代表性是不一样的因此最好能做的就是选择一个抽样方案以确保以很高的概率得到有代表性的样本。如下所述这涉及选择适当的样本容量以及抽样技术。1. 抽样方法有许多抽样技术但是这里只介绍少量最基本的抽样技术及其变种。最简单的抽样是简单随机抽样(simple random sampling)。对于这种抽样选取任何特定项的概率相等。随机抽样有两种变种(其他抽样技术也一样)无放回抽样——每个选中项立即从构成总体的所有对象集中删除有放回抽样——对象被选中时不从总体中删除。在有放回抽样中相同的对象可能被多次抽出。当样本与数据集相比相对较小时两种方法产生的样本差别不大。但是对于分析有放回抽样较为简单因为在抽样过程中每个对象被选中的概率保持不变。当总体由不同类型的对象组成并且每种类型的对象数量差别很大时简单随机抽样不能充分地代表不太频繁出现的对象类型。在分析需要所有类型的代表时这可能出现问题。例如当为稀有类构建分类模型时样本中适当地提供稀有类是至关重要的因此需要提供具有不同频率的感兴趣的项的抽样方案。分层抽样(stratified sampling)就是这样的方法它从预先指定的组开始抽样。在最简单的情况下尽管每组的大小不同但是从每组抽取的对象个数相同。另一种变种是从每一组对象抽取的样本数量正比于该组的大小。例2.8抽样与信息损失一旦选定抽样技术就需要选择样本容量。较大的样本容量增大了样本具有代表性的概率但也抵消了抽样带来的许多好处。反过来使用较小容量的样本可能丢失模式或检测出错误的模式。图2.9a显示了包含8000个二维点的数据集而图2.9b和图2.9c显示了从该数据集抽取的容量分别为2000和500的样本。该数据集的大部分结构都出现在2000个点的样本中但是许多结构在500个点的样本中丢失了。▲图2.9 抽样丢失结构的例子例2.9确定合适的样本容量为了说明确定合适的样本容量需要系统的方法考虑下面的任务。给定一个数据集它包含少量容量大致相等的组。从每组至少找出一个代表点。假定每个组内的对象高度相似但是不同组中的对象不太相似。图2.10a显示了一个理想簇(组)的集合这些点可能从中抽取。▲图2.10 从10个组中找出具有代表性的点使用抽样可以有效地解决该问题。一种方法是取数据点的一个小样本逐对计算点之间的相似性然后形成高度相似的点组。从每个点组取一个点则可以得到具有代表性的点的集合。然而按照该方法我们需要确定样本的容量它以很高的概率确保得到期望的结果即从每个簇至少找出一个代表点。图2.10b显示了随着样本容量从10变化到60从10个组的每一个组中得到一个对象的概率。有趣的是使用容量为20的样本只有很小的机会(20%)得到包含所有10个组的样本。即便使用容量为30的样本得到不包含所有10个组中对象的样本的概率也很高(几乎40%)。2. 渐进抽样由于可能很难确定合适的样本容量因此有时需要使用自适应(adaptive)或渐进抽样(progressive sampling)方法。这些方法从一个小样本开始然后增加样本容量直至得到足够容量的样本。尽管这种技术不需要在一开始就确定正确的样本容量但是需要评估样本的方法确定它是否足够大。例如假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随样本容量的增加而增加但是在某一点准确率的增加趋于稳定。我们希望在稳定点停止增加样本容量。通过掌握模型准确率随样本逐渐增大的变化情况并通过选取接近于当前容量的其他样本我们可以估计出与稳定点的接近程度从而停止抽样。03 维归约数据集可能包含大量特征。考虑一个文档的集合其中每个文档是一个向量其分量是文档中每个词出现的频率。在这种情况下通常有成千上万的属性(分量)每个代表词汇表中的一个词。再看一个例子考虑包含过去30年各种股票日收盘价的时间序列数据集。在这种情况下属性是特定日期的价格也数以千计。维归约有多方面的好处。关键的好处是如果维度(数据属性的个数)较低许多数据挖掘算法的效果就会更好。部分是因为维归约可以删除不相关的特征并降低噪声另一部分是因为维灾难。(维灾难在下面解释。)还有一个好处是维归约可以使模型更容易理解因为模型可能只涉及较少的属性。此外维归约也可以更容易让数据可视化。即使维归约没有将数据归约到二维或三维数据也可以通过观察属性对或三元组属性达到可视化并且这种组合的数目也会大大减少。最后使用维归约降低了数据挖掘算法的时间和内存需求。术语“维归约”通常用于这样的技术通过创建新属性将一些旧属性合并在一起以降低数据集的维度。通过选择旧属性的子集得到新属性这种维归约称为特征子集选择或特征选择。下面简单介绍两个重要的主题维灾难和基于线性代数方法(如主成分分析)的维归约技术。1. 维灾难维灾难是指这样的现象随着数据维度的增加许多数据分析变得非常困难。特别是随着维度增加数据在它所占据的空间中越来越稀疏。因此我们观测到的数据对象很可能不是总体数据对象的代表性样本。对于分类这可能意味着没有足够的数据对象来创建模型将所有可能的对象可靠地指派到一个类。对于聚类点之间的密度和距离的定义(对聚类是至关重要的)失去了意义。结果是对于高维数据许多分类和聚类算法(以及其他的数据分析算法)都麻烦缠身——分类准确率降低聚类质量下降。2. 维归约的线性代数技术维归约的一些最常用的方法是使用线性代数技术将数据由高维空间投影到低维空间特别是对于连续数据。主成分分析(Principal Component AnalysisPCA)是一种用于连续属性的线性代数技术它找出新的属性(主成分)这些属性是原属性的线性组合是相互正交的(orthogonal)并且捕获了数据的最大变差。例如前两个主成分是两个正交属性是原属性的线性组合尽可能多地捕获了数据的变差。奇异值分解(Singular Value DecompositionSVD)是一种线性代数技术它与PCA有关并且也用于维归约。请参考附录A和B获取更多细节。关于作者陈封能(Pang-Ning Tan) 密歇根州立大学计算机科学与工程系教授主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。本文摘编自《数据挖掘导论》(原书第2版)经出版方授权发布。延伸阅读《数据挖掘导论》(原书第2版)推荐语本书为斯坦福大学、密歇根州立大学、明尼苏达大学、得克萨斯大学等知名高校的数据挖掘课程教材。从算法的角度介绍数据挖掘所使用的主要原理与技术。所涵盖的主题包括数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法为读者提供将数据挖掘应用于实际问题所需的必要背景以及方法。

查看全文

http://www.zqtcl.cn/news/538074/