合肥网站设,怎样制作网站,初中作文优秀作文,站长交流平台前言
毫不夸张的说在中国除了婴幼儿及七八十以上的老年人#xff0c;都有过网购经历。电商公司就如雨后春笋般迅速发展。了解用户的网购行为#xff0c;有助于商家定品类#xff0c;定营销方案等。利用数据分析与挖掘#xff0c;争取做到比顾客自己还了解TA自己。 文章目录…前言
毫不夸张的说在中国除了婴幼儿及七八十以上的老年人都有过网购经历。电商公司就如雨后春笋般迅速发展。了解用户的网购行为有助于商家定品类定营销方案等。利用数据分析与挖掘争取做到比顾客自己还了解TA自己。
文章目录前言一、背景Ⅰ 数据来源Ⅱ 数据背景Ⅲ 分析目的二、探索性分析Ⅰ 数据导入Ⅱ 数据类型Ⅲ 描述性统计1、缺失值处理2、异常值处理3、重复值处理三、数据分析Ⅰ 商品销售规律a、时间b、日期c、商品品类d、国家Ⅱ 用户行为习惯a、购买排行b、退货排行Ⅲ 数据挖掘RFM模型一、背景
Ⅰ 数据来源
该数据集来自The UCI Machine Learning Repository为了更贴合我的分析目的我自己在这个基础进行了一些修改。对不需要的数据进行了删除添加了一些需要的数据。
Ⅱ 数据背景
该数据集是英国某电商在2010-12-01到2011-12-09的全部在线销售数据采用的是我进行整改后的数据包含541904个样本和九个特征值分别是发票编号商品品类购买日期购买时间数量单价总价客户编号国家。发票编号前面有c的订单为退货数据为负的也代表退货。
Ⅲ 分析目的 二、探索性分析
Ⅰ 数据导入
一、创建数据表
CREATE TABLE users (InvoiceNo varchar(30) DEFAULT NULL,GOODS varchar(30) DEFAULT NULL,Dates date DEFAULT NULL,Times time DEFAULT NULL,Quantity int(11) DEFAULT NULL,UnitPrice float DEFAULT NULL,Total float DEFAULT NULL,CustomerID varchar(30) DEFAULT NULL,Country varchar(30) DEFAULT NULL
) ENGINEInnoDB DEFAULT CHARSETutf8二、插入数据
LOAD DATA INFILE D:UsersBehavior.csv
INTO TABLE users
CHARACTER SET utf8
FIELDS TERMINATED BY , OPTIONALLY ENCLOSED BY ESCAPED BY
LINES TERMINATED BY \n
ignore 1 lines;
Ⅱ 数据类型
DESCRIBE users;
-- 或者 DESC users;
-- 或者 SHOW COLUMNS FROM users; Ⅲ 描述性统计
a.购买
SELECT MIN(DISTINCT Quantity)AS 最小值,MAX(DISTINCT Quantity)AS 最大值,AVG(Quantity)AS 平均值 FROM users WHERE Quantity0 UNION
SELECT MIN(DISTINCT total),MAX(DISTINCT total),AVG(total)FROM users WHERE total0 UNION
SELECT MIN(DISTINCT unitprice),MAX(DISTINCT unitprice),AVG(unitprice) FROM users; b.退货
SELECT MIN(DISTINCT Quantity)AS 最大值,MAX(DISTINCT Quantity)AS 最小值,AVG(Quantity)AS 平均值 FROM users WHERE Quantity0 UNION
SELECT MIN(DISTINCT total),MAX(DISTINCT total),AVG(total)FROM users WHERE total0;
## Ⅳ 数据预处理
1、缺失值处理 不存在缺失值不需要进行额外处理
2、异常值处理
a、价格看是否有负数
SELECT unitprice FROM users WHERE unitprice0; 只有两个为负数的价格直接删除。
DELETE FROM users WHERE unitprice0;
b、时间看有没有超过时间范围的
SELECT MIN(dates),MAX(dates) FROM users; 时间范围正确数据较干净。
3、重复值处理
由于在这次数据中一张发票编号可能对应多种商品所以允许重复值的存在。没有设立“主键”。
三、数据分析
Ⅰ 商品销售规律
a、时间
1哪个时间段购买最多哪个最少。
SELECT times,COUNT(InvoiceNo)FROM users WHERE Quantity0 GROUP BY times ORDER BY COUNT(invoiceno)DESC; 结果显示在下午十二点到四点左右是订单最多的时候早上六七点和晚上六七点是订单最少的时候可根据这个时间规律合理安排客服人员快速处理订单。 2哪个时间段退货最多哪个最少。
SELECT times,COUNT(InvoiceNo)FROM users WHERE Quantity0 GROUP BY times ORDER BY COUNT(invoiceno)DESC; 结果显示在上午十二点到下午两点左右是退货订单最多的时候早上六点到八点和晚上六七点是退货订单最少的时候可根据这个时间规律合理安排客服人员快速处理订单。 综合来说就是上午应该让处理退货能力强的客服值班争取让退货订单少一点下午则促成订单能力强客服值班最大可能促成多的订单。
b、日期
1购买
SELECT dates,SUM(Quantity)AS 日购买量,SUM(total)AS 日购买金额 FROM users WHERE Quantity0 GROUP BY dates ORDER BY SUM(quantity)DESC; 观察结果发现在第三第四季度销量遥遥领先推测可能是在两个季度促销力度较大也有可能是商品属性决定。 2退货
SELECT dates,SUM(Quantity)AS 日购买量,SUM(total)AS 日购买金额 FROM users WHERE Quantity0 GROUP BY dates ORDER BY SUM(quantity); 基本上退货与售出数量成正比关系但是前面数据存在几个异常数据。重点观察这几个数据找出原因看是偶然原因还是必然。找到造成其异常的本质从根源解决问题。
c、商品品类
1购买订单
SELECT goods,SUM(Quantity)FROM users WHERE Quantity0 GROUP BY goods ORDER BY SUM(Quantity)DESC; A类卖出最多在对库存进行管理的时候A类产品可多进一些根据售卖规律找到库存临界点一到那个点就赶快进货。 2退货订单
SELECT goods,SUM(Quantity)FROM users WHERE Quantity0 GROUP BY goods ORDER BY SUM(Quantity); B类产品退货最多但是只从数据其他品类也相差不大联系实际售出则会发现B、E的退货率较高可进行订单跟踪为什么会有这么高的退货率。是商品质量不行还是市场不受欢迎等原因。
d、国家
1售出
SELECT country,SUM(Quantity),SUM(total)FROM users WHERE Quantity0 GROUP BY Country ORDER BY SUM(total)DESC; 排名前十和后十差距较明显呈现一个两极趋势可研究前十的剩余市场价值及后十为什么销售只有这么一点为什么只有这么一点销售额比如广告营销不到位、本身市场已经饱和。
Ⅱ 用户行为习惯
a、购买排行
SELECT customerid,countrySUM(Quantity),SUM(total)FROM users WHERE Quantity0 GROUP BY customerid ORDER BY SUM(total)DESC; 符合二八定律即20%的客户贡献了80%的销售额。采用多项会员优惠措施维护好老客户赠券等开发新客户。
b、退货排行
SELECT customerid,country,SUM(Quantity),SUM(total)FROM users WHERE Quantity0 GROUP BY customerid ORDER BY SUM(total); 对比来看购买多的客户也可能退货多重点关注这些客户为什么退货做好售后服务增强黏性。
Ⅲ 数据挖掘
RFM模型
1利用SPSS中针对营销行为的直销模块完成RFM分析将数据库中的users表导入到SPSS中。 2选择【直销】【选择方法】在【直销】对话框中单击【帮助标识我的最佳联系人RFM分析】然后单击【继续】按钮。【RFM分析数据格式】对话框中选择【交易数据】。在【交易数据RFM分析】的【变量】选项卡中将变量移动到对应的位置如图所示。 3在【输出】选项卡中勾选全部选项。然后点击【确认】。随后生成了如下的数据文件。 输出结果中“RFM分箱计数”图显示了分箱分布。每个条形都表示被赋予每个组合RFM得分的客户数。希望获得相当均匀的分布即所有或大多数条形的高度大致相同但其实也会产生一定程度的偏差。从分箱结果来看分箱的频数分布相对均匀。 观察值处理摘要。对2305个客户进行分析没有缺失值。 RFM交叉表。是将“RFM分箱计数”图以表格的形式展示出来。 RFM热图用颜色深浅表示交易金额的大小。可以发现随着最后一次交易间隔的得分和交易总次数的得分的分值越大颜色越深即右侧的颜色比左侧深上方的颜色比下方深说明客户最近一次交易时间间隔越近交易次数越多其平均交易金额越多。 “RFM分布直方图”。显示了最近一次交易时间、交易总次数和交易金额的频率分布以此来判断各自的客户人群分布的情况横轴的排列顺序较小的值在左边较大的在右边频率和货币两项的横坐标是对数刻度。 “RFM散点图”是最近一次交易时间、交易总次数和交易金额之间的散点图。通过散点图可以清晰、直观地看到三个分析指标两两之间的关系。可以看出交易总次数和交易金额存在一定程度上的正相关性而最近一次交易时间和另外两个分析指标之间的存在较为明显的正相关性但相关性较弱。 对评分进行描述统计。结果如下表所示。更多关注的是均值。 将每个客户的R_SF_SM_S与均值比较如果低于均值就定义为“低”如果高于均值就定义为“高”。 在【转换】菜单中的【重新编码为不同变量】分别将最后一次交易间隔的得分交易总次数的得分交易总金额的得分的值按“高”与“低”确定新的变量“高”用2表示“低”用1表示。 【转换】菜单中的【计算变量】 1单击“转换”菜单选择“计算变量”弹出“计算变量”对话框在“目标变量”下的方框中输入“客户分类”在右侧的“数字表达式”下的方框中输入“1”先生成“客户分类1”的数据。 2单击左下方的“如果”弹出“计算变量if个案”对话框选择“在个案满足条件时包括”项。 3在右侧的表达式中输入“R_S分类2F_S分类2M_S分类2”就是上面表格的三个分类定义输入完成之后单击继续按钮返回单击“确定”按钮这样满足条件的个案它的“客户分类”就是1了然后重复上面的步骤知道8个分类全部完成。 在【数据】菜单中的【定义变量属性】中将1-8分别定义为8种客户类型。 图形图表构造器 重点挽留客户及潜在客户、一般保持客户、一般价值客户占比达到70%。说明与客户之间黏性不足可开发的客户价值还很高需要加大运营力度提高销售额。