网站域名购买方法,互联网产品运营,网站设计一般包括什么,网站建设分解结构1、SEMMA 的基本思想是从样本数据开始#xff0c;通过统计分析与可视化技术#xff0c;发现并转换最有价值的预测变量#xff0c;根据变量进行构建模型#xff0c;并检验模型的可用性和准确性。【强调探索性】
2、CRISP-DM模型Cross Industry Standard Process of Data Mi…1、SEMMA 的基本思想是从样本数据开始通过统计分析与可视化技术发现并转换最有价值的预测变量根据变量进行构建模型并检验模型的可用性和准确性。【强调探索性】
2、CRISP-DM模型Cross Industry Standard Process of Data Mining被称为跨产业的数据挖掘标准流程 商业理解其目的是要了解企业的整个运作过程。商业理解的作用主要是确定题目即通过数据挖掘想要解决什么问题。【强调商业性】
数据理解检查解决问题所需要的数据是否收集齐全若没有则退回到商业理解这一步。
数据预处理对收集到的数据进行处理此阶段耗时最长。
建模建立模型若结果不好则退回到数据预处理这一步进行相应的调整。
评估评估结果好就可以实施评估结果不好就直接退回到商业理解这一步重新开始。
实施模型的实际应用。
3、数据分析的基本流程为以下6步曲
问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。
4、EXCEL常用函数
日期函数
EDATE 函数用于计算某个日期之前或之后的月份数。它的基本语法如下
EDATE(start_date, months)
EDATE(2024-01-01, 1) 返回 “2024-02-01”即2024年1月1日加上1个月后的日期
start_date起始日期。months你想要添加或减去的月份数。正值表示添加月份负值表示减去月份。
EOMONTH 函数用于计算某个日期所在月份的最后一天。它的基本语法如下
EOMONTH(2024-01-15, 5) 返回 2024-06-30”即2024年1月15日所在月份的最后一天
5、主键的业务意义
表的业务记录单位数据表中的非主键字段都要围绕主键展开具备相关性。
6、ETL功能Extract-Transform-Load将数据从数据源端经过提取、清洗转换之后加载到数据仓库。
E创建于数据源的连接对数据进行引用
T清洗–筛选过滤不完整、错误及重复的数据记录转换–‘粒度’不一致、业务规则不一致
L加载到数据仓库中存储和使用
7、fromwheregroup by having select order by
8、开窗函数 实体完整性是是指每个表都有唯一的标识符–主键主键不能为空或重复。
参照完整性是指外键的取值必须是另一个表的有效值或空值。
用户定义完整性是指满足用户的某个需求字段不为空等。
域完整性约束域代表当前单元格限制此单元格的数据正确。
9、集中趋势的描述 – 平均指标 各种数众数、中位数、分位数、平均数
大蒜有几条 算术几何调和平均数
离散程度的描述各种差–变异指标极差、平均差、方差、四分位差、标准差、离散系数即变异系数
描述性统计图表直方图、散点图、箱线图
10、箱线图 在Q31.5IQR和Q11.5IQR处画两条与中位线一样的线段这两条线段为异常值截断点称其为内限在Q33IQR和Q13IQR处画两条线段称其为外限。处于内限以外位置的点表示的数据都是异常值其中在内限与外限之间的异常值为温和的异常值mild outliers在外限以外的为极端的异常值(extreme outliers)。四分位距IQRQ3-Q1。
统计分布两点分布、二项分布、正态分布、卡方、t分布、F分布
相关关系散点图、线性、正相关、协方差、相关系数 参数估计
95% 对应 1.96
90% 对应 1.645 汇总规则
单向只能一表筛选多表
双向多表可以筛选一表但是用规则二 基本透视规则合计、计数、平均、最大最小值
什么是指标 基本指标求和类常规求和、累计求和、时间维度下累计指标、计数类、比较类差异百分比、均比、定基比增长率、同环比增长率 场景指标
可视化报表和业务分析报告的差异 RFM模型
重要价值用户–保持现状
重要发展用户–提升频次
重要保持用户–用户回流
重要挽留用户–重点召回
业务分析决策树
1.比较类
图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图
2.序列类
图表连续、有序类别的数据波动折线图、面积图、柱图、漏斗图
3.构成类
图表–环状图、饼图、堆积图、瀑布图
4.描述类
图表–直方图、盒须图、气泡图、散点图
报告撰写流程 业务理解→数据收集→数据处理→数据分析→图表制作→报告绘制