php网站开发wamp,七牛镜像存储 wordpress,有哪些网络营销公司,网络营销推广三板斧- 第 100 篇 - Date: 2025 - 05 - 25 Author: 郑龙浩/仟墨
大数据与数据分析 文章目录 大数据与数据分析一 大数据是什么#xff1f;1 定义2 大数据的来源3 大数据4个方面的典型特征#xff08;4V#xff09;4 大数据的应用领域5 数据分析工具6 数据是五种生产要素之一 二 …- 第 100 篇 - Date: 2025 - 05 - 25 Author: 郑龙浩/仟墨
大数据与数据分析 文章目录 大数据与数据分析一 大数据是什么1 定义2 大数据的来源3 大数据4个方面的典型特征4V4 大数据的应用领域5 数据分析工具6 数据是五种生产要素之一 二 数据分析 – 科学算命1 定义2 经常用到的数据①负责处理数据的工具②负责清洗数据的工具 3 数据分析过程 三 大数据分析类型和方法1 四种类型2 描述性数据分析 – 结果监控3 诊断性数据分析 – 问题诊断4 预测性数据分析 – 智能预测**5 规范性分析 – 决策支持**6 数据分析四种方法 四 数据分析流程1 明确分析目标2 搜集所需数据3 数据处理4 数据分析和挖掘5 数据可视化6 撰写数据报告 五 数据分析工具的选择1 数据分析工具有哪些2 Excel3 MATLAB4 Python 一 大数据是什么
1 定义
研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
2 大数据的来源 交易数据 如微信数据、支付宝数据、信用卡数据 人为数据 如电子邮件、文档、图片、微博 机器传感器数据 如智能家居、物联网
3 大数据4个方面的典型特征4V 大量Voume 全地球的数据总量非常庞大 多样Varlety 结构化数据半结构化数据非结构化数据 产生价值的数据往往是非结构化数据 高速Velocity 大数据高速的体现 数据的增长速度和处理速度 价值Value 大数据的核心特征是**“价值”**
4 大数据的应用领域
金融 风险管理欺诈检测、信用评分智能投顾量化交易、市场趋势预测客户分析精准营销、个性化推荐 医疗 疾病诊断AI影像识别、电子病历分析药物研发临床试验优化、副作用预测公共卫生流行病监测、医疗资源优化 能源 智能电网用电预测、动态定价设备维护故障预警、远程监控可再生能源风能/太阳能发电优化 零售 市场分析竞品监测、价格调整精准营销用户画像、个性化推荐供应链优化库存管理、物流效率提升 城市治理智慧城市 交通管理拥堵预测、智能红绿灯公共安全犯罪热点预测、应急响应资源规划人口分布分析、设施优化 教育 个性化学习学习行为分析、自适应推荐教学优化课程评估、教师绩效分析教育管理招生预测、资源分配 …
5 数据分析工具
PythonExcelR…
6 数据是五种生产要素之一 2014年大数据被首次写入中国**《政府工作报告》** 2020年4月9日中共中央发布**《关于更加完善的要素试产化配置体制机制的意见》** 将数据、土地、劳动力、资本、技术并称为五种生产要素
二 数据分析 – 科学算命
1 定义
指用适当的统计分析方法对收集来的大量数据进行数据研究和大量总结从而提取有效信息和形成结论的过程它是数学和计算机科学相结合的产物。
2 经常用到的数据
①负责处理数据的工具
ExcelRTableau
②负责清洗数据的工具
SQLPython
3 数据分析过程
主要包括
识别需求收集数据分析数据过程改进
三 大数据分析类型和方法
1 四种类型
企业通过大数据分析创造价值分为四种类型 描述性数据分析 – 结果监控 即 “发生了什么” 诊断性数据分析 – 问题诊断 即 “为什么发生” 预测性数据分析 – 智能预测 即 “未来会怎样” 规范性数据分析 – 决策支持 即 “该怎么做”
从描述性到规范性复杂性和工作量在逐步增加机器化参与程度更高
2 描述性数据分析 – 结果监控
目标回答“发生了什么”方法数据聚合、可视化如Tableau例子 销售日报月度销售额统计用户活跃度仪表盘
3 诊断性数据分析 – 问题诊断
目标回答“发生了什么”方法关联分析、根因分析如SQL查询、漏斗分析例子 某月销量下降的原因渠道对比、用户流失分析网站跳出率高的关键页面定位
4 预测性数据分析 – 智能预测
目标回答“未来会怎样”方法机器学习回归、分类、时序模型例子 下季度销售额预测客户流失概率预测
5 规范性分析 – 决策支持
借助新兴技术处于数据分析领域的前沿也是最高级的分析形式因为它涵盖了所有的数据分析类型然后输出模型规定要采取的措施
预测某一决策中涉及的多种情况结果根据发现结果确定最佳的行动方案。
目标回答“该怎么做”方法优化算法、自动化决策如强化学习、运筹学例子 电商个性化推荐提升转化率物流路径动态优化降低成本
6 数据分析四种方法 趋势 追踪数据的趋势变化找到一些增长和下降的拐点去分析对应的原因。 趋势分析一般而言适用于产品的核心指标的长期跟踪 Eg营业收入、活跃用户、网页点击 做出简单的数据趋势图并不是数据趋势分析趋势分析更多的是需要明确数据的变化以及对变化原因进行分析 对比 无对比 不分析 对比就是成对的比较 横向对比和他人比较比如两家工资今年的毛利率 纵向对比和自己比较一家工资今年与去年的毛利率 细分 增加分析的深度细分是指分维度降低数据颗粒度来分析数据分维度是只增加维度降低粒度是指降低数据聚合程度比如离职率不按照年份来统计而按照周。 溯源 溯源从原始数据中获得洞察是指在对比、细分锁定到具体维度和颗粒度后依然没有结论那就需要查找原始数据洞察数据就需要从原始数据中查找灵感。
四 数据分析流程
现在数据产生速度快体量大类型多价值密度低要想产生有价值的数据大数据分析能力必定是未来职场人都应具备的条件
1 明确分析目标
确保数据分析过程有效进行的先决条件明确数据分析目的确定分析思路为数据的手机、处理、分析提供清晰的指引方向搭建框架
2 搜集所需数据
明确分析目的和分析框架后需要数据进行支撑数据的来源是哪里呢数据分为第一手数据和第二手数据 第一手数据可直接获取的数据第二手数据加工处理后的数据 一般数据主要来源于 企业内部的数据库、公开出版物、互联网公开数据 如果需要获取某公司某年的年报复制粘贴太过于麻烦这时候就可以通过Python使用网络爬虫获取数据
3 数据处理
获取到想要的数据后如果想为后续数据分析或挖掘所用必须经过数据处理基本目的是从大量的、杂乱无章且那一理解的数据中获得有效且有价值的数据数据处理主要包括 数据清晰数据集成数据变换数据规约 优秀的大数据分析师会用 70 ~ 90% 的时间来处理他们的数据。
4 数据分析和挖掘 数据分析是指用适当的分析方法及其工具对处理过的数据进行分析企业内部的数据库、公开出版物、互联网公开数据的过程 数据挖掘是一种高级的数据分析方法从大量数据中挖掘有用信息根绝用户特定要求找出所需信息 数据挖掘侧重解决四类数据分析问题 分类聚类关联预测 重点在寻找模式和规律与数据分析和数据挖掘的本质是类似的
5 数据可视化
数据可视化是以简单以及直观的图像方式传达出数据包含的信息增强数据的易读性数据分析得到结论后用合适的图形表达分析结果 折线图 – 表示趋势变化饼状图 – 表示比例散点图 – 表示各变量之间的相关性等 数据可视化是将数据结果呈现给数据使用部门的最佳方式
6 撰写数据报告
需要将数据分析得出的内容汇总成数据分析报告数据报告主要包含下面的内容 报告背景 主要描述分析的业务现状和要解决的问题 数据基本状况 主要体现教据来源及可靠性、数据维度概览、数据完整性等 可视化图标 每个数据指标和数据结论的可视化展示 决策建议 提供问题可行的解决方案
五 数据分析工具的选择
在企业中越来越多的重复性和低价值工作被机器人取代数据分析已经成为每个岗位的重要内容因此选择合适的数据分析工具非常重要
1 数据分析工具有哪些
Excel、MATLAB、Python、R语言
2 Excel 可以用于数据处理、统计分析 广泛用于管理、统计、财经等领域 局限性 复用性差、功能单一、操作繁琐
3 MATLAB
是专为科学计算、数据统计开发的分析工具上手较难上课学生学习起来比较吃力
4 Python
从海量数据中获取有效数据如果复制粘贴并且在Excel中进行数据分析处理处理繁琐且效率低下那么如何在海量的数据中获得有效的数据呢
这时候Python就有很大的作用了把它用到工作中可以用于 获取数据、分析数据