当前位置: 首页 > news >正文

做招聘网站需要多少钱als冰桶挑战赛的网络营销方式

做招聘网站需要多少钱,als冰桶挑战赛的网络营销方式,福建鞋子做淘宝图片网站,淮南做网站公司数据洪流悄然重塑世界的进程中#xff0c;大数据的历史是技术迭代与需求驱动的交响。从 2003 年分布式系统雏形初现#xff0c;到 Hadoop 掀起开源浪潮#xff0c;再到 Spark、容器化技术与深度学习的接力革新#xff0c;以及 Hadoop 生态的兴衰起落#xff0c;大数据发展…数据洪流悄然重塑世界的进程中大数据的历史是技术迭代与需求驱动的交响。从 2003 年分布式系统雏形初现到 Hadoop 掀起开源浪潮再到 Spark、容器化技术与深度学习的接力革新以及 Hadoop 生态的兴衰起落大数据发展史如同一部技术进化史诗。本文将循着 2003 至 2023 年的时间脉络解码这场数据革命的前世今生窥探技术浪潮下的未来图景。 主要参考翻译整理自这篇文章 https://towardsdatascience.com/2003-2023-a-brief-history-of-big-data-25712351a6bc 2003–2006: The Beginning 当时谷歌在爬取全世界网页时的两个主要问题: How to store hundreds of terabytes of data, on thousands of disks, across more than a thousand machines, with no downtime, data loss, or even data unavailability ? How to parallelize computation in an efficient and resilient way to handle all this data across all these machines ? 于是乎谷歌发表了改变 big data的三篇论文 The Google File System MapReduce: Simplified Data Processing on Large Clusters Bigtable: A Distributed Storage System for Structured Data 这里还有一篇文章The Friendship That Made Google Huge 介绍了 Jeff Dean and Sanjay Ghemawat 的故事 那会 Doug Cutting 正在做跟谷歌类似的事情分布式爬虫需要计算和存储 Apache Lucene Apache Solr、 ElasticSearch 使用了前者 于是创建了 Apache Nutch同时参考了谷歌的论文创建了 Hadoop包括 HDFS 文件系统 MapReduce 谷歌仍然是保持封闭最初开源的贡献者是 Yahoo随后很多公司都跟进了 2007–2008: Hadoop’s early adopters and contributors MapReduce 很强大但是写起来并不容易于是 Yahoo 就推出了 Apache Pig 将高层语言解析为 map-reduce 这段时间还有几个重量级开源项目 facebook 推出了 Apache Hive 还是facebook 的 Apache Cassandra Powerset 推出了 Apache HBase后被微软收购并开启了新项目 Bing AWS 推出了 Elastic MapReduce可以免运维的方式开发 MapReduce 2008–2012: Rise of the Hadoop vendors Hadoop集群大了之后就很难安装、维护于是出现了很多供应商 Cloudera以及他们的 CDH Hortonworks MapR Cassandra 也找到了供应商 Datastax 在这段时间人们发现 Hive挺好用的但是Hive太慢了 而谷歌又发表了后三驾马车的论文 Dremel: Interactive Analysis of Web-Scale Datasets Pregel这个是图数据库 Caffeine网络搜索引擎 Dremel的两个创新 如何在海量数据中快速查询 新的存储格式 三大 Hadoop 供应商基于 Dremel 的启发又发布了各自的产品 Cloudera 推出了 Apache Impala MapR 推出了 Apache Drill Hortonworks 推出了 Apache Tez Tez 是对MapReduce 的改良上层的 Hive还是不动 这种方案的原因是 Hortonworks 本身人力不够因为他们的客户都是基于Hive的想提升Hive速度而不是迁移到另一个引擎 收到 Dremel 文件格式的启发 Cloudera and Twitter 联合推出了 Apache Parquet Hortonworks and Facebook 联合推出了 Apache ORC 2010–2014 : Hadoop 2.0 and the Spark revolution 新的 Hadoop 调度框架 Yarn 出现之后就是 Spark 的崛起对整个行业有巨大的推动基于Sarpk 创建了Databricks他们是基于云的而不是搞发型版本 之后也证明了 Databricks 的选择是正确的这段时间也出现了几个实时处理的项目 LinkedIn 推出的 Apache Kafka Twitter 推出的 Apache Storm 而 Netflix 的成功也证明了云计算的强大之后 微软 Azue在 2010年入局谷歌 在2011年入局 2014–2016 Reaching the Apex 出现了几个试图统一底层流批的框架 目前还活跃的是 Apache Beam谷歌搞的 目前是将底层的 Apache Spark, Apache Flink or Google’s DataFlow 做统一 然后就是调度系统这个其实也挺复杂的几个开源产品 Yahoo!’s Apache Oozie Linkedin’s Azkaban Airbnb 的 Apache Airflow Spotify 的 Luigi Apache Airflow 还推出了 谷歌云、AWS 的产品 SQL 层面还有 Presto Amazon 的 Athena 基于它重塑了品牌 Presto 创始团队新搞的 Trino 还有几个基于 云的产品 Google 的 BigQuery 2011 Amazon’s Redshift 2012 Snowflake, founded in 2012 The Hadoop Ecosystem Table 2016–2020 The rise of containerisation and deep learning, and the downfall of Hadoop 这段时间的几个大趋势 HDFS替换迁移到云环境Amazon S3, Google Storage or Azure Blob Storage DockerK8S 容器化出现Hadoop 在 3.0才支持Docker 全托管的海量并行SQL数据仓库也叫做Modern Data Stack 深度学习的出现 深度学习需要 GPU以及 Tensorflow or Keras的多个版本同时运行 这些Hadoop都么有当时只能用VM 启动多个GPU 跑任务  于是 Cloudera 在2017年 IPO 之后就基于容器化推出了他们的 Data Science Workbench Hadoop 供应商的大事件 2018年 Cloudera 跟 Hortonworks 合并前者保留品牌 MapR 被 Hewlett Packard Entreprise (HPE) 收购 CDR 以低于发行价 收购了 Cloudera 但这些并不代表 Hadoop 死了它还在运行 之后又出现一些开放表格的技术 Uber 2016年推出的 Apache Hudi Netflix 2017年推出的 Apache Iceberg Databricks 2019年推出的 Delta Lake 这三个项目其实都是为了解决一个问题从Hadoop迁移到云后HDFS的那些功能和性能都无法保证了 需要用新的方案来兼容云存储环境实现事务 Apache Iceberg Reduced Our Amazon S3 Cost by 90% 2020–2023 The modern era Hadoop云化依然是大趋势而且每年都在增加 当然企业内部还是有不少部署 私有化 Hadoop 的 新一代启动都是基于 Modern Data Stack 来开发他们的SQL 分析数据仓库产品 如BigQuery, Databricks-SQL, Athena or Snowflake 目标是低代码、零代码 几个元数据管理产品 Apache Atlas, started by Hortonworks in 2015 Amundsen, open-source by Lyft in 2019 DataHub, open-sourced by Linkedin in 2020 新的调度框架 Prefect Dagster Flyte 开始调整 Airflow的地位 lakehouse 开始出现结合了数据湖、数据仓库的优点 最初是 Databricks 提出的这个平台也方便了数据科学、BI 用户共享数据 因此 数据治理、安全、知识分享也更简单 之后 Snowflake 跟进推出了 Snowpark 然后是 Azure Synapse Google with BigLake 开源方面Dremio provides a lakehouse architecture since 2017 Modern Data Stack: Which Place for Spark ? 2023 - Who can tell what the future will be like? 对未来的一些猜想 主要的数据平台玩家Databricks, Snowflake, BigQuery, Azure Synapse 会继续发力缩小彼此差距增加更多的功能和连接更多的组件 新项目会越来越少主要不是缺乏 ideas而是资金 公司更多是缺乏熟练的劳动力他们更愿意花钱迁移到新方案而不是优化可能因为低效的数据管理使的企业会寻找更好的方案类似Hadoop的新周期又诞生 云厂商 Google, Amazon, Microsoft才是真正的赢家找到风向标然后拷贝整合到自己的环境中 往期推荐 OpenLDAP研究 PyTorch 云环境中的日志收集和处理方案 BTrace Data Ingestion: Architectural Patterns Data engineering at Meta The Life of a Read/Write Query for Apache Iceberg Tables Compaction in Apache Iceberg Spark原理-解析过程和Catalog Janino简单使用 Oracle的CDC工具OpenLogReplicator编译 OpenLogReplicator的一些改动
http://www.zqtcl.cn/news/432294/

相关文章:

  • 知名的网站建设网站在工信部备案
  • 网站首页的快照更新慢爆wordpress密码
  • dw做网站背景图片设置铺平微博通 wordpress
  • 勉县网站建设电商网站要素
  • 重庆旅游seo整站优化网站制作的一般步骤是什么
  • 网站建设评估体系p2p网站建设框架
  • .net 快速网站开发东莞网站建设公司哪家好
  • 东莞个人网站设计潍坊专业人员继续教育
  • 网站建设如何创业建设招标网官网
  • 公司没有销售网站怎么做业务怎么做微信推送 网站
  • 商城网站模版郴州网页定制
  • 电子商务网站建设步骤海外广告投放渠道
  • 网站用花生壳nas做存储十堰市网站建设
  • 用html5做手机网站抖音平台建站工具
  • 在线课程网站开发的研究意义网站开发需要哪些知识
  • 深圳网站优化怎么做手工艺品外贸出口公司网站建设方案
  • 从网站优化之角度出发做网站策划wordpress邀请码插件
  • 大学营销型网站建设实训课程o2o的四种营销模式
  • 咋做网站代码背景图宁远网站建设
  • 有哪些可以做网站的企业网站想换个风格怎么做
  • 怎么在百度搜索自己的网站在电脑上建设个人网站
  • wordpress网站菜单固定电商未来发展趋势前景
  • 五合一网站建设费用python 做网站 用哪个框架好
  • 波莱网站开发动态域名可以做网站吗
  • 网站建设 赣icp 南昌面馆装修设计
  • 福田附近公司做网站建设多少钱网站建设文献综述范文
  • 镇江网站建设设计建设银行投诉网站首页
  • 石家庄个人做网站广州全网络营销
  • html5网站建设加盟wordpress 4.8.6
  • 携程网站建设的基本特点哈尔滨做平台网站平台公司