当前位置: 首页 > news >正文

南京 招网站开发互联网架构

南京 招网站开发,互联网架构,徐州建设工程交易网浙江公正,d8 4.0 wordpress戳蓝字“CSDN云计算”关注我们哦#xff01;作者 | 大数据架构师本文链接#xff1a;https://www.jianshu.com/p/08255fa980e4Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下#xff0c;开发分布式程序。充分利用集群的威力… 戳蓝字“CSDN云计算”关注我们哦作者 | 大数据架构师本文链接https://www.jianshu.com/p/08255fa980e4Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。1. (误解) Hadoop什么都可以做(正解) 当一个新技术出来时我们都会去思考它在各个不同产业的应用而对于平台的新技术来说我们思考之后常会出现这样的结论 “这个好像什么都能做” 然而更深入的去想你就会发现“好像什么都需要重头做”。对于Hadoop我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时上面并没有什么现成的应用方案(Application)所以厂商在销售的过程中常需要花很多的时间去告诉客户说如果今天你有了这个数据库你就可以做什么什么的应用而看起来的确好像数据库什么应用都可以做因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造我们今天习以为常的ERP、CRM等应用系统当时并不存在的那都是后来的事了。今天的Hadoop正好有点像当年database 刚出来的时候毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据而这些东西的确都是Hadoop擅长的所以平台的适用性其实问题不大重点还是在应用要由谁来搭建。2. (误解) Hadoop无法扮演HPC (High Performance Computing) or Grid Computing的角色(正解) 由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成所以我们也看到很多研究机构或教育单位开始尝试把部分原本执行在HPC 或Grid上面的任务部分移植到Hadoop集群上面利用Hadoop兼顾高速运算与海量储存的特性更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域都已经有这样的应用案例利用Hadoop集群与现有的HPC/Grid 搭配、协同运作来满足不同特性的运算任务。3. (误解) Hadoop只能做资料分析/挖掘(Data Mining/Analyst)(正解) Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的但数据分析与挖掘是难度与深度都较高的一个应用所需要的时间的积累也比较长也因此让一般企业对于导入Hadoop视为畏途甚至心怀恐惧。然而从Etu知意图团队这一两年来辅导客户的经验来看我们发现其实更多的应用大多都在数据处理(Data Processing)这个部分或者更精确地来说Hadoop这个平台特别适合数据预处理(Data pre-Processing)这种应用场景。无论是数据仓库的负载分流(DW Offload)、数据的汇总(Data Aggregation)、甚或是我们运用协同过滤算法(Collaborative Filtering)针对线下线上零售业所做的精准推荐应用(Recommendation)广义上来看都可以说是属于Data Processing的一环毕竟Big Data的来临我们看data、运用data的角度与方式都必须要有所改变。►  Big Data强调的不是对因果关系的渴求取而代之的是关注于data之间的相关关系。►  也就是说重点在于要知道“是什么”反而未必需要知道“为什么”。►  所以, 它要求的是所有data的处理而不只是随机样本的分析。►  最后我们往往会发现处理Big Data的简单算法所得到的来自于data呈现的事实往往比分析small data的复杂算法所得到的来自data背后的原因对企业带来的效益更大。我强烈推荐大家去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书里面把我们面对Big Data该有的观点与看法做了非常清楚的陈述有简中的的翻译本繁中的好像还没看到。4. (误解) Hadoop就是BI (Business Intelligence)商业智能(正解) 跟前面一样这也是大多数人最容易误解的地方因为Hadoop特别适合来做数据分析所以就很直觉地把它想成 “那就是BI嘛”。会有这种误解主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Data Presentation)其数据的载体(Data Store)是数据库或数据仓库。对比来看Hadoop就是专注在半结构化、非结构化数据的数据载体跟BI是不同层次的概念。当然Hadoop除了 Data Store外又特别具备运算的特性也因此特别容易带来这种观念上的混淆。至于半结构、非结构化数据的数据展现层部分目前本身并不在Hadoop的生态体系内而是由其他现有或新创的公司来填补这块空缺所以逐渐地我们会看到越来越多现有的BI tool开始强调其自身与Hadoop的联系性与兼容性同时一些新创公司也发展出完全不同于现有BI Tool的基于Big Data的数据展现层。5. (误解) Hadoop就是ETL (Extract, Transform Load)(正解) ETL其实有两种意涵它本身是一个概念也同时是一个产品类别(Product Category)的总称。所以当我们听到“某某公司是做ETL产品的”的这种对话时其中的 ETL与DB、Application Server等名词是相同的都是指向某种类别的IT产品。然而如果就概念性上来看ETL指的其实是数据运用的生命周期中的其中一个过程 跟我前面提到的数据预处理(Data pre-Processing)是同样一个概念举凡数据清洗(Data Cleansing)、数据关联、数据汇总等都包含在这个范畴内。所以当我们说Hadoop特别适合拿来做ETL时在概念上它是正确的同时也能很清楚明白地定位出Hadoop在企业资料运用中所扮演的角色。但Hadoop终究不是一个ETL的产品反倒是现有的ETL产品也开始跟BI一样去发展它在Hadoop上的可用性、联系性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理时常常会用script语言来实现一些应用场景最近一段时间以来我们的技术顾问也开始运用3rd-party 的ETL tool来实作这一块对企业客户来说这是他们较熟悉的工具也降低了他们进入Hadoop的门槛。6. (误解) Hadoop跟传统storage没什么差别, 都特别适合来做资料的备份(Data Archive)(正解) 熟悉storage的人第一次看到Hadoop时往往只会注意到它的分布式文件系统HDFS然后开始拿它来与现有的storage的功能特性做比较而忽略掉Hadoop本身并行运算的那一块。这很合理毕竟MapReduce的概念在应用上是比较抽象且难以捉摸的相反的HDFS就是一个很清楚且具象的概念。Hadoop当然可以拿来做data archive的运用但如果你本身的数据没有被经常或偶尔拿出来使用的需求(也就是我们所说的cold data)的话Hadoop本身的HDFS作为data archive并不会有特别的优势反而传统storage的一些延伸的功能特性Hadoop本身并不具备。虽然HDFS本身是一个不错的object store具备有作为scale-out NAS的底层的特性, 但也就仅限于此了 Hadoop本身并没有特别为它外加storage本身该具有的功能毕竟Hadoop当初设计时对数据的储存与运用的思考与storage的应用场景是完全不一样的。Hadoop本身要解决的反而是现有当数据被放进storage后需要再被拿出来处理或运算时所遇到的困难性。也因此它特别适合那些web click-stream、CDR (call detail record)、GPS data, system log、 and other time-series data等数据因为这些数据都具有需要经常被拿出来分析处理的特性。在实际应用中Hadoop与传统storage其实是相辅相成的譬如说我们可能会在Hadoop上放过去3到6个月的数据因为这些数据的再被利用性较高而6个月之后的数据就可能会把它archive在传统的storage内因为它被再利用的程度低很多了。7. (误解) Hadoop是一个搜索引擎(Search Engine)(正解) Search 的确是Hadoop的一个重要的应用但Hadoop本身并没有内含search engine。实务上我们常会把HBase 的index设计运用到极致来满足一些特定search 或query的应用但如果要满足全文检索 (full-text search)的需求的话你就必须在Hadoop上建构一个基于Hadoop的搜索引擎。Lucene / Katta 及其他的open source都有相对应的计划如何借助Hadoop的特性来实现一个强大的分布式搜索引擎这也是我们一直密切注意、且已放进未来产品的蓝图之中的重要话题。8. (误解) 基于Hadoop的推荐系统与传统的推荐系统并无不同(正解) 传统的推荐系统只处理客户的事务数据(transaction data)大多用的是数据仓库或商业智能等解决方案然而除了客户的事务数据之外是否也有可能针对客户交易前的行为进行分析、进而产生推荐? 特别是对电子商务网站来说客户在完成购买前的点击浏览、搜寻、及放进购物车等行为都包含了丰富的讯息可以藉此很容易去导引出客户想要寻找什么样的商品所以如果在产生推荐过程中可以把这些讯息都纳进来则所产生推荐的精准度与丰富度必然可以大为提高。这正是新一代的推荐系统会面临到的挑战 : 如何在事务数据 (Transaction Data) 之外同时也可以把客户的互动数据 (Interaction Data) 含括进来? 由于客户互动数据的型态与事务数据间有极大的差异其数量级更是远远大于事务数据量运算频率更是有极高的要求也因此都远超过现有数据库或数据仓储的能力而这正是Hadoop所擅长可以轻易拓展传统机器学习 (Machine Learning) 算法分析大量数据集 (Large Datasets) 的能力并同时具备横向扩充 (Scale-out) 的能力可随着数据集的成长轻易扩充无论多大的数据都可轻易胜任。9. (误解) Hadoop不适合用来处理小档案的应用(正解) 对Hadoop稍微有点了解的人都会知道HDFS的block size的default 值为64MB且不建议往下调因为HDFS当初在设计时并不是针对碎片般的小档案的处理而来的。所以当我们说Hadoop不适合用来处理小档案的应用时就技术上来说是对的但在实际运用上却可以有不同的做法来满足海量小档案管理的需求。我们在中国曾经辅导过一个保险公司它本身需要处理的小图档 (20KB ~ 1MB)大概有两亿个那么多且每天还持续在成长举凡客户的签名、看诊纪录等都需要被扫描成图像文件并加以储存同时还要偶尔被相对应的应用程序来查询、调用。在实作上我们把这些小图档的binary file存进去HBase——而不是HDFS——来管理所以HDFS block size的设定值大小就不是重点同时利用HBase column-base 高效能与高延展性的特性可以很轻易的就满足多人同时快速在线查询的要求而随着档案数量持续的增加 , 横向扩充也不再是问题。类似的应用其实还不少譬如说银行票据文件的管理就是其中一种也因此Etu团队在中国市场特别针对此应用规划了 “海量小图文件管理系统”解决方案以满足此类客户的需求。10. (误解) Hadoop不适合用来做日志管理(Log Management)的应用(正解) 当每天的日志量成长到一定的程度现有的日志管理工具都会遇到瓶颈所以一些国外的日志管理工具(如Splunk、ArcSight)都已经发布了其 Hadoop Connector强调其与Hadoop的联系性与兼容性。所以如果客户对日志管理的需求只是保存日志、并可以随时对日志搜索的话那Hadoop本身即可以满足这样的应用而对于比较复杂的日志管理且日志量非常大的需求客户也可以从现有的日志管理工具中来挑选并与Hadoop来搭配协同运作。大数据(生于2006卒于2019)已死福利扫描添加小编微信备注“姓名公司职位”加入【云计算学习交流群】和志同道合的朋友们共同打卡学习推荐阅读Docker一个傲娇的男人做了中台就不会死吗每年至少40%开发资源是被浪费的AI“生死”落地谁有资格入选AI Top 30案例Python爬取B站5000条视频揭秘为何千万人为它流泪最前沿堪比Emc2Al-GA才是实现AGI的指标性方法论Zend 创始人欲创建 PHP 方言暂名为 P鸿蒙 OS 面世中国首个开源协议诞生 | 开发者周刊真香朕在看了
http://www.zqtcl.cn/news/884923/

相关文章:

  • 网站建设师要求关键词优化排名易下拉排名
  • 网站建设步骤及推广方法做网站的公司叫什么
  • 怎么建立自己网站 asp网站做视频流量赚钱
  • 全屏网站宽度域名服务器怎么设置
  • 网站图片切换js代码金融公司网站方案
  • 企业网站开发步骤开源软件开发
  • 建设项目环境影响登记表备案系统网站签署网站建设协议新闻
  • 有的网站在浏览器打不开怎么办最近中国新闻热点大事件
  • 网站模板组件随州网站建设有哪些
  • 网站建设微信版8080端口wordpress
  • 急求聊城网站建设微信网页注册入口
  • 商城网站建站程序网站内链布局
  • 盐城网站建设方案全景旅游网站项目建设
  • 网站备案完电信园林效果图网站
  • 伤豆丁文库网站开发贵州网站备案局
  • 做网站的注意什么北京建设协会网站首页
  • 石家庄网站开发设计网站建设重点步骤
  • 推广思路及执行方案昆明百度seo
  • 太原公司网站建立可视化小程序开发工具
  • 怎么做网站的搜索引擎云主机有什么用
  • 淘宝客新增网站南宁百度seo优化
  • 建设厅网站合同备案在哪里网站备案本人承诺
  • 做方案的网站住房城乡建设部官网
  • 怎样在门户网站做 推广天水市建设银行官方网站
  • 温州建网站哪家强网站建设谈客户说什么
  • 网站的子域名怎么设置整站seo排名外包
  • 免费网站在哪下载苏州建设银行网站
  • 邹平 建设项目 网站公示怎样做网站卖自己的产品教程
  • 手机免费网站建设哪家公司好免费动态域名申请
  • 提升网站排名怎么提交自己的网站