什么是大数据分析Hadoop？

2024-05-05 07:10

1. 什么是大数据分析Hadoop？

　　要了解什么是Hadoop，我们必须首先了解与大数据和传统处理系统有关的问题。前进，我们将讨论什么是Hadoop，以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究，以突出使用Hadoop的好处。
　　在之前的博客“ 大数据教程”中，我们已经详细讨论了大数据以及大数据的挑战。在此博客中，我们将讨论：
　　1、传统方法的问题
　　2、Hadoop的演变
　　3、Hadoop的
　　4、Hadoop即用解决方案
　　5、何时使用Hadoop?
　　6、什么时候不使用Hadoop?
一、CERN案例研究
　　大数据正在成为组织的机会。现在，组织已经意识到他们可以通过大数据分析获得很多好处，如下图所示。他们正在检查大型数据集，以发现所有隐藏的模式，未知的相关性，市场趋势，客户偏好和其他有用的业务信息。
　　这些分析结果正在帮助组织进行更有效的营销，新的收入机会，更好的客户服务。他们正在提高运营效率，与竞争对手组织相比的竞争优势以及其他业务利益。
　　什么是Hadoop –大数据分析的好处
　　因此，让我们继续前进，了解在兑现大数据机会方面与传统方法相关的问题。
二、传统方法的问题
　　在传统方法中，主要问题是处理数据的异构性，即结构化，半结构化和非结构化。RDBMS主要关注于银行交易，运营数据等结构化数据，而Hadoop则专注于文本，视频，音频，Facebook帖子，日志等半结构化，非结构化数据。RDBMS技术是一种经过验证的，高度一致，成熟的系统许多公司的支持。另一方面，由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。
　　现在让我们了解与大数据相关的主要问题是什么。因此，继续前进，我们可以了解Hadoop是如何成为解决方案的。
　　什么是Hadoop –大数据问题
　　第一个问题是存储大量数据。
　　无法在传统系统中存储大量数据。原因很明显，存储将仅限于一个系统，并且数据正在以惊人的速度增长。
　　第二个问题是存储异构数据。
　　现在，我们知道存储是一个问题，但是让我告诉您，这只是问题的一部分。由于我们讨论了数据不仅庞大，而且还以各种格式存在，例如：非结构化，半结构化和结构化。因此，您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。
　　第三个问题是访问和处理速度。
　　硬盘容量正在增加，但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释：如果您只有一个100 Mbps I / O通道，并且正在处理1TB数据，则大约需要2.91个小时。现在，如果您有四台具有一个I / O通道的计算机，则对于相同数量的数据，大约需要43分钟。因此，与存储大数据相比，访问和处理速度是更大的问题。
　　在了解什么是Hadoop之前，让我们首先了解一下Hadoop在一段时间内的发展。
　　Hadoop的演变

　　2003年，道格·切特(Doug Cutting)启动了Nutch项目，以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月，Google发布了MapReduce论文。在2005年，Nutch使用GFS和MapReduce进行操作。2006年，雅虎与Doug Cutting及其团队合作，基于GFS和MapReduce创建了Hadoop。如果我告诉您，您会感到惊讶，雅虎于2007年开始在1000个节点的群集上使用Hadoop。
　　2008年1月下旬，雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月，Apache通过Hadoop成功测试了4000个节点的集群。2009年，Hadoop在不到17小时的时间内成功整理了PB级数据，以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月，Apache Hadoop发布了1.0版。2013年8月下旬，发布了2.0.6版。
　　当我们讨论这些问题时，我们发现分布式系统可以作为解决方案，而Hadoop提供了相同的解决方案。现在，让我们了解什么是Hadoop。
三、什么是Hadoop?
　　Hadoop是一个框架，它允许您首先在分布式环境中存储大数据，以便可以并行处理它。 Hadoop中基本上有两个组件：
　　1、大数据Hadoop认证培训
　　2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程
　　什么是Hadoop – Hadoop框架
　　第一个是用于存储的HDFS(Hadoop分布式文件系统)，它使您可以在集群中存储各种格式的数据。第二个是YARN，用于Hadoop中的资源管理。它允许对数据进行并行处理，即跨HDFS存储。
　　让我们首先了解HDFS。
　　HDFS
　　HDFS创建一个抽象，让我为您简化一下。与虚拟化类似，您可以在逻辑上将HDFS视为用于存储大数据的单个单元，但是实际上您是在分布式方式下跨多个节点存储数据。HDFS遵循主从架构。
　　什么是Hadoop – HDFS
　　在HDFS中，名称节点是主节点，数据节点是从节点。 Namenode包含有关存储在Data节点中的数据的元数据，例如哪个数据块存储在哪个数据节点中，数据块的复制位置在哪里等 。实际数据存储在Data Nodes中。
　　我还想补充一下，实际上我们复制了数据节点中存在的数据块，默认复制因子是3。 由于我们使用的是商用硬件，并且我们知道这些硬件的故障率很高，所以如果其中一个DataNodes失败，HDFS将仍然具有那些丢失的数据块的副本。 您还可以根据需要配置复制因子。您可以阅读HDFS教程，详细了解HDFS。
四、Hadoop即解决方案
　　让我们了解Hadoop如何为刚刚讨论的大数据问题提供解决方案。
　　什么是Hadoop – Hadoop即解决方案
　　第一个问题是存储大数据。
　　HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中，您可以指定块的大小。基本上，如果您拥有512MB的数据，并且已经配置了HDFS，那么它将创建128MB的数据块。 因此，HDFS将数据分为512/128 = 4的4个块，并将其存储在不同的DataNode上，还将在不同的DataNode上复制数据块。现在，由于我们正在使用商品硬件，因此存储已不是难题。
　　它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点，而不是扩展DataNodes的资源。让我为您总结一下，基本上是用于存储1 TB的数据，您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。
　　下一个问题是存储各种数据。
　　借助HDFS，您可以存储各种数据，无论是结构化，半结构化还是非结构化。由于在HDFS中，没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此，您只需写入一次数据，就可以多次读取数据以寻找见解。
　　Hird的挑战是访问和处理数据更快。
　　是的，这是大数据的主要挑战之一。为了解决该问题，我们将处理移至数据，而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapReduce中，处理逻辑被发送到各个从属节点，然后在不同的从属节点之间并行处理数据。然后，将处理后的结果发送到主节点，在该主节点上合并结果，并将响应发送回客户端。
　　在YARN架构中，我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。 但是，应该将NodeManager配置在存在DataNode的同一台计算机上。
　　YARN通过分配资源和安排任务来执行您的所有处理活动。

　　什么是Hadoop – YARN
　　它具有两个主要组件，即ResourceManager和NodeManager。
　　ResourceManager再次是主节点。它接收处理请求，然后将请求的各个部分相应地传递到相应的NodeManager，什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。
　　我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进，了解何时使用和何时不使用Hadoop。
　　何时使用Hadoop?
　　Hadoop用于：
　　1、搜索 – Yahoo，亚马逊，Zvents
　　2、日志处理 – Facebook，雅虎
　　3、数据仓库 – Facebook，AOL
　　4、视频和图像分析 –纽约时报，Eyealike
　　到目前为止，我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下，不建议使用Hadoop。

什么是大数据分析Hadoop？

2. hadoop入门容易吗？

不是很容易，但是推荐一些Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

一、学习路线图
Hadoop家族学习路线图 开篇必读

Hive学习路线图

Mahout学习路线图

二、编程实践
Hadoop历史版本安装

用Maven构建Hadoop项目

Hadoop编程调用HDFS

用Maven构建Mahout项目

Mahout推荐算法API详解

用MapReduce实现矩阵乘法

从源代码剖析Mahout推荐引擎

Mahout分步式程序开发 基于物品的协同过滤ItemCF

Mahout分步式程序开发 聚类Kmeans

PageRank算法并行实现

三、案例分析
海量Web日志分析 用Hadoop提取KPI统计指标

用Hadoop构建电影推荐系统

用Mahout构建职位推荐引擎

Mahout构建图书推荐系统

PeopleRank从社交网络中发现个体价值

3. 零基础想学Hadoop大数据去哪家机构比较好？

每家机构都有自己独特的优势所在，需要你更加全面的了解一下。当然，最好选择一些大型机构，参加免费试听课，这个是最直接最有效的方式。优就业是小班面授课程，师资力量雄厚，欢迎同学们前来试听。
怎么才能学好Hadoop，这里给几点建议：
首先，不管你之前有没有接触过hadoop，或者你在某个方向特别牛逼，你都要有空杯心态，这才是学习的根据。
你要有编程基础，比如Java，C，python，linux，不一定要在某个方向多么牛逼，有这些基础学起来就会很快上手。
详细研究，现在大型网站包括Sina，腾讯网（门户），Weibo（微博），天猫，京东（电商）的架构与实现，先从自己的角度去理解，然后去跟实际情况做比对，提升自己对数据和技术的敏感程度。
熟悉，理解，并运用Hadoop对于你以后在大型计算机公司任职非常重要（阿里，腾讯，百度内部的系统或多或少都是借鉴于Hadoop的）。
科班的同学，在学校的以基础为根基，在公司的以业务为导向，这样的技术才不盲目，这样的技术才脚踏实地。
不过，Hadoop说到底只是一项分布式系统的工具，学习的本质是：理解分布式系统设计中的原则以及方法，例如负载均衡，故障恢复，并发程序设计，并发数据结构，等等。理解这些设计原理，并走入底层读懂每一行Hadoop的源码更加的重要

零基础想学Hadoop大数据去哪家机构比较好？

4. 有没有人有Hadoop相关学习资料的？

关于Hadoop的资料现在出的也很多了。书和视频的都有，淘宝上也有卖相关视频的。
Hadoop相关的技术很多，需要具备一定的java开发能力的人和对存储有相应了解的。并且语言有一定的要求。
书不要买太多，一本书从头到尾看下来比较好，不是从头到位尾看下来的一般没有什么太大的效果。
建议 路嘉恒《Hadoop实践》讲的很专业也很基础。要是能从头到尾看下来对你会有帮助的。
另外一本入门层次较高的就是《Hadoop权威指南》。
还有一本入门层次较高的清华大学出版的《高可用的HDFS》里面讲的技术多数是实际开发和代码。一般没有语言基础和分部署文件系统基础的人不太好入门。
术业有专攻，一种技术学不透彻再去学其他的技术，很难，并且有可能一事业无成，建议用你百分之百的热情去这做百分之一的技术，最后一定会很专业。

5. 零基础学习 Hadoop 该如何下手？

想学习Hadoop，可是苦于自己没有任何的基础，不知道该如何下手，也不知道自己能不能学会。其实零基础学习hadoop，没有想象的那么困难。现在我把自己的学习思路整理一下，希望对大家有帮助。
怎么才能学好Hadoop，进入云的世界，这里给几点建议：
1.打好你的Java基础，C我就不说了，那是基本功。
2.详细研究，理解一下现在大型网站包括Sina，腾讯网（门户），Weibo，天猫，京东（电商）的架构与实现，先从自己的角度去理解，然后去跟实际情况做比对，提升自己对数据和技术的敏感程度。在这个阶段，如果能分门别类的规划出不同类型网站的需求和使用的特定方向的技术，对“云”和“大数据”的理解就更加透彻而非表层停留。
3.科班的同学，在学校的以基础为根基，在公司的以业务为导向，这样的技术才不盲目，这样的技术才脚踏实地。对很多人来说，技术都不是一生的职业导向，那么，提升自己的眼界，站在更高的角度思考问题就显得尤为重要，从自己，到团队，公司，再到整个业界，眼界宽广了，技术也就是你的左膀右臂。
Hadoop分为两个大块：HDFS和MapReduce。
HDFS － Hadoop Distributed FileSystem。这个概念很好，但是其实我不觉得很实用。但是如果你之后要往Non SQL方面深入的话这个还是很重要，HDFS是HBASE的基础，Hbase又可以延伸到Big Table，DynamoDB，Mango等。HDFS概念不难，Hadoop The Definitive Guide里面讲的很清楚，看书就好。
MapReduce －前面说最好看英文版，因为不管中文怎么翻译，Map，Reduce都是没办法像读英文那样容易理解的。这里面有个YARN的概念，是最最最重要的。MapReduce是管数据怎么流动的，YARN是管集群中的资源怎么分配的。除了YARN以外，MapReduce还有几个很重要的概念，比如Partition, combine, shuffle, sort,都在书里很小的位置，但是都对理解整个MapReduce非常有帮助。
关于Hadoop的使用方式：
感觉现在各个公司使用Hadoop的方式都不一样，主要我觉得有两种吧。
第一种是long running cluster形式，比如Yahoo，不要小看这个好像已经没什么存在感的公司，Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center，然后有几个上千Node的Hadoop Cluster一直在运行。比较早期进入Big Data领域的公司一般都在使用或者使用过这种方式。
另一种是只使用MapReduce类型。毕竟现在是Cloud时代，比如AWS的Elastic MapReduce。这种是把数据存在别的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析数据的时候开启一个Hadoop Cluster，Hive/Pig/Spark/Presto/Java分析完了就关掉。不用自己做Admin的工作，方便简洁。
所以个人如果要学Hadoop的话我也建议第二种，AWS有免费试用时间，可以在这上面学习。最重要的是你可以尝试各种不同的配置对于任务的影响，比如不同的版本，不同的container size，memory大小等等，这对于学习Spark非常有帮助。
我直接是白手起家搞hadoop的，没有看权威指南，不懂就google之。我开始也没研究源代码，我先研究Hadoop是怎么跑起来的，怎么工作的。然后过了一段时间，我去看《Hadoop权威指南》，和实践相印证，上手很快。Hadoop这个课题太大，人家花了几年时间研究出来的，你想搞个毕设就想剖析清楚，这个有点不现实。
我的建议是，只研究hadoop的一到两个模块就行了。在这几个中间选一两个研究就可以了。
目前炒的很热，可以说是“如日中天”，好像不会Hadoop、不知道MapReduce就不是搞大规模数据处理似的；貌似数据库的一些人不喜欢Hadoop。
随着互联网或者数据库数据量的不断增大，分布式真的可以替代数据中心吗？这个值得考虑，毕竟框架是Google提出来的，提出时势必会考虑google自身的技术和经济能力，试问当下有几个公司有google的实力？
有人说过（具体名字忘了），在中国，云计算就是忽悠，是炒作；也有人说，云计算是必然的发展趋势，毕竟好多公司都在这么玩。在Copy to China的年代，云计算到底是什么，好像很难说清楚吧？
结论：当下很火，找工作绝对不成问题，看这种形式，似乎也是未来发展的方向；但是这种行业预测的问题，大佬们都经常犯错，我们没到那个级别，还跟着瞎预测啥啊，好好练好内功，这才是关键。

零基础学习 Hadoop 该如何下手？

6. 零基础学习 Hadoop 该如何下手？

想学习Hadoop，可是苦于自己没有任何的基础，不知道该如何下手，也不知道自己能不能学会。其实零基础学习hadoop，没有想象的那么困难。现在我把自己的学习思路整理一下，希望对大家有帮助。
怎么才能学好Hadoop，进入云的世界，这里给几点建议：
1.打好你的Java基础，C我就不说了，那是基本功。
2.详细研究，理解一下现在大型网站包括Sina，腾讯网（门户），Weibo，天猫，京东（电商）的架构与实现，先从自己的角度去理解，然后去跟实际情况做比对，提升自己对数据和技术的敏感程度。在这个阶段，如果能分门别类的规划出不同类型网站的需求和使用的特定方向的技术，对“云”和“大数据”的理解就更加透彻而非表层停留。
3.科班的同学，在学校的以基础为根基，在公司的以业务为导向，这样的技术才不盲目，这样的技术才脚踏实地。对很多人来说，技术都不是一生的职业导向，那么，提升自己的眼界，站在更高的角度思考问题就显得尤为重要，从自己，到团队，公司，再到整个业界，眼界宽广了，技术也就是你的左膀右臂。
Hadoop分为两个大块：HDFS和MapReduce。
HDFS － Hadoop Distributed FileSystem。这个概念很好，但是其实我不觉得很实用。但是如果你之后要往Non SQL方面深入的话这个还是很重要，HDFS是HBASE的基础，Hbase又可以延伸到Big Table，DynamoDB，Mango等。HDFS概念不难，Hadoop The Definitive Guide里面讲的很清楚，看书就好。
MapReduce －前面说最好看英文版，因为不管中文怎么翻译，Map，Reduce都是没办法像读英文那样容易理解的。这里面有个YARN的概念，是最最最重要的。MapReduce是管数据怎么流动的，YARN是管集群中的资源怎么分配的。除了YARN以外，MapReduce还有几个很重要的概念，比如Partition, combine, shuffle, sort,都在书里很小的位置，但是都对理解整个MapReduce非常有帮助。
关于Hadoop的使用方式：
感觉现在各个公司使用Hadoop的方式都不一样，主要我觉得有两种吧。
第一种是long running cluster形式，比如Yahoo，不要小看这个好像已经没什么存在感的公司，Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center，然后有几个上千Node的Hadoop Cluster一直在运行。比较早期进入Big Data领域的公司一般都在使用或者使用过这种方式。
另一种是只使用MapReduce类型。毕竟现在是Cloud时代，比如AWS的Elastic MapReduce。这种是把数据存在别的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析数据的时候开启一个Hadoop Cluster，Hive/Pig/Spark/Presto/Java分析完了就关掉。不用自己做Admin的工作，方便简洁。
所以个人如果要学Hadoop的话我也建议第二种，AWS有免费试用时间，可以在这上面学习。最重要的是你可以尝试各种不同的配置对于任务的影响，比如不同的版本，不同的container size，memory大小等等，这对于学习Spark非常有帮助。
我直接是白手起家搞hadoop的，没有看权威指南，不懂就google之。我开始也没研究源代码，我先研究Hadoop是怎么跑起来的，怎么工作的。然后过了一段时间，我去看《Hadoop权威指南》，和实践相印证，上手很快。Hadoop这个课题太大，人家花了几年时间研究出来的，你想搞个毕设就想剖析清楚，这个有点不现实。
我的建议是，只研究hadoop的一到两个模块就行了。在这几个中间选一两个研究就可以了。
目前炒的很热，可以说是“如日中天”，好像不会Hadoop、不知道MapReduce就不是搞大规模数据处理似的；貌似数据库的一些人不喜欢Hadoop。
随着互联网或者数据库数据量的不断增大，分布式真的可以替代数据中心吗？这个值得考虑，毕竟框架是Google提出来的，提出时势必会考虑google自身的技术和经济能力，试问当下有几个公司有google的实力？
有人说过（具体名字忘了），在中国，云计算就是忽悠，是炒作；也有人说，云计算是必然的发展趋势，毕竟好多公司都在这么玩。在Copy to China的年代，云计算到底是什么，好像很难说清楚吧？
结论：当下很火，找工作绝对不成问题，看这种形式，似乎也是未来发展的方向；但是这种行业预测的问题，大佬们都经常犯错，我们没到那个级别，还跟着瞎预测啥啊，好好练好内功，这才是关键。