Hadoop-2.X技术架构
更新时间 2021-08-31 17:52:31    浏览 0   

TIP

本文主要是介绍 Hadoop-2.X技术架构 。

# Hadoop 2.x 生态系统及技术架构图

wxmp

# 一、负责收集数据的工具:

  • Sqoop(关系型数据导入Hadoop)
  • Flume(日志数据导入Hadoop,支持数据源广泛)
  • Kafka(支持数据源有限,但吞吐大)

# 二、负责存储数据的工具:

  • HBase

  • MongoDB

  • Cassandra

  • Accumulo

  • MySql

  • Oracle

  • DB2

HDFS(Hadoop Distribut File System)2.0

# 三、底层组件

  • Apache Common(通用模块)、
  • Avro(序列化成二进制)、
  • OS(Linux、windows。。。)

# 四、通用工具

  • Zookeeper分布式协作服务
  • Oozie工作流流调度系统
  • Ambari图形化部署、非xml,跟踪集群状态

# 五、分布式计算框架

  • MapReduce(通过磁盘离线计算)
  • Spark(通过内存实时计算)
  • Storm(实现流式数据计算)
  • Tez(GAG计算,对MR拆分)
  • Impala(实现实时交互式计算)
  • Flink、Slider、Open MPI
  • HCatalog

YARN(跨集群资源调度管理)以上各种计算框架架构在YAEN上,H2.0引入

# 六、数据分析处理

  • Hive数据仓库

  • sql语句生成MR作业

  • Pig工作流引擎

  • 类似sql比MR语法简单

-Mahout数据挖掘库 提供了诸多机器学习算法

Java、.net R、Scala、Solr Impapla、Ohter ISV

# 七、结果输出

经过数据分析处理,输出到BI工具、展示系统

  • ETL Tools
  • BI Reporting
  • RDBMS
  • OLAP

# 参考文章

  • https://www.cnblogs.com/zhangwuji/p/7594725.html
  • https://www.cnblogs.com/zzlchn/p/6254435.html
更新时间: 2021-08-31 17:52:31
  0
手机看
公众号
讨论
左栏
全屏
上一篇
下一篇
扫一扫 手机阅读
可分享给好友和朋友圈