手机版
你好,游客 登录 注册
背景:
阅读新闻

实时计算storm流程架构总结

[日期:2013-01-13] 来源:Linux社区  作者:yangbutao [字体: ]

Hadoop一般用在离线的分析计算中,而storm区别于hadoop,用在实时的流式计算中,被广泛用来进行实时日志处理、实时统计、实时风控等场景,当然也可以用在对数据进行实时初步的加工,存储到分布式数据库中如HBase,便于后续的查询。

面对的大批量的数据的实时计算,storm实现了一个可扩展的、低延迟、可靠性和容错的分布式计算平台。

1、对象介绍

tuple:表示流中一个基本的处理单元,可以包括多个field,每个filed表示一个属性

topology:一个拓扑是一个个计算节点组成的图,每个节点包换处理的逻辑,节点之间的连线表示数据流动的方向

spout:表示一个流的源头,产生tuple

bolt:处理输入流并产生多个输出流,可以做简单的数据转换计算,复杂的流处理一般需要经过多个bolt进行处理

nimnus:主控节点,负责在集群中发布代码,分配工作给机器,并且监听状态

supervisor:一个机器,工作节点,会监听分配给的工作,根据需要启动和关闭工作进程。

woker:执行topology的工作进程,用于生成task

task:每个spout和bolt都可以作为task在storm中运行,一个task对应一个线程

storm拓扑topology的组成见下图,

 

 

linux
相关资讯       Storm  storm架构 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款