你好,游客 登录 注册 搜索
背景:
阅读新闻

Storm中Spout使用注意事项小结

[日期:2015-08-12] 来源:Linux社区  作者:panfeng412 [字体: ]

Storm中Spout用于读取并向计算拓扑中发送数据源,最近在调试一个topology时遇到了系统qps低,处理速度达不到要求的问题,经过排查后发现是由于对Spout的使用模式不当导致的多线程同步等待。这里罗列几点个人觉得编写Spout代码时需要特别注意的地方:

1. 最常用的模式是使用一个线程安全的queue,如BlockingQueue,spout主线程从queue中读取数据;另外的一个或多个线程负责从数据源(如各种消息中间件、db等)读取数据并放入queue中。

2. 如果不关心数据是否丢失(例如数据统计分析的典型场景),不要启用ack机制。

3. Spout的nextTuple和ack方法是在同一个线程中被执行的(可能最初觉得这块不会成为瓶颈,为了简单实现起见就单线程了,jstorm应该是已经改成了多线程),因此不能在nextTuple或ack方法里block住当前线程,这样将直接影响spout的处理速度,很关键。

4. Spout的nextTuple发送数据时,不能阻塞当前线程(见上一条),比如从queue中取数据时,使用poll接口而不是take,且poll方法尽量不要传参阻塞固定时间,如果queue中没有数据则直接返回;如果有多条待发送的数据,则一次调用nextTuple时遍历全部发出去。

5. Spout从0.8.1之后在调用nextTuple方法时,如果没有emit tuple,那么默认需要休眠1ms,这个具体的策略是可配置的,因此可以根据自己的具体场景,进行设置,以达到合理利用cpu资源。

一种基于Storm的可扩展即时数据处理架构思考 http://www.linuxidc.com/Linux/2015-07/120511.htm

Storm如何分配任务和负载均衡?  http://www.linuxidc.com/Linux/2015-07/120466.htm

Storm进程通信机制分析 http://www.linuxidc.com/Linux/2014-12/110158.htm

Apache Storm 的历史及经验教训  http://www.linuxidc.com/Linux/2014-10/108544.htm

Apache Storm 的详细介绍请点这里
Apache Storm 的下载地址请点这里

本文永久更新链接地址http://www.linuxidc.com/Linux/2015-08/121568.htm

linux
相关资讯       Storm  Storm中Spout 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款