大数据处理之流式计算风暴安装

    <>

    安装包准备

    官网下载最新稳定版本,题主下载的是apache-storm-0.9.5.tar。广州

    <李>

    角色分配

主机名IP角色hadoop001192.168.0.1Nimbushadoop002192.168.0.2Supervisorhadoop003192.168.0.2Supervisor3。安装步骤

,,3.1安装斯特罗姆集群首先要搭建动物园管理员集群,由于管理员搭建相对简单,不再介绍,我们这里管理员为hadoop001:2181, hadoop002:2181, hadoop003:2181

,,3.2解压安装包到指定目录下,这里为/opt下。

,3.3,添加环境变量到/home/you-user-name/. bashrc

,,,,出口STORM_HOME=/opt/风暴

,,,,出口路径=$ STORM_HOME/bin:美元路径

,,,,出口CLASSPATH=$ STROM_HOME/lib:美元类路径

,风暴,3.4修改配置文件

配置项配置说明

管理员服务器列表

管理员连接端口

风暴使用的本地文件系统目录(必须存在并且风暴进程可读写)

风暴集群运行模式([分布式|本地])

本地模式下是否使用ZeroMQ作消息系统,如果设置为假则使用java消息系统。默认为假

管理员中风暴的根目录位置

客户端连接饲养员超时时间

运行中拓扑的id,由风暴的名字和一个唯一随机数组成。

灵气服务器地址

灵气的节俭监听端口

通过storm-deploy项目部署时指定给灵气进程的jvm选项

心跳超时时间,超时后灵气会认为任务死掉并重分配给另一个地址。

灵气检查心跳和重分配任务的时间间隔。注意如果是机器宕掉灵气会立即接管并处理。

主管的心跳超时时间,一旦超过灵气会认为该主管已死并停止为它分发新任务。

task ,,,启动时的一个特殊超时设置。在启动后第一次心跳前会使用该值来临时替代nimbus.task.timeout.secs。

当发现task失败时nimbus是否重新分配执行。默认为真,不建议修改。

nimbus判断上传/下载链接的超时时间,当空闲时间超过该设定时nimbus会认为链接死掉并主动断开

Storm UI的服务端口

DRPC服务器列表,以便DRPCSpout知道和谁通讯

Storm DRPC的服务端口

supervisor上能够运行workers的端口列表.每个worker占用一个端口,且每个端口只运行一个worker.通过这项配置可以调整每台机器上运行的worker数.(调整slot数/每机)

在storm-deploy项目中使用,用来配置supervisor守护进程的jvm选项

supervisor中的worker心跳超时时间,一旦超时supervisor会尝试重启worker进程.

supervisor初始启动时,worker的心跳超时时间,当超过该时间supervisor会尝试重启worker。因为JVM初始启动和配置会带来的额外消耗,从而使得第一次心跳会超过supervisor.worker.timeout.secs的设定

supervisor是否应当运行分配给他的workers.默认为true,该选项用来进行Storm的单元测试,一般不应修改.

supervisor心跳发送频率(多久发送一次)

supervisor检查worker心跳的频率

supervisor启动worker时使用的jvm选项.所有的”%ID%”字串会被替换为对应worker的标识符

worker的心跳发送时间间隔

task汇报状态心跳时间间隔

task与其他tasks之间链接同步的频率.(如果task被重分配,其他tasks向它发送消息需要刷新连接).一般来讲,重分配发生时其他tasks会理解得到通知。该配置仅仅为了防止未通知的情况。

如果设置成true,Storm将记录发射的每条信息。

master是否在合适时机通过在单个线程内运行多个task以达到优化topologies的目的.

执行该topology集群中应当启动的进程数量.每个进程内部将以线程方式执行一定数目的tasks.topology的组件结合该参数和并行度提示来优化性能

topology中启动的acker任务数.Acker保存由spout发送的tuples的记录,并探测tuple何时被完全处理.当Acker探测到tuple被处理完毕时会向spout发送确认信息.通常应当根据topology的吞吐量来确定acker的数目,但一般不需要太多.当设置为0时,相当于禁用了消息可靠性,storm会在spout发送tuples后立即进行确认.

topology中spout发送消息的最大处理超时时间.如果一条消息在该时间窗口内未被成功ack,Storm会告知spout这条消息失败。而部分spout实现了失败消息重播功能。

注册到Kryo(Storm底层的序列化框架)的序列化方案列表.序列化方案可以是一个类名,或者是com.esotericsoftware.kryo.Serializer的实现.

大数据处理之流式计算风暴安装