Hadoop运维记录系列(二十五) - 行业资讯 - 肥雀云

耗时很长时间解决了一个spark in docker的问题，记录一下。

这是个非常奇怪的问题，找遍谷歌都找不到答案，与其说是分析出来倒不如说是偶然发现。

先介绍一下架构和环境。

Z机器是docker的宿主机，在每个docker里面都跑了一个Zeppelin用作数据分析，之所以这样弄，是客户要求每个人的环境都必须是独立的。

Zdocker假设是Z上面跑着zeppelin的运行的一个docker镜像。

Zdocker使用默认的bridge方式连接到外部集群

Hadoop集群按照加入集群的先后顺序分为两部分进行观察。A为先加入集群的机器有31台，B为后加入集群的机器15台。

Spark使用client方式提交，用YARN做资源管理。

表象：

Zdocker里面通过Zeppelin页面提交的Spark计算任务一直都是正常的，直到B的15台加入到集群里

B的15台配置从操作系统到网络到JVM到hadoop全部一模一样，没有区别。

B加入后，所有从Zdocker里面提交的Spark任务全部不能跑，executor在15台机器执行时会报 NoRouteToHost gateway: 7337

B加入后，所有在Zdocker外面提交的Spark任务全部正常。

B加入后，所有executor不运行在B机器上的全部正常

B加入后，Zdocker内外所有MapReduce任务正常。

在YARN里去掉B的15台机器，一切正常。

分析：

7337为spark的yarn shuffle端口

第一阶段

既然是NoRouteToHost，第一反应是DNS问题，检查所有DNS和hosts文件，没有发现问题，检查iptables，route表，全部无问题，解决失败。

第二阶段

怀疑是spark bug，我想知道 gateway 是从哪冒出来的，翻阅了spark里面报错相关的scala和java代码，没有找到这个跟gateway相关的东西。

第三阶段

因为B加入前是正常的，B加入后就不正常了，检查docker里面的DNS和hosts，全部正常，继续失败。

第四阶段

怀疑环境变量不同，检查所有A,B机器配置，环境变量完全一样。

因为是yarn shuffle，怀疑spark-assembly问题，检查后发现无问题。

第五阶段

尝试暴力解决，将gateway加入DNS解析，强行指到B集群的一台机器上。也就是所有的spark 外部shuffle会指向到一台机器的 7337端口。好，跑了一天没问题，第二天就有问题了，那台被强行指定的机器报找不到作业在本地shuffle的index文件。

第六阶段

尝试在docker里面发现问题，看了一下docker的路由表，发现172.17.42.1是docker的网关，抱着死马心态在docker里面ping了一下gateway主机名，发现通的。于是裆下一紧，感觉有门可入。

docker内部默认的网关是172.17.42.1，然后默认还给了个hostname叫gateway，或许这就是了。

于是跑到A找了一台机器ping gateway主机名，ping卡死，因为无论DNS还是hosts，在任何hadoop的节点都是没有解析过gateway这个主机名的。然后到B找了一台机器ping，直接退出报 ping: unknown host gateway。

于是开始琢磨，两个机器网络环境不同，或许这就是问题点了。

A的几十台机器，因为安全需要，没有开放任何外网访问。所以在A的机器上ping gateway时，根本连域名都解析不了，所以会卡死。而B的十几台机器因为是新加的，运维忘了关闭外网访问，所以能找到公网的域名解析服务器，但是公网解析不了gateway域名，于是直接返回 unknown host 并退出。

让运维关闭B机器的公网访问，再从Zdocker上面提交作业，一切正常。

原因：

解决了问题再回来分析一下应该是因为zeppelin从docker里面提交spark作业，spark是client方式跑，driver是跑在docker里面的，driver在向docker外的yarn申请资源分配executor的时候，在哪里带上了gateway这个主机名作为环境变量传递给了executor的container。如果没有外网访问，executor会使用本机的 7337作为yarn shuffle的端口，而有了外网访问，executor会去查询gateway的ip，但是DNS返回错误，于是就会造成executor执行错误。这也很好的解释了为什么docker外面的spark作业无论B是否启动都不会报错正常执行。

所以这他妈其实是一个很低端的错误，只是谁都不会想到，spark执行的失败还能跟是否访问公网有关。就跟上次解决MR速度慢一样，谁能想到网卡能他妈自己跳成10Mbps啊。

后续还需要继续研究docker的网络机制和spark的driver和executor之间的传参机制，才能彻底干掉这个问题。