Fluentd CollectorからHDFSに書き込むのに fluent-plugin-webhdfs を利用していますが、 DataNodeが1台変死した際に色々おかしくなったので書き留めておきます。 原因特定と解決方法の確立はできていません!あしからず。 直接の原因はSLAVEサーバ(DataNode)が中途半端に落ちたこと 1台のSLAVEサーバに異常が発生したことが直接の原因であり、状態としては SLAVEサーバがKernel Panic!! ホストへのPingは通る 各種デーモンへのTCP接続は確立できる 各種デーモンは一切お返事をしてくれない 試したのがDataNodeでないのが心苦しいですが、復旧前に確認できたのはSSH接続で、 ssh -p22 host は無応答で、telnet host 22 はリクエスト待ち状態になる半死状態でした。 この状態が、Fluentdまたは
