今回は収集したデータをどう解析していくか書いていきます。 解析にはHadoopを利用します。 Hadoopの動作環境はAmazon EMR (Elastic MapReduce)を使います。 【前回の流れ】 fluentdのインストール td-loggerでアプリケーションログの吐き出し td-loggerで受け取ったログをS3に送信 S3のデータをHadoopで解析 Hadoopで解析したデータをRDSに突っ込む ※前回の記事はこちら 株式会社ヒトクセ公式ブログ「ビッグデータ取扱いの技術① ~収集編」 今回は前回の続きということで、S3のデータをHadoopで解析から解説します。 Hadoopの処理はSQLライクに書けるHiveを利用します。 S3のデータをHadoopで解析 先程も書きましたが、EMRを利用します。 基本的にはコマンドラインのみでやっていきます。 なのでコマンドラインツ
