PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark

PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
Asakusa on Spark AsakusaがSpark上で動くようになりました。 Asakusa on Spark (Developer Preview) — Asakusa Framework Developer Preview 0.2.2 documentation すでに実際に本番に利用しています。 ノーチラス・テクノロジーズがさくらインターネットにAsakusa Frameworkで開発した大規模データの高速処理基盤を導入し、顧客単位での精度の高い原価計算を実現高速処理基盤はApache Spark™で構築 | NAUTILUS OSSとしての公開を行いましたので、内容や位置づけをまとめておきます。例によってノーチラスは社内でいろんな意見は当然出ていますが、今回は概ね一致している感じです。 パフォーマンス 概ね「業務バッチ処理という観点で見れば、すべからくHadoopMapR
Apache Spark を今後活用していくに当たって行ったプレ検証の結果について slideshare にアップロードしました。 もう少し詳細な内部の実装や挙動を見ていかないとと思いつつ、いい加減ワードカウントも飽きてきたのでデータ分析にトライしていきたいと考えております。
1. 1Copyright © 2014 NTT DATA Corporation NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔 2014年12月17日 JJUG ナイト・セミナー Spark/MLlibではじめるスケーラブルな機械学習 2. 2Copyright © 2014 NTT DATA Corporation 自己紹介 所属/氏名 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔(さるた こうすけ) 何をしている人? OSSを使ったR&Dやシステム開発、テクニカルサポートに携わっています 6年ほど大規模分散処理基盤「Hadoop」関連のR&Dやシステム開発に関わってきま した 近年はHadoopから派生して、インメモリ分散処理基盤「Spark」にも携わっています 著作物(共著)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く