[B! hadoop] kakku22のブックマーク

hadoopに関するkakku22のブックマーク (46)

Pythonで大量データ処理！�PySparkを用いたデータ処理と分析のきほん
PyConJP2017の資料　Python Spark PySpark PyConJP 2017 Apache Spark
kakku22 2020/02/12
python

spark

pandas

hadoop
リンク
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか？今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
kakku22 2015/08/05
spark

Hadoop
リンク
Asakusa on Spark - 急がば回れ、選ぶなら近道
Asakusa on Spark AsakusaがSpark上で動くようになりました。 Asakusa on Spark (Developer Preview) — Asakusa Framework Developer Preview 0.2.2 documentation すでに実際に本番に利用しています。ノーチラス・テクノロジーズがさくらインターネットにAsakusa Frameworkで開発した大規模データの高速処理基盤を導入し、顧客単位での精度の高い原価計算を実現高速処理基盤はApache Spark™で構築 | NAUTILUS OSSとしての公開を行いましたので、内容や位置づけをまとめておきます。例によってノーチラスは社内でいろんな意見は当然出ていますが、今回は概ね一致している感じです。パフォーマンス概ね「業務バッチ処理という観点で見れば、すべからくHadoopMapR
kakku22 2015/07/08
hadoop

spark
リンク
『GMO プライベート DMP でビッグデータ解析をするためにアプリクラウドで Apache Spark の検証をしてみた』の資料を公開しました - べにやまぶろぐ
Apache Spark を今後活用していくに当たって行ったプレ検証の結果について slideshare にアップロードしました。もう少し詳細な内部の実装や挙動を見ていかないとと思いつつ、いい加減ワードカウントも飽きてきたのでデータ分析にトライしていきたいと考えております。
kakku22 2015/04/23
hadoop

spark

gmo
リンク
Data Engineering at VOYAGE GROUP #jawsdays
#jawsdays 2015での発表スライドです。 http://jawsdays2015.jaws-ug.jp/speaker/suzuki/Read less
kakku22 2015/04/13
aws

fluentd

hadoop

dynamodb
リンク
DMM inside
レビュー自動承認化と精度100%を目指して。いち早く生成AIの導入に踏み出した「ユーザーレビュー基盤」の取り組み
kakku22 2015/03/08
BigQuery 気になる

hadoop

BigQuery

redshift
リンク
Spark MLlibではじめるスケーラブルな機械学習
1. 1Copyright © 2014 NTT DATA Corporation NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 2014年12月17日 JJUG ナイト・セミナー Spark/MLlibではじめるスケーラブルな機械学習 2. 2Copyright © 2014 NTT DATA Corporation 自己紹介  所属/氏名  NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス  猿田浩輔（さるたこうすけ）  何をしている人?  OSSを使ったR&Dやシステム開発、テクニカルサポートに携わっています  6年ほど大規模分散処理基盤「Hadoop」関連のR&Dやシステム開発に関わってきました  近年はHadoopから派生して、インメモリ分散処理基盤「Spark」にも携わっています  著作物(共著) 
kakku22 2014/12/19
hadoop

spark

機械学習
リンク
40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）
2. 自己紹介  濱野賢一朗（はまのけんいちろう） – 日本Hadoopユーザー会のメンバとして、イベント Hadoop Conference Japan や勉強会 Hadoopソースコードリーディングの企画・実施を担当 – 翔泳社『Hadoop徹底入門』監修者 – NTT DATA 基盤システム事業本部 OSSプロフェッショナルサービスに所属 – Hadoop 関係者で話題になった「経産省の報告書」の実証事業のPM 平成２１年度産学連携ソフトウェア工学実践事業報告書高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業） http: //www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist
kakku22 2014/11/13
hadoop
リンク
Review: Instant Apache Hive Essentials How-to - たごもりすメモ
突然英語でメールがやってきてレビューしてくれないかと頼まれ、面白そうだから引き受けて読んでみた。日本語でしかレビュー記事書かないけど大丈夫？と確認したら大丈夫だといって電子書籍データをもらいました。すごいことやってる会社があるなあ。イギリスの(電子書籍専門の？)出版社みたいだけど。なおフォーマットは pdf, epub, mobi のどれでもダウンロードできる。すごい。日本はなぜこうじゃないの。で、読んだ。76ページの短い本。ざっくり言うと英語だけどすごく簡単な英語で書かれてて、きわめて簡単に読める。manとか普通に英語で読んでる人なら楽勝だと思う。読めば普通に導入からいろんなクエリを発行するところまで行ける。リファレンスには使えない*1けど、それはまあ、wikiを見ればいいんじゃないですかね。各トピックについてはかなり短いが、必ず前提になるテーブルの準備をするためのクエリ*2
kakku22 2014/01/21
Hadoop

Hive

本
リンク
Azkaban
Azkaban Azkaban is a batch workflow job scheduler created at LinkedIn to run their Hadoop Jobs. Often times there is a need to run a set of jobs and processes in a particular order within a workflow. Azkaban will resolve the ordering through job dependencies and provide an easy to use web user interface to maintain and track your workflows. Here are a few features: Compatible with any version of H
kakku22 2014/01/04
Hadoop

Azkaban
リンク
業界標準のHadoop認定資格 | Cloudera University
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
kakku22 2013/11/18
Hadoop認定資格

*資格

Hadoop

Cloudera
リンク
基礎から解説！企業を変えるHadoop
「ビッグデータ」をスマートに処理をする新しい道具、それがオープンソースミドルウエアのApache Hadoop（ハドゥープ）です。このHadoopの力で新たな収益を獲得する企業が増えています。本連載ではこのHadoopを基礎から説明していきます。まず今さら聞けないHadoopの基本、もう一度おさらいしたいアーキテクチャーを解説。分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及していきます。2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込みます。目次
kakku22 2013/10/28
Hadoop
リンク
OSXにApache Hadoopをインストール - memorandum
Macboook Airなどのローカル環境でHadoopを気軽に試したいケースもあるかと思います。OSX 1台だけでHadoopを使う場合の環境構築手順をまとめました。参考 - 公式サイト:Single Node Setup 環境 OSX 10.8.4 Apache Hadoop 1.1.2 Java 1.6 インストール手順 HomebrewでHadoopをインストールします。 brew install hadoop ssh認証用の鍵を作成します。 ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 「システム環境設定」の「共有」で、リモートログインをオンにします。 localhostにパスワードなしでsshログインできることを確認します。 ssh localhost 設定ファイルを修正します。
kakku22 2013/10/28
Hadoop

Mac
リンク
http://bynatures.net/wordpress/1708/
kakku22 2013/10/28
Hadoop

AWS

AmazonEMR
リンク
ログ解析環境についてなんとなく書いてみる - wyukawa's diary
ふとログ解析環境についてなんとなく書いてみたくなったので書いてみる。データサイエンティストブームなるものがあると思いますが、データサイエンティストって言ったときに、Hadoop/Hiveあたりを使ってデータをきれいに整理して分析しやすいように加工するデータエンジニア（某氏が命名）と加工されたデータを使って分析するアナリストの２種類いると思うんですよね。両方できればもちろん良いんですけどさすがにそれは難しいので分業が必要です。ただアナリストもHadoopの運用ができる必要性は低いと思いますがSQLは書けた方が良いとは思います。ちなみに僕は仕事でログ解析周りを担当しており現状はアナリストではなくデータエンジニアですね。 KPIというか統計値は毎日レポーティングする仕組みは既にあるのですが新しい統計値を知りたいという要望もちょいちょいあります。最近は自社サービスも安定して運用されているので
kakku22 2013/10/15
Hadoop

Hive

データサイエンティス
リンク
Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
kakku22 2013/10/13
aws

emr

hadoop

mahaut
リンク
SQLライクにHadoop Hiveを使い倒す!
パーティションを利用する今回は少し凝ったテーブルを定義をしてみましょう。郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds
kakku22 2013/10/09
Hadoop

Hive
リンク
Hadoop＋Hive検証環境を構築してみる
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
kakku22 2013/10/09
Hadoop

Hive
リンク
Hadoop Conference Japan 2011 Fall に行ってきた＆しゃべってきた - たごもりすメモ
なんかすごいイベントだった。User Group主催のイベントなのに2ホールを1日貸し切り(というか施設まるごと貸切)でキャパシティ1400人のイベントとかどういうこと。しかも無料参加なのにランチボックスとか飲み物とか出てた。意味がわからん。カネのあるところは違うということかー？ともあれとりあえず主催者の方々はお疲れさまでした！内容のサマリが読みたい人はこんなエントリを読んでないで、他の人がまとめてるものがあるのでそっちに行きましょう。しゃべってきたこっちを先に片付ける。ライトニングトークで時間もらったので、ライブドアでHadoopをこんなことに使ってるよ、そのためにこんなツールが欲しかったから作って使ってるよ、という話をしてきた。 Hadoop and subsystems in livedoor #Hcj11f View more presentations from tago
kakku22 2013/10/08
Hadoop
リンク
IBMからHadoopのアプライアンス PureData System for Hadoop がリリース | Unofficial DB2 BLOG
著書「AWSではじめるデータレイク」データレイクの本を書きました（共著） DB2の管理方法を解説した本を書きました。お勧め書籍「おうちで学べるデータベースのきほん第2版」「達人に学ぶSQL徹底指南書第2版」達人に学ぶDB設計徹底指南書第2版」「DB2 10エバリュエーション・ガイドブック」 ad 無料のDb2 Community Edition 特徴とダウンロード方法インストールガイド (Linux) インストールガイド (Windows) リンク集 Unofficial DB2 FAQ DB2マニュアル Fix Pack (修正パッチ) about this site 著者(SIM) ツイッター(@simosako) RSS 1.0 / Atom 0.3 著書＆お勧め書籍 recent entries Db2 Community Edition for Window
kakku22 2013/10/07
Hadoop

ibm

BigInsights
リンク
1 2 3 次のページ

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

はてなブックマーク

タグ

関連タグで絞り込む (49)

hadoopに関するkakku22のブックマーク (46)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.