Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

3. 講義内容 序論 - 並列データベースの前に 並列処理の基礎 並列処理のTerminology 並列計算機アーキテクチャ 並列データベースのアーキテクチャ データベース処理の並列化 結合処理の高速化 並列ハッシュ結合 並列ソート パーティショニング手法 多重結合や計算機間のデータ交換で発生する問題 MapReduceによる関係演算の並列処理 3 4. データベース開発の流れ Coddの論文: 1970年 System RやIngres: 70年代中盤 Oracle, IBM DB2, Ingres: 80年代序盤 並列データベースの隆盛: 80年代後半 A Relational Model of Data for Large Shared Data Banks, Communications of ACM 商用
Amazon SageMaker Geospatial Capabilities Now Generally Available with Security Updates and More Use Case Samples At AWS re:Invent 2022, we previewed Amazon SageMaker geospatial capabilities, allowing data scientists and machine learning (ML) engineers to build, train, and deploy ML models using geospatial data. Geospatial ML with Amazon SageMaker supports access to readily available geospatial dat
Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It allows for the distributed processing of large datasets across clusters of nodes using simple programming models. Hadoop can distribute data and computations across a cluster of commodity machines and scale to thousands of nodes, handling failures in an automatic wa
「NoSQLはソーシャルメディアのようなネットアプリケーション向けであり、企業内のデータベースとしては向かない」。これまでNoSQLデータベースは一般にそう思われていました。 しかしオラクルは今月、サンフランシスコで開催した「Oracle OpenWorld 2011」でビッグデータ市場への参入を表明。製品として、企業向けデータベースとしてキーバリュー型データストア「Oracle NoSQL Database」と「Apache Hadoop」を搭載した「Oracle Big Data Appliance」を発表しました。 オラクルは企業が使うデータベースとしてNoSQLやHadoopをどのように位置づけようとしているのでしょうか? 昨日10月25日に都内で開催された日本オラクル主催のイベント「Oracle Database/Exadata Summit」において、米オラクルでデータベース製
米マイクロソフトは2011年10月12日(米国時間)、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」の中心的な開発企業の一つである米ホートンワークスと提携して、Windows ServerとWindows Azure向けのHadoopディストリビューションを提供すると発表した。2011年末までに、Windows Azure向けHadoopのCTP(コミュニティ向け技術評価版)をリリースする。 Hadoopは、米グーグルの「MapReduce」や「Google File System」を参考にした分散バッチ処理ソフトで、米ヤフーが中心となって開発してきた。ホートンワークスは、ヤフーのHadoop開発チームが今年6月に独立した企業である。またHadoopは現在、Apacheソフトウエア財団のトッププロジェクトである。 MSとホートンワークスは共同で、Windows向
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにしました。 これまでGoogle App EngineではMapReduceを構成する「Map」「Shuffle」「Ruduce」の3つのうち、Mapperの機能の提供が行われてきました。 Google I/O 2011で行われたセッション「App Engine MapReduce」では、MapReduceを構成するすべての機能の提供が行われることが発表されています。 セッションのポイントを紹介しましょう。 App Engine MapReduce App EngineエンジニアリングチームのMike Aizatsky氏。 MapReduceは数年前にグーグルが開発した処理。社内ではほとんどあらゆるチームがこの処理
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
米Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c
Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。 実行時間は速くなると思うけど、それが決定的な違いになるかどうかはわからない。 セキュリティやいくつかの機能は実装しやすくなるかもしれない 他のプログラミング言語への対応はしやすくなる。Java/Pipes/Streamingを選ぶ代わりに、コンパイルしてリンクすればいい。 コード量は非常に大きくなる。エラーチェックのためにね。 コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない。 Pigは登場しただろうか? 私にはそうは思えない。回答2は略 回答3C/C++とJa
前回は、Web ConsoleからAmazon Elastic MapReduceを起動する方法を説明しました。今回はAPIでの起動方法を紹介していきます。 Web ConsoleとAPIはどこが違うのか 使用前に、まずWeb ConsoleとAPIの違いをおさえておきましょう。 Webコンソールは、1回の操作でJobを1つしか実行できません。これだと、毎回EC2のインスタンスが起動、ターミネートが走り、あまり効率的とはいえません。 一方APIを使用すると、1回の起動で複数のJobを実行できます。たとえば、3つのJobを実行したい場合は、以下のような操作が可能になります。 APIでEMRを起動する ↓ 3つのJobを投入する ↓ すべてのJobが終了したら、EMRをターミネートする また、「最近EMRで加わった新機能を利用中にインスタンス数を変更」といったこともできます。 EMRではどの
というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日本語化していて楽チンです。Amazon Web Services (日本語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に
もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存
NTTデータは、オープンソースの分散バッチ処理ソフト「Hadoop」専業のベンチャー企業である米クラウデラと提携し、クラウデラの開発するHadoop関連製品を、日本を含むアジア太平洋地域で販売する。2010年10月12日(米国時間)に米国ニューヨークで開催される「Hadoop World 2010」で、NTTデータの山田伸一常務が発表する。両社は共同で、Hadoopのサポートや研修サービスなども展開する。 Hadoopは、分散処理システムを構築するためのミドルウエア。グーグルがWeb検索エンジンのインデックスを作成するために独自開発した分散バッチ処理ソフト「MapReduce」と、分散ファイルシステムの「Google File System(GFS)」を基にして作られた。プログラマはHadoopを使うことで、データをノードに分散したり集約したりするネットワーク処理機構を、独自に開発する必要
NTTデータが公開したHadoop資料が話題になっている。ざっと読む限り、コード事例もあって参考になることは確か。読まない手はないだろう。 だけど、Hadoop環境を自前で構築することには私はあまり賛同できない。技術屋が勉強するため、というのなら話は別だけど、事業でHadoopを使うのならクラウド上のを借りることをお勧めする。 例えば1000台のクラスタを構築して、デイリーバッチ処理が5分で終わるようになった! と喜ぶのも良いだろう。でも、残りの23時間55分はそのクラスタどうするのか?寝かせておくのであればROI評価は非常に低いものになるだろう。 かといってケチって5台のクラスタにしたらほぼ1日中稼動したのでROIは高くなりましたが処理時間短縮には至りませんでした、なんていうのも馬鹿げている。 じゃ、どこに最適点があるのか? 答は「自前で持たず、必要なときに必要な台数のクラスタを借りる」
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
2010/09/13 Googleは既にMapReduceを使っていない Googleの新しい検索基盤「Caffeine」では、MapReduceを使っていないそうだ[register]。新しい検索基盤はGFS (Google File System) をオーバーホールしたGFS2を活用しており、分散データベースBigTableに直接インデクシングを行うデータベース駆動の方式に変わっている。この検索基盤を「Colossus」と呼んでいるそうだ。インデックスの作成時間を短縮することで(MapReduceによる処理が不要)、検索のリアルタイム性を増すのだろう。Microsoft、Facebook、Yahoo!がまだMapReduceのオープンソース版ともいえる「Hadoop」を使っていることを考えるとGoogleは先に進んでいる。この成果が「Google Instant」に繋がっているのだろう
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く