Content-Length: 330346 | pFad | http://b.hatena.ne.jp/yass/gpu/
昨年の暮れ、JPUGカンファレンスのLTで『SQL+GPU+SSD=∞』と題したスピーチを行った。 SQL+GPU+SSD=∞ (Japanese) from Kohei KaiGai www.slideshare.net これはかいつまんで言えば、ストレージからデータをCPU+RAMへとロードするより前に一旦GPUへとデータを転送し、そこで不要なデータを削ぎ落してからCPU+RAMへと渡してやる事で、CPU負荷の軽減とRAMの有効活用が計れるというアイデアである。 実装としては、PCI-Eデバイス間でのP2P DMA機能を利用する事によってNVMe SSDの特定ブロックからGPU RAM上の特定の領域へDMAを実行するというものなので、ここは別に新しくも何ともない。 以下の図は、従来の仕組みにおけるデータの流れを示したもの。 SSDから読み出されたデータは先ずCPU+RAMにバッファされ
2. 自己紹介 ▌Name: かぴばら@品川 ▌PostgreSQL歴:9年ほど(2006~) ▌works: セキュリティ周り、FDW周り、諸々... ▌趣味: 別業界のテクノロジを持ってきて PostgreSQLに組み合わせる事 (混ぜるな危険?) PostgreSQL Conference Japan - LT: SQL+GPU+SSD=∞2 Very powerful computing capability Very functional & well-used database PG-Strom: なるものを作っています。 GPGPU 3. What’s PG-Strom – ざっくり説明すると PostgreSQL Conference Japan - LT: SQL+GPU+SSD=∞3 ▌コア機能 ① SQLからGPUネイティブバイナリを動的に生成する。 ② GPUによる
Unused RAM is wasted RAM, so why not put some of that VRAM in your graphics card to work? vramfs is a utility that uses the FUSE library to create a file system in VRAM. The idea is pretty much the same as a ramdisk, except that it uses the video RAM of a discrete graphics card to store files. It is not intented for serious use, but it does actually work fairly well, especially since consumer GPUs
Accelerated Learning cuDNN provides kernels, targeting Tensor Cores, to deliver best available performance on compute-bound operations. It offers heuristics for choosing the right kernel for a given problem size. Expressive Op Graph API The user defines computations as a graph of operations on tensors. The cuDNN library has both a direct C API and an open-source C++ frontend for convenience. Most
実際のところ、リアルタイムでレコメンデーションを走らせるためには、速い計算機が必要である。 計算量を食わない簡略化したロジックを動かすとか、計算機をクラスタ化して環境を構築する、などのアプローチもあるが、GPUを使って計算を高速化するというアプローチはなかなか見かけないので面白い。 (社内でやっているところはあるかもしれないけれど、公開をしていないだけ、だったりして。) "You Might Also Like: A Multi-GPU Recommendation System" You Might Also Like: A Multi-GPU Recommendation System from NVIDIA GPU演算で、(Simpleながらも)レコメンデーション(recommendation)の計算が、CPUと比べて20倍〜300倍の早さになったよ、というスライド。 要は、Util
統合メモリ、ドロップイン・ライブラリなどのプログラミング機能により、 次世代のGPU開発者を支援 2013年11月14日 - カリフォルニア州サンタクララ -NVIDIA(本社:米国カリフォルニア州サンタクララ、社長兼CEO: ジェンスン・フアン(Jen-Hsun Huang)、Nasdaq:NVDA)は本日、世界で最も普及している並列コンピューティングのプラットフォームおよびプログラミングモデルの最新バージョン、NVIDIA® CUDA® 6を発表しました。 CUDA 6プラットフォームでは並列プログラミングがいままで以上にやりやすくなり、科学や工学、エンタープライズのアプリケーションをGPUで高速化するために必要な時間と労力が大幅に削減されます。 いままで使っていたCPUベースのライブラリを置き換えるだけで実行速度を最大8倍に高められるパフォーマンスの拡張機能も用意されています。CUD
NVIDIAの「GK110(Kepler)」GPUを使う「Tesla K20/K20x」と「GeForce Titan」は、現状では最強の科学技術計算能力を誇っており、K20xは2012年11月のTop500で1位を獲得したオークリッジ国立研究所のTitanスパコンにも採用されている。GPUは高い浮動小数点演算能力を持っているが、単に、浮動小数点演算器の数を増やして従来のCPUを相似形で拡大したものではなく、かなり異なった作り(アーキテクチャ)となっている。そのため、GPUの高い演算能力を引き出すためには、CPUのプログラムとは異なる注意が必要である。そこで本連載では、Kepler GPUを例にとり、そのアーキテクチャとCUDAプログラムの最適化のポイントを見ていきたいと思う。
AWS Week in Review – AWS Documentation Updates, Amazon EventBridge is Faster, and More – May 22, 2023 Here are your AWS updates from the previous 7 days. Last week I was in Turin, Italy for CloudConf, a conference I’ve had the pleasure to participate in for the last 10 years. AWS Hero Anahit Pogosova was also there sharing a few serverless tips in front of a full house. Here’s a picture I […] Amaz
Announcing Amazon Managed Service for Apache Flink Renamed from Amazon Kinesis Data Analytics Today we are announcing the rename of Amazon Kinesis Data Analytics to Amazon Managed Service for Apache Flink, a fully managed and serverless service for you to build and run real-time streaming applications using Apache Flink. We continue to deliver the same experience in your Flink applications without
NVIDIAが7月30日に開催した「GTC Japan 2013」においてGPU Computing Software部門のジェネラルマネージャのIan Buck氏から、GPUソフトウェアの将来像について話を聞いた。Buck氏はCUDAの生みの親であり、現在もNVIDIAのGPUソフトウェア開発の中心となっている人物である。 今回のGTCにおいて、NVIDIAがコンパイラのメーカーであるPGI(Portland Group International)を買収したことが発表された。これに関して、NVIDIAとPGIの分担はどうなるのかを質問したところ、PGIは、これまでのコンパイラのライセンス・販売を続ける。しかし、NVIDIAの一員となったので、MaxwellやVoltaといった将来のGPUやCUDA6/7の技術情報にアクセスできるようになり、より緊密な協力が行えるようになる。また、PGI
Our Services and ProductsWe are a software house that writes extremely fast code for the world's most demanding companies. Software Development – From architecture to delivery, making fast softwareDevelop Fast SoftwareMaking the release version of prototype codeMaking CUDA-code work on AMD hardware (HIP)Porting CUDA to OpenCLTraining – From crash-course to full in-house trainings1-day Crash Course
概要 近年、GPUの性能は飛躍的に向上しており、グラフィック専用の処理装置としてではなく、数値計算等の汎用向けの処理に利用する、GPGPUに関する研究が盛んに行われている。GPUは内部に多くのコアを備えており、NVIDIA社のGeForce GTX 580では、512個ものコアを保持している。これらのコアすべてを効率よく利用することで、GPUの持っている高いパフォーマンスを引き出すことが出来るが、GPUの高い並列性を利用するためにはGPU特有の処理を実装する必要があり、GPUプログラミングになじみの無い利用者にとっては処理の記述が困難である。 そこで、GPUを大量のコアを持ったプロセッサだと考え、これらに対してMapReduceを適用することを検討する。親しみやすいMapReduceインターフェースにあてはめて処理を記述するだけで、GPUの高い並列性を生かしたプログラムが実装可能となる。加
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/yass/gpu/
Alternative Proxies: