話題の新技術、簡潔データ構造の入門用資料をまとめてみた

最近私の周辺で簡潔データ構造に興味を持つ人が増えてきた。簡潔データ構造といえばGoogle日本語入力でも使われている話題の新技術。自然言語処理界隈で機械学習の次にブームになるのはこれだ!と個人的に思っている。
というわけで入門用の資料をまとめてみた。


簡潔データ構造では、すべての基礎である簡潔ビットベクトルがあって、その上に応用として簡潔木(LOUDSなど。Google日本語入力で利用されている)、簡潔文字列(ウェーブレット木など。FM-Indexに利用されている)がある。最近ではこれらより複雑なデータ構造に対する簡潔構造も研究されている。
ということをふまえて以下の資料を読むと良い。

Efficient dictionary and language model compression for input method editors
Taku Kudo et al.
Google日本語入力の論文。具体的な利用例を見ないと動機づけが困難という人向け。

私のブックマーク : 簡潔データ構造
@tb_yasuさんの資料まとめ。ほとんどここを見ればOK。とても助かります。

ALSIP2011 Invited Talk
ALSIP2011の3つの招待講演は優れたまとめ資料になっている。
それぞれ定兼先生が木の簡潔構造を、岡野原さんが文字列の簡潔構造を、
Raman先生が木や文字列より複雑な簡潔構造をまとめて下さっている。
いずれの資料も冒頭で、基礎である簡潔ビットベクトルについては言及されている。

簡潔データ構造(Succinct Data Structure)で最初に読むと良さそうな論文 - EchizenBlog-Zwei
入門用の論文をまとめた記事。(1)、(3)、(4)あたりを読んでおけば基礎はバッチリ。

簡潔データ構造超入門VI 〜これまでのまとめと集合の簡潔構造〜 - EchizenBlog-Zwei
入門用記事。実際に実装しつつ理解できるように書いたつもり。
簡潔ビットベクトルからLOUDSまでをカバーしている。
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy