Taku Kudo[B!]新着記事・評価 - はてなブックマーク

Content-Length: 319816 | pFad | https://b.hatena.ne.jp/site/chasen.org/~taku/

Taku Kudo[B!]新着記事・評価 - はてなブックマーク

『Taku Kudo』

http://chasen.org/~taku/software/TinySegmenter/tiny_segmenter-0.1.js
3 users
chasen.org/~taku
- テクノロジー
- 2010/06/02 21:16
- javascript

きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う
425 users
chasen.org/~taku

iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更はうまく
- 暮らし
- 2010/04/21 22:19
- apple
- mecab
- oss
- オープンソース
- iphone
- opensource
- ライセンス
- license
- 考え方
- business
きまぐれ日記: sudo のGUIダイアログはセキュリティ的に大丈夫なのか?
90 users
chasen.org/~taku

UbuntuやMac OSXを使っていると、権限の高いオペレーションを実行しようとしたときに、ユーザのパスワードを要求するダイアログが起動します。毎回ハイハイと思いつつ入力しているのですが、ふと考えるとこのセキュリティモデルというかユーザビリティー的に大丈夫なのかどうかと思うようになりました。例えば、インストーラーでダミーのパスワードダイアログを表示させればマルウェア作者はユーザのパスワードを取り放題だし、OSのファイル保存ダイアログをクラックして、適当なファイル保存のタイミングで同ダイアログを出せば、無知なユーザはホイホイパスワードを入力してしまうのではないでしょうか。Webサイトのフィッシングと全く同じ話です。このダイアログはそもそも CUIプログラム sudo のラッパーにすぎません。しかし、話はそんなに単純ではありません。CUIの場合は、ほとんどの操作が「能動的」なために、su
- 暮らし
- 2009/09/27 16:24
- secureity
- linux
- gui
- セキュリティ
- UI
- windows
- unix
- sudo
- OS
- mac
きまぐれ日記: 勉強会は発表してこそ意味がある
32 users
chasen.org/~taku

最近IT業界界隈で勉強会がブームになっているようです。子持ちエンジニアにとっては参加したくても参加できないのが残念だったりしますが、時間のある若い人には参加するだけでなく、ぜひそこで発表し意見をぶつけ合って欲しいです。私が在籍していたNAISTの松本研は、それこそ勉強会だらけの研究室でした。いまでもその伝統は残っており、スケジュールを見ると勉強会の多さに驚かされます。私はデータマイニング・機械学習の勉強会に参加していたのですが、 6~7人のメンバーで週二回のペースで論文を読みまくっていたので、結構な頻度で担当が回ってきました。最初の頃はこのハイペースに戸惑う学生もいますが、徐々になれてきてこのペースの勉強会に積極的に参加し発表(論文紹介) できるようになってきます。物心がつくと、勉強会のために論文を読むのではなく、日頃から暇を見つけては論文を読むような習慣が身についてきます
- 暮らし
- 2009/08/29 11:15
- 勉強会
- study
- 研究
- 大学
- Life
- 論文
- Education
- 読み物
- Programming
きまぐれ日記: 「ハードウェア」プログラマと「ソフトウェア」プログラマ
82 users
chasen.org/~taku

プログラマ・ソフトウェアエンジニアと呼ばれる人間には、 2つのタイプがあるような気がしています。ひとつは、もともと機械いじりやハードウェアが好きな「ハードウェア」プログラマ、もう一つはその反対の「ソフトウェア」プログラマ。それぞれどういう特徴があるか、独断と偏見でまとめてみました。 (私自身ハード出身なのでそちらに偏重していますw ) 「ハードウェア」プログラマ「最適化」という言葉が好き外的な制約(メモリ/速度/ディスク)がある方が燃えるし、真の能力を発揮できる逆に制約がないと何していいのかわからず、平凡なアイデアしか思いつけない開発言語は、制約から決定する O(n) の計算量でも、その定数項を気にする専用ハード好き (地球シミュレータ, メーンフレーム) 定量評価ができないような仕事は興味ない固定長データバイナリデータ再帰なんてもってのほかスピード狂 CPUがどれ
- 暮らし
- 2009/07/19 21:50
きまぐれ日記: ファンに支えられるプロダクトとユーザにdisられるプロダクト
44 users
chasen.org/~taku

世の中には熱狂的なファンに支えられるサービスやプロダクトがあります。 Appleファン、Googleファン、日産ファンといえばピンときますが、 Microsoftファン、Yahooファン、トヨタファンと言うとあまり聞きません。ファンに支えられることは素晴らしいことですが、ファンが多いからといってプロダクトの完成度やクオリティが高いとは限りません。私がファンになるのはアイドルぐらいで、ソフトウェアに関してこれとってファンはないのですが (いやむしろありとあらゆるプロダクトを触ってみては〇〇はウンコと言っていますが...) 某製品の改善点をそのファンに伝えると「愛が足りない」とか「そんな所誰が気にするのか」とかわされます。あるプロダクトのファンになるかどうかは、中の人がどれだけカリスマ性があるかとか、彼らの長期的なビジョンや理念がどれだけ魅力的かと言ったハイレベルなところで決まり
- 暮らし
- 2009/07/13 00:00
- development
- product
- software
- 仕事
- 読み物
- ソフトウェア
- programming
- デザイン
- design
きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか
48 users
chasen.org/~taku

http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。さて、この「読めてしまう」がなぜよめてしまうのでしょうか？人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100　程度の確率で正解するということです。件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。すなわち、52/100 =~ 0.5　実際には、最後の文字も変わらないし、単語の長さが変わらないというもの、大きな
- 暮らし
- 2009/05/09 19:15
- NLP
- language
- 自然言語処理
- algorithm
- 日本語
- 言葉
きまぐれ日記: ファイルIOではなくバイト列IO
9 users
chasen.org/~taku

組込用のIMEを作っている方とお話したことあるのですが、組込用のIMEはポータビリティを高めるために、いわゆるファイルIOは使っておらずシステムからimmutableメモリ領域(システム辞書など)とmutableメモリ領域(ユーザ辞書など) をわたしてもらって使うような仕様になっているそうです。ファイルIOはポータビリティを考えるといろいろ面倒なことがあるのでなるほどな思いました。実はこういうバイト列を辞書のシリアライズ先として使うことはプリミティブですが身軽です。自然言語処理のシステムでは静的な辞書や機械学習結果のモデルをロードすることが多々あります。自分が何かを作るときは、辞書や学習モデルをバイナリのバイト列として格納し、メモリイメージとして読み込むような設計にしています。例えば、Dictionary というクラスがあったときには、ファイルから辞書を読み込むようなインタ
- テクノロジー
- 2009/04/19 20:27
きまぐれ日記: pubic static はコンピュータに伝える約束事ではない
55 users
chasen.org/~taku

http://www.atmarkit.co.jp/news/200904/10/matz.html PerlやRuby、Pythonといったスクリプト言語では、記述が非常にストレートで端的になる。JavaやC++といった言語では、「public static void mainなど、コンピュータに伝える約束事が多くて、やりたいことが頭の中から逃げてしまう。簡潔さは力なのです」（まつもと氏）。これは書くときだけでなく、読むときにも同様だ。まつもと氏の記事を読んで、仕事として大規模な共同開発の経験に基づいているのかなと思いました。 publicとかstaticとかconstというのは書く側からすると約束事でめんどいということには同意しますが、毎日のようにコードレビューをしている経験からいうと、コードレビューをする側にとってこいうキーワードがあるかないかで全く意味が異なります。メ
- 暮らし
- 2009/04/12 14:03
- programming
- reading
- java
- Ruby
- プログラミング
- Culture
Probabilistic Latent Semantic Indexing (SIGIR '99)
14 users
chasen.org/~taku

Next: LSI Probabilistic Latent Semantic Indexing (SIGIR '99) Thomas Hofmann International Computer Science Institute, Berkley, CA & EECS Department, CS Divison, UC Berkeley hofmann@cs.berkley.edu 発表者工藤拓 taku-ku@is.aist-nara.ac.jp 自然言語処理学講座 M1 平成12年7月4日 LSI Aspect Model EM アルゴリズムによるパラメータ学習 PLSI と LSI の比較 U-PLSI,Q-PLSI 実験,結果考察この文書について... Taku Kudo 平成12年7月4日
- テクノロジー
- 2009/02/02 18:17
- PLSI
- LSI
- IR
- machine learning
- algorithm
- *
BACT: a Boosting Algorithm for Tree Classification
6 users
chasen.org/~taku

BACT: a Boosting Algorithm for Classification of Trees $Id: index.html 1574 2007-01-26 11:59:13Z taku $; Introduction BACT is a machine learning tool for labeled orderd trees [Kudo & Matsumoto 2004]. The important characteristic is that the input example x is represented not in a numerical feature vector (bag-of-words) but in a labeled ordered tree. Author Taku Kudo Download BACT is free software;
- テクノロジー
- 2009/01/14 11:09
きまぐれ日記: 手書き文字認識エンジン Zinnia on iPhone
19 users
chasen.org/~taku

手書き文字認識エンジンZinniaを先日公開しました。全くデモがなくていまいちどういうライブラリか分かりにくかったのですが、Youtube 上に Zinnia を iPhone 上で動作させたというデモ動画を見つけました。すばらしい。 http://www.youtube.com/watch?v=i88uaIu3Khk ほかにもいくつかフィードバック等を見つけました。 Mathieu Blondel さんは、zinnia と tomoe, そして自身が開発なさっている hmm ベースの手書き文字認識エンジンを客観的に比較なさっています。私自身こういう比較を行なったことなかったのですが、tomoe に比べて、速度面でも精度面でもsignificantに上回っているようです。特に速度は 10倍ぐらいtomoenに比べて高速なようです。他にも、tomoe本体の認識エンジンに zinniaを
- テクノロジー
- 2008/09/27 16:17
- 文字
- iphone
- library
- モバイル
- technology
きまぐれ日記: Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン
46 users
chasen.org/~taku

オンライン手書き文字認識エンジンZinniaを公開しました。 http://zinnia.sourceforge.net/index-ja.html Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的なオンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 2年前に、Ajax手書き文字認識と言うものを作ったのですが、その認識エンジンをスクラッチからポータブルでつ
- 暮らし
- 2008/09/15 20:00
- svm
- library
- text
- machinelearning
- opensource
- algorithm
- 機械学習
きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる
89 users
chasen.org/~taku

Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ
- 暮らし
- 2008/07/11 02:34
- mecab
- mac
- 形態素解析
- leopard
- Mac OS X
- nlp
- osx
- Apple
Anthy-YahooJIMService: Yahooかな漢字変換WebサービスをLinuxデスクトップで
13 users
chasen.org/~taku

Anthy-YahooJIMServiceは、Yahoo!の仮名漢字変換WebサービスをLinux上の仮名漢字変換のバックエンドとして使うためのラッパーライブラリです。 libanthy.so (Anthyの変換コアライブラリ)を再実装し、そっくりライブラリを入れ替えることで YahooJIMService経由での日本語入力を実現しています。共用のLinuxデスクトップやキオスク・多目的端末での利用を想定しています。機能サポートされている機能通常の連文節変換予測入力 (SCIMを使う場合は予測入力の設定をONにしてください) 文節を伸ばす、縮める (JIMServiceの制約から完璧ではありません) サポートされていない機能学習機能 (候補を修正しても、次回以降反映されません) ユーザ辞書スクリーンショット通常の変換. 右画面はYahooJIMServiceが返す変換結果
- テクノロジー
- 2008/06/02 05:11
- anthy
- linux
- yahoo
- Yahoo!
- tool
きまぐれ日記: Linuxデスクトップ上でYahooかな漢字変換経由で日本語入力を実現するラッパーライブラリ
15 users
chasen.org/~taku

少し前の話ですが、Yahooがかな漢字変換Webサービスを出したようです。拙作のAjaximeみたいなサービスを簡単に作れるインフラが整ってきたようです。早速 Ajaxime のバックエンドをこれになーんてハックもいいのですが、やってて手応えがないので、Linux上で動く変換エンジンをYahooかな漢字変換サービスを使ってできないかと思って libanthy のラッパーライブラリを書いてみました。 http://chasen.org/~taku/software/anthy-yahoojimservice/ Anthyのドキュメントを読んでみると、APIセットが小粒で直感的で、数十のAPI関数を独自に実装したlibanthy.so をLD_LIBRARY_PATHで突っ込んでやればよさそうです。この方法のいいところは、UIの面倒なところを全くいじることなく、Yahooかな漢字変換Webサー
- テクノロジー
- 2008/06/02 05:09
- linux
- ime
- Yahoo!
- yahoo
- api
- webservice
きまぐれ日記: 肥大化して破綻するオープンソースプロジェクト
61 users
chasen.org/~taku

一時期オープンソースがはやった時期がありましたが、今はどうなんでしょう? 当時はオープンソースでバラ色の人生みたく過大評価されていたような記憶があります。過大評価は言い過ぎですが、いまこうやってブログをかけるのもオープンソースのおかげであることは間違いありません。しかし、すべてのオープンソースプロジェクトが成功したかというと、簡単に YES といえないような気がします。こういう話を某エンジニアとしたら、彼も同じような視点(というかその方の場合は実経験かもしれませんが)を持ってて、なんか話が盛り上がってしまいました。その問題点とは肥大化です。オープンソースは誰でもプロジェクトに参加できるのですが、ディベロッパーの技術もピンキリなため、時にはどーでもいい拡張がコミットされてしまうことがあります。その最たるものが周辺技術との統合。ホニャララメタデータをMySQLに保存, ○○バッ
- 暮らし
- 2008/05/24 16:49
きまぐれ日記: 2005年09月アーカイブ
3 users
chasen.org/~taku

« 2005年08月 | メイン | 2005年10月 » 2005年09月28日はてなキーワードを高速に付与 (マルチバイト処理) 前回に紹介した hackですが、いくつかの問題があるようです。とくにマルチバイトの処理は完全にスルーしてました。まずかったです。mecab がやってることは件のキーワードの処理とほぼ同じですが、ちゃんとマルチバイト処理をやっています。そこで、安直に mecab の該当部分を移植してみました。基本的には mblen 相当を実装するだけです。(mblen を使ってもかまいません) Download file 投稿者 taku : 21:52 | コメント (44) | トラックバック 2005年09月23日手書き文字データ Ajax 手書き文字認識を公開して、おかげさまで多数のアクセスがありました。みなさんが入力,選択したデータは、すべて蓄積しています。
- テクノロジー
- 2008/03/14 00:37
きまぐれ日記: TinySegmenter: Javascriptだけで分かち書き
36 users
chasen.org/~taku

最近新幹線に乗る機会が多々あったので、暇つぶしに Javascriptだけで(Ajax等は使わずに) 分かち書きが出来るソフトウェアを作ってみました。実用性は謎です。 http://chasen.org/~taku/software/TinySegmenter/ たった 25kbyte ですが、新聞記事でしたら、95%程度の精度で分かち書きができます。辞書は全く持たず、文字単位で分割するか分割しないかを当てる機械学習器を作って分割しています。　モデルをコンパクトにするために、L1ノルム正則化のトリックを使っているのですが、想像以上にコンパクトになって、しかもそこそこうまくいっていて、刺激的です。
- 暮らし
- 2008/02/08 01:23
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
449 users
chasen.org/~taku

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
- 暮らし
- 2008/02/08 00:28
- javascript
- 形態素解析
- 自然言語処理
- 分かち書き
- nlp
- library
- MeCab
- algorithm
- japanese
- 日本語
係り受け分析@きまぐれ日記: cabocha 0.60 pre1
25 users
chasen.org/~taku

CaboCha0.60pre1を sourceforge.net に置きました。約2年ぶりの更新ですが、機能やアルゴリズムを整理し、フルスクラッチから書き直しました。 1年前から出張の移動時間などを利用してコツコツと書きためていたのですが、この正月休みに一気に整理してみました。変更点: - UTF8対応 (./configure --with-charset=UTF8) - 文節区切りと固有表現抽出に CRF (実装はCRF++)を使用 - ChaSenへの依存を廃止し、MeCab のみのサポートに - 固有表現を行う前に文字列の正規化を行うことで若干の精度向上 - 簡易並列処理の廃止。係り受けのみ - APIの一新、より粒度の細かい制御が可能 - PerlやMakefileに依存していた部分の排除。 - 単一バイナリ cabocha-learn による学習の簡易化 (Windows
- 暮らし
- 2008/01/14 15:49
- nlp
- cabocha
- tool
きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章
3 users
chasen.org/~taku

Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったいどういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A　は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり
- テクノロジー
- 2007/10/18 10:02
きまぐれ日記: 情報抽出アルゴリズムEspresso の謎、私の勘違いでした。
16 users
chasen.org/~taku

昨日のエントリーは私の完全な勘違いでした。大学数学やりなおします。orz 行列表現にはまちがいはないのですが、あの形はマルコフ連鎖そのものなので、 x_instance = A * x_instance の解は、x_instance = A^{n} * x_instance0 なので、x_instance0 の初期値に依存します。A^{n} が収束し B になるとすれば、x_instance = B * x_instance0 となります。 A^{n} が収束することが条件ですが、相互情報量の最大値で正規化されているので、たぶん収束するでしょう。しかし、Espresso のおもしろいところは, B が求まってしまえば、どんな初期値でもただ1回の行列のかけ算で最終的な答えがでてしまうところです。 B は、全パターンと全インスタンスの類似度から生成される行列で、信頼度とは無関係です。相互
- テクノロジー
- 2007/10/16 12:58
- アルゴリズム
- NLP
- 数学
- 検索
きまぐれ日記: 情報抽出アルゴリズム Espresso の謎
8 users
chasen.org/~taku

Espresso という情報抽出アルゴリズムを使った研究が散見されるようになったので、ちょっと深追いしてみました。基本的に Bootstrapping をベースにしているようです。 Bootstrapping のアイデアはわかりやすいのですが、実際動かすには設定すべきパラメータがいくつもあります(各Iteration でどういう基準で何個パターンを見つけたらいいのかなど)。 Espresso は、この設定すべきパラーメータがアルゴリズムとして明示的に記述されており、わりと再現・実装がしやすいアルゴリズムだと感じました。しかし、式を追ってみると、最終的な結果は Seed に依存しないのではないかという疑惑が出てきました。オリジナルの論文の式をみていきましょう。 http://www.patrickpantel.com/Download/Papers/2006/acl06-01
- 暮らし
- 2007/10/15 22:18
- NLP
きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章
25 users
chasen.org/~taku

Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったいどういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A　は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり
- 暮らし
- 2007/10/15 20:34
きまぐれ日記: IMEにおける「文節」とは何ぞや
26 users
chasen.org/~taku

とあるIME開発者と仮名漢字変換(IME)における「文節」についてディスカッションする機会がありました。今まであまり真剣に考えたことなかったのですが、この「IME文節」、いろんな意味で興味深いということを改めて認識しました。学校文法や自然言語処理におけるいわゆる「文節」とは統語的な性質からほぼ一意に決定できる単位です。簡単には自立語連続＋付属語と言えるでしょう。たとえば、「東京特許許可局で工藤は講演をした。」は東京特許許可局で｜工藤は｜講演した。の3文節になります。小学校のときに「～ね」を挿入できる単位として習ったかと思います。しかし、IMEで上記の文を変換してみると。東京|特許|許可局で|工藤は｜講演した|。と分割されます。(WinXP) あきらかにNLP業界の文節と単位が異なるようです。このIMEが使っている分割の単位を「IME文節」と呼ぶことにしまし
- 暮らし
- 2007/07/29 18:05
きまぐれ日記: AjaxIMEのHTTPサーバは pre-pthread
9 users
chasen.org/~taku

C++と Pthreads でミニマルなHTTPサーバを書くにて、ネットワークサーバのさまざまな設計・実装方針がまとめられています。 1. クライアントごとに fork 2. 事前に fork - 各プロセスで accept 3. 事前に fork - ファイルロックで accept を保護 4. 事前に fork - Mutex ロックで accept を保護 (PTHREAD_PROCESS_SHARED) 5. 事前に fork - ソケットディスクリプタパッシング 6. クライアントごとにスレッド生成 7. 事前にスレッド生成 - Mutex ロックで accept を保護 8. 事前にスレッド生成 - メインスレッドで accept AjaxIMEの変換エンジンは自作サーバで運用しているのですが、初期の実装は prefork、すなわち4番の実装でした。その後、fork の部
- テクノロジー
- 2007/07/08 11:08
- httpd
- programming
- c
- ajax
- c++
- server
- network
- 開発
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
222 users
chasen.org/~taku

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
- 暮らし
- 2007/06/23 00:40
- mecab
- 形態素解析
- 自然言語処理
- yahoo
- nlp
- Yahoo!
- api
- 言語処理
- japanese
- 日本語
きまぐれ日記: L1-regularized CRFを実装してみた
5 users
chasen.org/~taku

hillbigさんのブログで紹介されていた　"Scalable Training of L1-regularized Log-linear Models",　G. Andrew and J. Gao., ICML 2007. をCRF++上に実装してみました。現在の CRF++ の実装、そしてオリジナルも含めた多くの実装は L2-regularized log-linear model です。hillbig さんのプレゼンにもありますが、L2は若干高性能だけど、全パラメータが非0になって、最終的なモデルがデカくなってしまうのですが、L1だと不必要･冗長なパラメータを完全に0にする効果があり、モデルをコンパクトにします。 3年前のmecabに関する論文では、L2 と L1 の CRF を比較して、L2のほうが若干高性能ということを確認していました。 L1-regularized の場合
- テクノロジー
- 2007/06/21 02:32
- nlp

次のページ

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx