タグ

juliusに関するgologo13のブックマーク (12)

  • Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips

    はじめに この記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。 現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。 出来るようになること 以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius

    Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips
    gologo13
    gologo13 2013/03/10
    すごい。。
  • KURO-RSとJuliusで家電をコントロールしてみた

    起動時に組み込むため、/etc/modprobe.d/設定ファイルを作成してください。 面倒ならば、上記コマンドをrc.localにに追記でも可。 ※/dev/ttyUSBxの権限を一般ユーザでも書き込めるようにしておくと、一般ユーザでも操作できます。 今回は全部sudo使って作業しています。 ここでperl使ってかっこ良く書けばいいと思いますが、 すでに開発されている先人の知恵をお借りします。 作者に感謝して使います。 http://www.gcd.org/blog/2007/01/113/ そのまま上記サイトの内容を実施すれば使えるようになります。 ※実は、KURO-RSについては数年前から使用していますが、今見てみるとなぜか修正している場所があるため、もしかしたら上記のサイトのものでは動かない部分があるのかもしれません。 動かない場合は自分で修正してみてください。(自分の方はなんのた

    KURO-RSとJuliusで家電をコントロールしてみた
    gologo13
    gologo13 2012/03/09
    これはすごい!
  • mirac cafe juliusで音素アラインメント

    音素アラインメントを取ろうとしたら、相当ハマったので備忘録。 音声系でない人のために書いておくと、 例えば「あいうえお」という発言した音データが与えられたときに、 何秒のところで「あ」と言っていて、 何秒のところで「い」と言っているのか、 とかそういうことを知りたかったわけです。 ということで問題設定 入力:音声信号と、その音素列 出力:アラインメント結果 juliusという音声認識器の、アラインメント機能を使うことにしました。 言語モデルとして文法モデルを使って、 grammerファイルとvocaファイルを適当に設定してやれば、 juliusに好きな文章列を出力させることができるはず、という荒っぽい考え方。 grammerファイル % NS_B NS_B silB % NS_E NS_E silE % SP SP sp % S01 S01 sh i t a n o % S02 S02 o

    gologo13
    gologo13 2011/05/03
    こんなことできるのかー。って内部で絶対やってるか。
  • GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

    GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine
  • 音声対話用言語モデル作成

    KyTeaを用いた音声対話用言語モデル作成 作成手順の概要 発音を推定する KyTea モデルを作成する 対話書き起こしと適応分野テキストを上記 KyTea で処理 適応分野特有のクラスをクラス記号に置き換える クラス内の単語の生成確率の決定 言語モデルの作成 1. 発音を推定する KyTea モデルを作成する (KyTea Ver.0.13) KyTeaにデフォルトで付属しているモデルは発音ではなく読み(正確にはキーボード入力可能な仮名の列)を推定するためのモデルなので、 発音を推定するためのモデルを別途作成する必要がある % train-kytea -full CSJ+BCCWJ.wordpron -dict UNI.wordpron -model CSJ+BCCWJ+UNI.bin KyTea用モデルファイル(単語分割+発音推定) CSJ+BCCWJ+UNI.bin % trai

  • JuliusとJulian - Miyazawa’s Pukiwiki 公開版

    はじめに † 以下を実行する前に、Cygwin と、Perlの実行環境 のインストールをすませておきます。 任意 : Cygwinのbinフォルダのパスを環境変数に加えておくと、コマンドプロンプトから使えるので便利です。 任意の場所(たとえば、Cygwinのホームディレクトリ直下)に Juliusフォルダを作っておきます(以下「JULIUS/」)。 ↑ 基セット(バイナリ) † Juliusの基プログラム、コンパイル済み 設定ファイルで多くの設定を変えられるので、たいていの場合バイナリで大丈夫のはず。 Julius 公式 から、まずは Windows版Juliusのバイナリファイル をダウンロードして解凍します。 julius-4.1.2-win32bin.zip(2009年10月20日時点)をダウンロードしました。 Juliusフォルダに、解凍したjulius-4.1.2-win32

  • The Julius book

    目次 まえがき1. 概要動作環境音声認識システムの実行に必要なものパッケージの構成処理フロー2. インストールバイナリパッケージソースからコンパイルするコンパイル時オプションlibsent オプションlibjuliusオプションjuliusオプションコンパイル手順の詳細LinuxWindows - cygwinWindows - mingwWindows - Microsoft Visual C++3. 音声データ入力基フォーマットビット数チャンネル数サンプリングレートファイル入力サポートするファイル形式録音デバイスからの直接入力録音デバイスの条件OSごとの詳細入力遅延の調整ネットワーク・ソケット経由の入力ネットワーク経由esd標準入力DATLINK/NetAudio特徴量ファイル入力プラグインによる入力拡張について4. フロントエンド処理・特徴量抽出フロントエンド処理直流成分除去スペク

  • 初音ミクとも簡単に対話できる「MMDAgent」、その詳細を聞いてきた

    ニコニコ動画で初音ミクなどのMMDMikuMikuDance)キャラクターと音声で対話できるシステム「MMDAgent」を発表した名古屋工業大学が、CEATEC会場でデモを行っている。開発を担当した名古屋工業大学国際音声技術研究所の徳田恵一教授、李晃伸准教授、大浦圭一郎特任助教に話を聞いた。 MMDAgentはこう記述する ITmedia デモを見せてもらいましたが、最初の質問の回答が出る前に別の質問をしてもうまく対応できるんですね。 徳田教授 音声対話システムでは割り込みができず、命令が終わるまでじっと待っていなければならないものが多いのですが、MMDAgentは音声認識エンジンも自分たちで開発している(李准教授のJulius)ので、システム全体を密結合して割り込みをかけたりということも自在にできます。 ITmedia 対話のシステムはどのように構築するのですか。 李准教授 スクリプト

    初音ミクとも簡単に対話できる「MMDAgent」、その詳細を聞いてきた
    gologo13
    gologo13 2010/10/07
    マルチモーダルインタラクション
  • Julius用Wikipedia言語モデル

    インターネット百科事典Wikipediaより構築した音声認識エンジンJulius用の言語モデルを作成し、公開しています。インターネット百科事典Wikipediaより構築した音声認識エンジンJulius用の言語モデル公開 Wikipedia言語モデルとは? 2009年1月22日(木)に実施された「第20回セマンティックウェブとオントロジー研究会 Wikipediaワークショップ」にて発表した『Wikipediaを利用した音声認識用言語モデルの構築および評価』(SIG-SWO-A803-11)で構築した言語モデルを公開しています。 言語モデルはインターネット百科事典Wikipediaをコーパスとして用いて構築しました。 『Wikipediaを利用した音声認識用言語モデルの構築および評価』の概要 Abstract: 研究ではインターネット百科事典のWikipediaをコーパスとして利用し,

    gologo13
    gologo13 2010/09/12
    Julius用の言語モデル Wikipediaベース 公開しているのは偉い
  • 大語彙連続音声認識システムJulius

    A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

    大語彙連続音声認識システムJulius
  • http://www.ar.media.kyoto-u.ac.jp/members/akita/intern10/

  • LEE Akinobu

    Associate Professor, LEE Akinobu (Ph.D.) Nagoya Institute of Technology, Japan [Japanese | English] Name: LEE Akinobu received the M.S. degree in Dept. of Information Science, Faculty of Engineering, Kyoto University, Japan in 1998. received the Ph.D. degree in Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University, Japan on Sept. 2000. was an assistant prof

  • 1
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy