Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

Content-Length: 318282 | pFad | http://b.hatena.ne.jp/gologo13/SpeechRecognition/
Speech JavaScript API Specification Editor's Draft: 22 December 2011 Editors: Bjorn Bringert, Google Inc. Satish Sampath, Google Inc. Glen Shires, Google Inc. Abstract This specification defines a JavaScript API to enable web developers to incorporate speech recognition and synthesis into their web pages. It enables developers to use scripting to generate text-to-speech output and to use speech re
ちょうど約一年前、 実用化に進む音声認識よる会議録作成(TakeITEasy2007.5.29) を掲載した。 その後、いくつかの議会で、音声認識による会議録作成支援システムが採用されつつある。 音声認識技術の現状 家庭用PCに添付されているような音声認識ソフトの音声認識技術は、話者が例文を何回か読み上げ、 ソフトに話者の発話特性を学習させてから使う特定話者を対象としたものである。 一方、会議録作成に採用されるような音声認識技術は、不特定の複数話者に対応する必要がある。 音声認識は、発話と言語を結びつける音響モデルと、確からしい言語を推定する言語モデル により、認識を実現するが、不特定話者を対象とした音声認識では、都度音響モデルを構築しながら 音声認識を行う。 これにより、特定話者用の音声認識より難易度が高い。 不特定話者を対象とした音声認識技術は、オープンソースの 連続音声認識ソフトウエ
音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす
Speech Recognition for Mobiles Devices at Google, Mike Schuster, PRICAI 2010, Lecture Notes in Artificial Intelligence volume 6230, pp. 8-10, 2010. http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/36758.pdf Abstract: At Google, we focus on making information universally accessible through many channels, including through spoken input. Since
Welcome to the Carnegie Mellon Speech Group website! Our group explores different facets of automatic speech and auditory processing. Our group has a long and interesting history, from the first working Speech Understanding System demonstration in 1972 though various first and innovations. Today the group encompasses research from signal analysis to spoken language understanding.
W3C Recommendation 16 March 2004 This version: http://www.w3.org/TR/2004/REC-speech-grammar-20040316/ Latest version: http://www.w3.org/TR/speech-grammar/ Previous version: http://www.w3.org/TR/2003/PR-speech-grammar-20031218/ Editors: Andrew Hunt, ScanSoft Scott McGlashan, Hewlett-Packard Contributors: See Acknowledgements Please refer to the errata for this document, which may include some norma
W.Ross Ashby (1957) "An Introduction to Cybernetics" (156p.) Ashby (.pdf) S.L.Tanimoto (1987) "The elements of Artificial Intelligence(an introduction using LISP)" (553p.) Tanimoto (.pdf) J.A.Freeman, D.M.Skapura (1991) "Neural Networks - Algorithms, applications and programming techniques" (414p.) Freeman (.pdf)
「何かが欠けている音声認識研究」についての話。を紹介。前も書いたことがあるかもしれないが、id:tihara さんの文章は独特のリズムととぼけた感じがあってとても好きである。 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日本の音声認識界で知らない人はいないだろうし、先日は海外で基調講演をしてきたばかりである。その先生が、実感として「止まっている」と言っており、各種客観的なデータから「止まっている」ということを読みとっていた。 私も止まっていると感じているし、そう感じている音声認識技術の研究者は多いようである。実際、20年間進歩がないと言っていた研究者もいた。古井先生の主張はどうやら6年間進歩がないということらしかったが、とにかく6年から20年くらいは進歩がないようである。 音声認識は進歩が止まっているという
12月21日から22日にかけて、東京大学で「第11回音声言語シンポジウム」という学会が開かれ、その初日に東工大の古井貞煕先生が「何かが欠けている音声認識研究」という題名で講演をした。本日の日記はその講演に対する感想である。 (ところで本日の日記は下書きの段階で一度消したのであるが、音声研究者3名が読みたいというのでゴミ箱から引っ張り出してきた次第である。その際、加筆修正をした。) 私の感じた結論を最初に書いておくと、「欠けている何か」を補うのは他分野の人か、博士課程に進学しない修士の学生なのではないかと思っている。そしてその人たちは論文ではなくブログを書くべきだと思っている。と書いてもなんのことか分からないと思うので、これから順をおって書く。 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日本の音声認識界で知
東工大の古井先生が先日のSLPで音声認識研究はここ6年停滞しているという旨の発言をしてらっしゃったようであるし,先日のASRUでも20年進歩してないという話だった 私の見解では,確かに,音声認識だけに話を絞ればそうかもしれないが,機械学習やパターン認識関係など分野全体を見渡せば,むしろかなり進歩していると思っている 私も,ちょっと前までは全然進歩ねえなと思っていたのだが,最近真剣に色々考えている内に考えが変わってきた 認識率は確かにあまり上がっていないのかもしれないが,その他の所で進歩してんじゃねえかと 古井先生の予稿に,最近は音声認識を機械学習の練習問題の様に捉えていて良くないということが書いてあったが,私はむしろどんどんと,音声認識を機械学習の一問題として定式化していくことが大事だと思う そうやって定式化をしたうえで,これまでの研究で培った音声特有の知識を盛り込んでいく,これが正解に進
音声認識技術の限界を三つの例を通して語る。 一つ目の例は「ふっかつのじゅもん」である。この「ふっかつのじゅもん」についてはおそらくはてなのキーワードリンクを読めば分かると思うので、説明はしない。要するに、五十二文字のランダムなひらがなの羅列である。 「ドラゴンクエスト2」プレイ当時小学校低学年だった私は、このふっかつのじゅもんを一文字ずつ電話で伝えてもらったことがある。電話で伝えてもらった五十二文字のふっかつのじゅもんは、正常に動作した。つまり、私はランダムなひらがなの羅列を100%の精度で聞きとったことになる。 一方、現在の音声認識機に同じことをさせたらどうなるのかということを実験してみた。簡単に実験しただけなので、精度の数値に関してはあまり信用してほしくはないのだが、音声認識機は約六割程度の精度でしか「ランダムなひらがなの羅列」を認識してくれなかった。ただこの六割という精度は私の知って
スペクトログラム:アメリカ英語の[i, u, ɑ]のF1とF2 フォルマント(英: formant、ホルマント)は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である[1]。 時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント、第二フォルマントと呼ばれ、それぞれの周波数をF1, F2と表記する[2]。また経時的に変化する場合もある。 声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。 フォルマントは発声過程における調音で主に付与される。すなわち比較的平坦な周波
音声認識 音声認識 † 2008年度「音声認識」の公式ホームページです。ここには、 第1回:音声認識の概要 資料:ASR-1.pptASR-1.pdf 第2回:音声特徴量 資料:ASR-2-1.pptASR-2-2.pptASR-2-1.pdfASR-2-2.pdf 第3回:音響モデル 資料:ASR-3-1.pptASR-3-2.pptASR-3-3.pptASR-3-1.pdfASR-3-2.pdfASR-3-3.pdf 第4回:音響モデル2 資料:ASR-4-1.pptASR-4-2.pptASR-4-1.pdfASR-4-2.pdf 第5回:音響モデル3 資料:ASR-5-1.pptASR-5-2.pptASR-5-1.pdfASR-5-2.pdf 第6回:話者適応、認識辞書 資料:ASR-6.pptASR-6.pdf 第7回:言語モデル1 資料:ASR-7.pptASR-7.pdf
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/gologo13/SpeechRecognition/
Alternative Proxies: