『Miino』合成アルゴリズム詳細

 出典は記さないが、一年か二年くらい前の音声関連の公的な文書に、「実装 is all we need」というかなり攻めているセクション名がつけられていたことがあり、この著者はビートルズファンなのだろうと思ったのであるが、その後、ビートルズではなく深層学習系のほうのリスペクトタイトルだということを知った。内容としては、ソースコードを積極的に公開しようというものであった。
 だったら私も公開してみるかということで、公開する。アルゴリズムとしては、私の口頭発表の予稿の『ディジタルパターンプレイバックによる日本語子音キューの分析』を改良したものであり、リツの忘れ物や、モモに使用したものと同じである。ただし、自在に音声合成をするためのスクリプトではなく、あくまで合成音を作るためのアルゴリズムの詳細を公開するためのものである。アルゴリズム名は『Miino』である(『美濃囲い』が由来)。
 入力データとしては、その再配布のしやすさから、JVSコーパスを用いた。
 なお、このアルゴリズム音声認識研究の一つのステップとして作成したものである。しばしば、音声合成器が作りたいのだろうと勘違いされるが、作りたいのは音声認識器である(ややこしい話ではある)。
 興味がある方は、『Miino』スクリプトからダウンロードしてください。

リツの忘れ物

 数ヶ月前に、桃音モモの音源から歌声をワンフレーズ作った(モモ - IHARA Note)。
 今回はその続きとして、話者が変わっても合成できるかなと波音リツで試してみた。ただし、歌声ではなく話し声であり、「忘れ物」という単語である。手作業である(古典的な信号処理による合成。非UTAU、非VOCALOID、非機械学習、非STRAIGHT・WORLD系手法、非LPC)。
20210125_wasuremono.wav - Google ドライブ
 機械らしさはぬぐえないが、そこそこ満足のいく合成音となった。ただし、波音リツっぽさは消えてしまっている。波音リツには、「高音」「通常音」「低音」の三種類が用意されていたが、その「低音」の音源だけで合成しているせいだろうと思われる。
 ところでこれは別の目的の研究から派生したものなのであるが、そのメインであるはずの別の研究のほうに大した知見が得られず、音声合成の細かいノウハウのみがたまっていくという状況になっている。微妙である。
 なんとなく自分の中で、この音声合成の作業に、『カルボナーラプロジェクト』というそれっぽい名前を付けている。

モモ

 昨年、合成音を作って聞くということを繰り返していた。そして、その結果を8ページの予稿に記した。そのことは前回のエントリにも書いた。
 流行には乗り遅れたが(十年以上)、その合成手法で歌わせてみたらどうなるのかと、先日試してみた。桃音モモの音源にあいみょんの『ハルノヒ』の一節を歌わせた(古典的な信号処理による合成。非UTAU、非VOCALOID、非機械学習、非STRAIGHT・WORLD系手法。ビブラートなし)。

harunohi_momo.wav - Google ドライブ

 よくも悪くもなく、いたって平凡な合成音となった。調声とかをすればまともに声として聞こえるようになるのだろうか。

ディジタルパターンプレイバックによる日本語子音キューの分析

 2019年10月28日に日本音響学会の聴覚研究会で発表をしてきた。予稿のPDFや発表スライドはアップロードしないが、音声を聞きそびれた方がいるかもしれないので、合成音をアップロードしておく。また、学会の性質上、予稿やスライドに書けなかった研究動機等もここに記しておく。予稿がほしい方は、国会図書館や大学の図書館で手に入れてください。
 さて、今回の研究の始まりは「子音とは何か」という問いであった。母音と子音は何が異なるのかということである。現在、高精度の音声認識技術が出回っているものの、このことについて明確な答えは出ていない。そして私もこの題材について攻めあぐね、子音と母音の違いを探る前に、まずは子音同士の違いを探ることにした。子音同士の違いを探るという研究は旧くからあり、スペクトログラムから違いを読み取るというものと、スペクトログラムを描いて合成音を聞くというものの二つの研究方針が示されている。私は合成音を聞くという方針を採用した。そのためにスペクトログラムから音を合成する手法をまずは作らねばならないのであるが、このとき機械学習や統計的手法を使うと合成音のどこにどのような影響が出るか分からないため、古典的な信号処理のみで合成することとした。また、素片接続をするとその素片自体に子音の要素が含まれている可能性があるため、素片も用いていない。さらに、分析合成系のように残差信号やそれにあたる信号を人間の音声から抽出すると、そこにも子音の要素が含まれているかもしれないので、駆動音源も人工的に信号処理で生成した。要するに、今回の合成手法には機械学習コーパスも用いていない。合成法については予稿にて簡単に触れている。そういった合成法を用いてスペクトログラムから合成音を生成した。スペクトログラムを描く際には、目標となる子音の生成に何が効果があったのかを分かりやすくするために、なるべく矩形で近似した。また、矩形で近似して子音を生成したのちに、一つ一つ要素を取り除き、それぞれの要素の効果を確かめた。子音の弁別に影響する要素を調べるのが本研究のメインテーマである。詳細は予稿に記した。生成した合成音は、まだまだ人間の声に明瞭度はおよばないが、子音の弁別には充分な音質ではなかろうかと思う。本研究の目的は、明瞭でひずみの少ない合成音を得ることではなく、あくまで何が子音の弁別要素になっているかを探ることである。なお、最初の疑問である母音と子音の違いについてはまだ分からない。
 合成音は以下にある。

consonantCue - Google ドライブ

コンピュータ将棋の駒落ちに関する雑記、その1。

 将棋には「駒落ち」というハンデ戦があります。強い方の人が駒をいくつか使わないというルールです。初期局面は例えばこんな感じです。

 この駒落ちは、将棋の文化としては、「純粋なハンデ戦」としての側面と「指導将棋用のルール」としての側面の主に2つがあります。どちらもルールとしては変わりませんが、強い方の人(これを「上手(うわて)」という)が全力を出すか出さないかなどの違いはあります。弱い方の人(「下手(したて)」)は常に全力です。

 ここまでが前置きです。

 この駒落ちとコンピュータ将棋をからめて、これまでに雑記を5回書いたので、それにリンクを張ります。今日の日記はこのリンク先が主役です。手抜き更新ともいいます。話が進むにつれて徐々に内容が薄くなります。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/NrCybGyDi4r

 11月15日。初回です。

 コンピュータ将棋の駒落ちの論文を探してみたという話です。結論としてはそのものずばりの論文はないのではないかという手応えです。

 なお、二人の方から「コンピュータ将棋の進歩(http://www.amazon.co.jp/dp/432002799X)」に「相手モデルを考慮するゲーム木探索」という項目があると教えていただきました(現在図書館で予約中です)。

 それから、冒頭の引用に登場する「山崎さん」というのは、この記事を書いた人です(「ビジネスとしての将棋を議論した後の「感想戦」」http://gendai.ismedia.jp/articles/-/34059)。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/jQRdigxhsYX

 11月29日。

 人間が上手側で指すときの考え方について、いろいろとウェブページを読んでみたという話です。駒落ちに関するスタンスの話でもあります。結論としては、みんなばらばらのことを考えているというものでした。

 なお、「最強の駒落ち」という本は、先日、「駒落ちのはなし(http://book.mycom.co.jp/book/978-4-8399-4476-6/978-4-8399-4476-6.shtml)」という題名で再編集されたようです。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/AfZGmEqLi5b

 11月29日。前回と同じ日付ではありますが、一晩寝ているはずです。

 駒落ちによる指導についての単なる作文です。

☆☆☆

https://plus.google.com/u/0/108007043574812149024/posts/QRFvkprT4wm

 11月30日。

 真剣勝負としてのコンピュータ将棋の駒落ちについての作文です。結論としては、「下手の読み筋」という盤外の要素を考慮しなければならないのではないかということです。

☆☆☆

http://tihara.hateblo.jp/entry/2012/12/06/121428

 12月6日。少し間を置いています。また、ブログを引越ししました。

 前半は雑文です。駒落ちが好きだという個人的な趣味の話です。

 後半は、ミニチュア将棋に関する短い作文です。

☆☆☆

 今のところはここまでです。

 専門の音声の研究とは違って、このコンピュータ将棋の駒落ちは私には手におえないのではないかという気がしています。というわけで、今回のエントリが、誰かがコンピュータ将棋の駒落ちの研究を始めるきっかけになったらいいなと思っています。

 今後もコンピュータ将棋の駒落ちについては自分なりにゆっくりと考えていきたいなと思っています。ある程度溜まったらまたこのブログに書きます。自分にあまり期待していませんが。

「山中伸弥先生に、人生とiPS細胞について聞いてみた」

 今日の日記は「山中伸弥先生に、人生とiPS細胞について聞いてみた」という本の感想です。

 私のブログを読むような人なら、読んで損のない本だと思います。名著です。

 iPS細胞の研究をする前は何の研究をしていたのか、なぜiPS細胞の研究が必要だと思ったのか。山中さんがどのように研究を進める人なのか。山中さんの研究室の人たちは何をしたのか。山中さんは研究をする上でどのようなことを大切にしているのか。その他いろいろと書かれています。

 読んでいて楽しくなれる本です。山中さんの人柄や優秀さがこれでもかというほど伝わってきます。

 iPS細胞を作ろうと思ったのがどうやら奈良先端大学着任時の1999年前後。そして、初めてiPS細胞が作れたのが2005年。そこからさらに実験データを溜めて世に発表したのが2006年。わずか7年で偉業を達成しています。驚くべき速さです。

 さて、ここから私の感想です。

 そんな優秀な山中さんがこんなことを言っていることに目を奪われました。

 一九九九年十二月に奈良先端科学技術大学院大学助教授として雇ってもらって、しばらく成果が出せませんでした。奈良ではじめた研究で、最初に論文として発表できたのは二〇〇三年五月です。

 およそ3年半、業績を出すことができなかったということです(奈良以前から始めていた研究で食いつないでいたのでしょう)。

 この「3年半」という長さがとても重要な意味を持ってきます。なぜかというと、今、一般的な助教ポスドクなどの働き盛りの若手研究者の任期が3年から5年だからです。任期というのは有期雇用の雇用期限のことです。優秀な人が雇用期限の中で業績を出せずに路頭に迷うことが十分に考えられるのです。

 大学関係者ならまるで業績を出せずに大学を去っていった若手研究者たちを毎年のように見ていることと思います。でも、無能に見えたその人はもしかしたら去った翌年に偉業を成し遂げていたかもしれません。

 本を読んだだけでは正確なことは分かりませんが、今の学術界隈では山中さんの研究方針は受け入れられないのではないかと感じました。山中さんは本の中で「ビジョン」という言葉を使っていますが、まさにそのビジョンが壮大すぎるのです。私はこのようなビジョンの大きな研究は好きですが、壮大すぎるビジョンの研究は上司にとめられます。あなたの人生にとってリスクが大きいからもっと小粒の研究をしなさいと言われます。賢明な若手研究者なら野心的な研究にはまず手をつけません。

 また、山中さんの研究手法にも問題があります。あまりにも目的に対して直接的すぎるアプローチをとっているのです。結果的にはそれがiPS細胞にたどり着くための最短経路だったわけですが、常識的にはスタートからゴールまでの道のりを山中さんよりさらに細かくして、迂回する道のりを通るものです。そうでないと雇用期限までに何の成果も出せないことが十分に考えられるからです。

 ノーベル賞受賞者である山中さんの研究というのは、有期雇用が常識的である現状にはそぐわないのです。

 当時、すでに子供も奥さんもいたそうなので、山中さん自身も今のような有期雇用制度のもとでは別の研究テーマを選んだり、別の研究アプローチをとったりしたはずです。

 現実には山中さんは助教ポスドクではなく助教授(今でいう准教授)でしたし、どうやら無期限の雇用だったと見受けられるので、実力通りに偉業を成し遂げることができましたが、もしも有期雇用だったらほかの人(おそらくほかの国の人)にiPS細胞を先に作られていたと思われます。先に作られるというのは特許が取れないということにつながってきます。大きな損失です。

 そういう有期雇用の現状をなんとかするために、山中さんは自らマラソンに参加して寄付を募っているのではないかという気がしています。

 本当のところは分かりませんが、それがこの本を読んだ私の感想です。引用部分を読んだときには「まじですか」と声に出してしまいました。周りに誰もいなくてよかったです。

google翻訳の技術倫理に悩む。

 今日の日記はgoogle翻訳で日本と中国に関する要らぬ議論が出ているという話です。多少政治的な話題が入りますが、政治的な話題はメイントピックではないです。

 google翻訳で、「中国が日本を侵略した」を英語に訳しても、「日本が中国を侵略した」を英語に訳しても、どちらも "Japan invaded China"となってしまうので、これはgoogleの陰謀に違いないという話が出ています。googleが中国の味方をしているという見方です。

 統計的機械翻訳という概念を知っていれば、この誤訳は「まあそういうこともあるだろうな」で済んでしまう話ではありますが、中身をまるで知らない人にとってみれば、なるほどgoogleが意図的に日本をおとしめているように見えても仕方がないところですね。

 googleというのは、いかに意図を持たずに情報を処理するかということに全力を注いでいる会社なので、まあ意図を持つということはまずないです。意図を持たないせいでミスることは多々あります。今回も意図を持たないことによるミスです。

 細かい技術の話はしませんが、ここまでが昨日知った出来事です。

 ここで技術者・研究者の端くれとして考えてしまうのが、技術倫理の問題です。

 技術者サイドとしては、開発途中のものであってもある程度使えそうなら公開したり売り物にしたりしてしまいたいわけです。で、売り物にしても通常はそれほど深刻な問題は出なかったりします。でもときとしてこういった大きな問題に発展してしまったかもしれない不具合が出てきます。そういったときにどう対処するのか。

 正直なところとしては「そういう技術なんだから許してください、直しません」といいたいところです。例外処理というのは、技術者が嫌うことの一つです。

 それから、開発途中のものを売り物にしていいのかという問題もあります。そもそも世の中に事故発生率が0のものはないので、程度問題ですね。

 今回の件を知って、情報処理技術による事故の影響力を見誤っていたかなということは感じました。google翻訳のような情報処理技術で国際問題が起きることはほぼ0だと思ってましたが、甘かったかもしれません。

 なぜ甘く見積もっていたかというと、まだ翻訳技術(特にgoogle翻訳)には誤訳が多いということは広く知られた話だと思っていたので、翻訳技術を信頼しきってしまう人などいないと思っていたからです。もはや、信頼される技術になってきているようです。

 とはいえ、開発を続けるためには開発途中のものも売り物にせねばならないので、さて、どうするのがいいんでしょうね。

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy