Whisperは、ChatGPTで知られるOpenAIによって開発された非常に正確な音声認識モデルで、会話の音声をテキストに書き起こしてくれる。 100万時間以上のデータでトレーニングされた最新のAIモデルだが、驚くべきことにオープンソースで公開されているため、誰でも、無料で、簡単に利用することができる。 有料の音声書き起こしサービス・議事録書き起こしサービスは数多くあるが、実は無料のWhisperを使えば十分だ。 むしろ、Whisperの方が殆どの音声認識ソフトより精度が高いだろう。 とはいえ、プログラミングの知識がない人にとっては、少し利用するハードルがある。 そこで、Whisperの最新モデル(Whisper v3)を、簡単に使える小さなWebアプリにしてみたので、この記事で使い方を紹介する。 Whisperを、Google ColabというGoogleアカウントを持っている人なら誰
OpenAIが開発している「Whisper」は、あらゆる言語で人間の会話音声を文字起こしできる高性能なSpeech-to-textモデルだ。 Whisperはオープンソース化されており、モデルをダウンロードすれば、無料で、誰でも利用できる。 しかし、実用上の大きな問題がある。 それは、文字起こしには相当なGPUパワーを要し、一般的なPCでは時間がかかりすぎるという点だ。 そこで当ブログでは、Google Colaboratoryの無料のGPUインスタンスで、Whisperを利用するノートブックを公開している。しかし、Google Colabの無料プランで使えるGPUでは超高速とはいかず、数十分の音声を日常的に文字起こしするような場合、やはり実行速度がストレスになる。 そんなスピード重視だが精度を落としたくない、という人におすすめなのが、OpenAIが提供するAPIを経由して、Whisper
先日からとても久しぶりにGoogle Apps Scriptを使ってアプリケーションを開発しています。 こちらのアプリ自体は、YoutubeのsbcオープンマイクやポッドキャストのSBCast.のリンク一覧を表示するツールで、もともとはPythonでデスクトップアプリとして作っていたんですが、あまりにも取り回しがしづらいなということで、今回Webに移行しました。 今回のアプリケーション開発についてはお試しライブ配信を行っており、 Youtubeで開発の様子を見ることができるようになってます。 一応毎回一時間前後を目標に。配信を行うのは作業内容を記録に残すという意味もありますが、一日の予定時間を大幅に超過しないようにというガードレール的な役割を果たしてたりもしています。 また。やってみて気づいたのですが、言葉遣いを丁寧にしたり、独り言で作業内容を説明するクセがつくなど、今何をやろうとしている
出オチです。(タイトル先行で始める技術ブログがあってもいいじゃない) 先にデモを提示します。 自由に使っていただいて構いません。(びっくりする課金が来たら、止めますw) ここのところ、簡単に構築できる生成AIアプリづくりが個人的ブームになってます。Qiitaをナレッジの情報源としたRAGを作ってみましたので、作り方を解説します。 使用するもの 生成AI:Amazon Bedrock (Claude 3 Haiku) ドキュメント取得:Google検索 画面UI:Streamlit 処理の流れ 先日投稿した記事と同様、以下の流れを行います。 検索クエリ生成 検索 回答生成 プロンプトはClaudeの開発元のAnthripicが公開しているクックブックを参考にしました。 解説 1. 検索クエリ生成 ユーザーの質問文をもとに検索クエリを生成します。Amazon BedrockのClaude 3
こんにちは!うしじです。 無料でGPUを利用できるというGoogle Colaboratoryを使ってみました。今回は、そのファイル読み込み方法についてまとめています。 ファイルの読み込みは、下記の3つの手順で行います。Deep Learningでは、画像ファイルや音声ファイル等のサイズの大きなファイルを扱いますが、Google Colabでは、これらのファイルをGoogle Driveに置いて扱います。 Google Colabで、Google Driveをマウント Google Driveに、対象のファイルをアップロード Google Colabで、対象のファイルを読み込んで利用 Google Colabのはじめ方から順に説明していきたいと思います。 Google Colabのはじめ方 Google Colabは、無料で利用可能です。下記のリンクにアクセスすれば、使うことができます。
Do you need to digitize handwritten notes to edit or index them? Or would you like to copy text from the picture of a handwritten quote? What you need is something called an optical character recognition (OCR) tool. OCR tools analyze the handwritten or typed text in images and convert it into editable text. Some tools even have spell checkers that give additional help in the case of unrecognizable
GoogleやFacebookが支援者として計画を進めている米ロサンゼルスと香港を結ぶ太平洋横断海底ケーブルの敷設・運営について、米連邦政府がこの計画の阻止を狙っていると、The Wall Street Journal(WSJ)が米国時間8月28日に報じた。 米連邦政府側ではこの件で複数の省庁関係者が参加するTeam Telecomというレビューパネル(評価委員会)が結成されているが、同パネルの先導役を務める米司法省はこの計画に反対の考えとされ、具体的な理由については国家安全保障上の懸念ーー同事業に出資する中国企業への懸念および海底ケーブルが稼働した場合に米国と香港が直接結ばれることへの懸念が挙げられている。 問題の海底ケーブル「Pacific Light Cable Network(PLCN)」(全長約1万5000km)はすでに敷設作業がほぼ完了しており、2019年末頃に商用サービスを開
@おったんです。今回は、Google Chromeを通常通り使用しながら、メモリ使用量を圧倒的に削減するための魔法のコマンドをご紹介します。なお、今回は魔法のコマンドを使用する前と後で、どれくらいメモリ使用量が増減するか実験を行っています。今回の実験のポイントは以下の通りです。 任意のWebページを10個開いてメモリ使用量を比較する 実験に使用するWebページは無作為抽出とする 無作為抽出とはいえ、人の手によるものですから、完全なランダムではありません。実験の方法によっては多少の誤差があることをお見知り置きください。 魔法のコマンド使用前のアクティビティモニター Google Chromeは、タブ数や拡張機能が増加すればするほど「Google Chrome Helper」という、Google Chrome本体から生成された子プロセスでいっぱいになります。同プロセスの1つ1つのメモリ使用量は
例えばYahoo!ファイナンスから指定した株価の最新値を取ってくるには… =IMPORTXML(“http://stocks.finance.yahoo.co.jp/stocks/detail/?code=1570.T”,”//td[@class=’stoksPrice’]”) ってやると日経レバETFの現在値が取ってこれます。簡単。 そして、これ使うときにxPathって値を2番めの引数にしないといけないんですが、こいつを入れるのにChromeのデバッグツールから指定箇所のcopy xPathを選んでペーストしたらOK!って書いてあるサイトがとても多いんですが、これほとんど成功しないんです。というわけで、今回はその解説。 まずYahoo!ファイナンスの日経レバETFのURLを例にして… http://stocks.finance.yahoo.co.jp/stocks/detail/?cod
Google App Engine Java のアプリを作ってみました。 ちょっと前に検索エンジンの開発に触れる機会があったので、今回の手習いは、形態素解析器を GAE/J で動かすことをテーマにしました。 まずは、下記ページに書かれている 「Eclipse を使用して(または使用せずに)App Engine Java プロジェクトを作成する方法」 にしたがって開発環境を作成します。 http://code.google.com/intl/ja/appengine/docs/java/gettingstarted/introduction.html そして、ひと通りチュートリアルを試して、開発環境に慣れてしまいます。 実は、最初はチュートリアルは試さないで、他に GAE/J を紹介している記事を参考にして、必要なことだけをやろうとしたんですけど、後から考えると、先にチュートリアルを通し
Google I/O 2010ではApp Engine関連の大きな新機能発表がいくつかありましたが、「Channel API」もそのひとつ。これは「Webブラウザとのpush通信(comet)のためのAPI」です。 ついにpushできるよ! これまでApp Engineにおいてクライアントへのpushを行うには、 XMPPプロトコルを通じてのXMPPクライアントへのメッセージ送信 URLFetchを用いて外部のpushサーバー(WebSocket対応サーバーとかTornadoとか)経由でへWebブラウザにpush(例:松尾さんのwebsocket連携) のいずれかしか手段がありませんでした。 しかしXMPPクライアントの実装は容易ではなく、とりわけApp Engine側のXMPPサーバーとしてGoogle Talkサーバーを用いる場合はTLS通信が必須となり、利用可能なクライアントが極端に
Desktop Opera adds Discord, Slack and Bluesky to browser’s sidebar after community requests February 25th, 2025 We're integrating new apps into Opera's sidebar after reviewing our community requests, and testing them in the Developer stream of... Desktop Opera Air gets new language options for voice guides and subtitles, plus a progress indicator February 20th, 2025 Hey all! We recently launched t
を通す方法を探してたら、 "http://www29.atwiki.jp/android/pages/15.html">ここが見つかった。 でも、昨日書いた Eclipse の Preferences だけでは、Emulator 側は串使ってくれないのよね。。。 と思ったら、cmd.exe から adb shell でシェルに入って、setproperty コマンドで設定できると、 書かれてた。 style="MARGIN-RIGHT: 0px">けど、やってみると setproperty: not found style="MARGIN-RIGHT: 0px">と、怒られちゃう;; style="MARGIN-RIGHT: 0px">で、おもむろに ls で探してみると、/system/bin に setprop を発見! style="MARGIN-RIGHT: 0px">ということで
SNS型の英語学習サイト「iKnow!」からAPIが公開されています。 語学学習サイト「iKnow!」を提供するセレゴ・ジャパンは10月15日、iKnowのデータを使ってアプリケーションを開発できる「iKnow! API」を公開し、技術者向けの情報サイト「iKnow! Developers」を開設した。 via: セレゴ・ジャパン、「iKnow! API」を公開–技術開発者とのコミュニケーションを活性化:ニュース – CNET Japan 「iKnow! Developers」のトップはこちらですね。 API 日本語ガイド それから、API公開に合わせて賞金をかけたコンテストも開催されるとか。 iKnow! API リリースを記念して、API を利用したプログラミングコンテスト 「iKnow! API KICK OFF!」を開催します。コンテスト上位3名には賞金もご用意しました! via:
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く