一丸となって真相究明する旨の謝罪文を読んで僕は連名しましたが、その後、編集部からの連絡が途絶え、一切の連絡がなくなったまま秘宝の先月号が出て、奥付を見たらスタッフ・リストから僕の名前が削除されていました。それについての説明も求め続… https://t.co/2fwAlf2vaE
Content-Length: 262336 | pFad | http://b.hatena.ne.jp/q/VAE
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
はじめに 今回は、満を持してVAE(Variational Auto Encoder)をちゃんと理解していこうと思います。 VAEに関しては、だいたい知っていますが、MusicGenという音楽生成AIを理解しようと思った時に、関連してRVQ-GANが出てきたので、再勉強をしています。 今後、下記の流れで記事を書いていく予定です。 VAE(今回) ↓ VQ-VAE ↓ RQ-VAE,RVQ-GAN ↓ MusicGen 今回は、流れの最初であり、現在でも非常に重要な概念であるVAEに関して記事を書きます。 VAEは、Stable Diffusionの中でも中核として使われていたりと、比較的古い概念でありながら、まだまだ活躍が期待できる汎用ネットワークです。 本記事が、みなさまの理解の手助けになれば、これほど嬉しいことはございません。 参考文献 VAEの論文です。 ゼロから作るDeep Lea
しばらく前にオンライン開催された「OngaACCELシンポジウム2020」にて、吉井和佳先生による自動採譜技術研究の発表がありました。たいへんありがたいことに、あの藤本健さんの記事でピックアップしていただき、なかなか反響があったようです。 音を楽譜にする“耳コピ”はここまで来た。AI自動採譜の最前線 この記事で紹介されている成果のうち、しゃをみんはコード採譜の研究に取り組んでおります。吉井先生の発表の中で、「ミラーニューロン仮説」なる概念が紹介されたあのパートです。 「生成モデル+推論モデル=VAE」でなんかぐるぐるさせるという話をしていましたね。本記事ではこの研究成果をざっくり解説するとともに、「AI自動採譜」研究の現在地を自分なりに整理してみたいと思います。 研究内容はIEEE TASLPに掲載されています。引用してください。 Semi-supervised Neural Chord
はじめに VAE、変分オートエンコーダのVAEです。機械学習のネットワークの一つです。 これを読まれている方は、VAEについて多少以上は御存じであるという前提でお話します。 VAEとは、端的に言えば特徴を潜在変数を介した表現に起き換える手法です。 潜在変数というのは、正体不明だがその入力を決定づける何らかの変数、といった感じに理解していればOKだと思います。 表に顕在していない、その入力を決定づける何かを、まず0まわりの値を取る自然な乱数的なサムシングとして仮定し、オートエンコーダで絞ったときの最低限の特徴がその0まわりの乱数的なサムシングのみで成り立つように設計するということです。 これ以上の詳しい説明は他に譲ります。参考としてはこちらが有名かと。 Variational Autoencoder徹底解説 VAEがこんなことできるって知ってた? ところでこの画像、何かわかりますか。 実はこ
はじめに こんにちは。 前置きが思いつかないので、突然本題に入ります。 Stable Diffusionをはじめとする、Latent Diffusion Model(以下LDM)の追加学習手法は、その登場以来様々なやり方が提案されてきました。 例えば、学習データの表現を語に埋め込み、txt2imgの結果を直感的に操作するTextual Inverisionや、学習データによってDenoising U-Netのパラメータを変換するDNNを挿入するHyperNetworksはその代表的な手法です。 しかし、どの手法にも良い点と悪い点があり、こちらが決定的に良い、ということはなく、追加学習によるアウトカムの良し悪しを決定する最も大事なことは変わりません。 それは、適切な学習データを用意することです。 しかし、適切な学習データとは何か?という話はなかなか簡単に済ませられる話ではなく、モデルやタスク
はじめに 本記事は、生成AI Advent Calendar 2024の10日目の記事です。 画像生成AIを勉強する中で、確率分布をモデル化するために、対数尤度を最大化するように学習しますという話はよく聞く話だと思います。 私も、画像生成AIの一つである「拡散モデル」に関して、簡単な理論的説明の記事を書きました。 理論的説明と言いましたが、ほとんど数式を使わずに簡単に解説したので、誰でもわかりやすく読めると思います。 (下の記事は少しだけ数式が増えるので、数式的な興味がある方だけがみていただければと思います) 上記の記事でも、説明しましたが、基本的に画像生成AIでは、自然画像の確率分布を学習しており、そのために対数尤度の最大化を行い、確率分布を学習しようとします。 しかしながら、どの参考書や技術記事を見ても、(拡散モデルやVAEでは)対数尤度ではなくELBOを代わりに最大化させるようにして
はじめに 下記の記事にて,VAEの興味深い応用が実装例と共に紹介されている. zenn.dev 要するにVAEの潜在変数からアフィン変換のパラメタを分離できる話である.(各画像で個別の)アフィン変換を施した状態でモデルが訓練されるので,訓練後にその変換を外すことで,VAEは変動が正規化された画像を生成できる. 記事で紹介されていた実装はTensorFlowに基づくものだったので,本記事ではこれをPyTorchでも実装して結果を紹介するものである. 実装 以下に置いた.Enjoy! sample_vae.py · GitHub Pythonのバージョンは3.12.3である.ネットワークのアーキテクチャ(隠れユニット数など)は適当に決めている. 使い方: $ python sample_vae.py --use_bce --use_affine 実験結果 モデル訓練後,アフィン変換を外して再構
HAPPY NEW YEAR Check my exclusive models on Mage: ParagonXL / NovaXL / NovaXL Lightning / NovaXL V2 / NovaXL Pony / NovaXL Pony Lightning / RealDreamXL / RealDreamXL Lightning Recommendations for using the Hyper model: Sampler = DPM SDE++ Karras or another / 4-6+ steps CFG Scale = 1.5-2.0 (the lower the value, the more mutations, but the less contrast) I also recommend using ADetailer for generati
初学者の分かりやすさを優先するため,多少正確でない表現が混在することがあります。もし致命的な間違いがあればご指摘いただけると助かります。 はじめに 近年の深層学習ブームにおいて,VAE(変分オートエンコーダ: variational autoencoder)の果たした貢献は非常に大きいです。GAN(敵対的生成ネットワーク: generative adversarial network)やFlowと並んで,生成モデルの三大巨頭として主に教師なし学習や半教師あり学習で応用されています。 多くの書籍やWeb上の資料では「VAEはオートエンコーダの発展手法である」と説明されています。名前にもAE(オートエンコーダ)と入っているので,そう思ってしまうのは一見当然のことのように思えます。しかし,語弊を恐れずに言うと,この説明は深刻な誤解を読者に与えています。Kingmaらの原著論文を読めば,VAEがA
【PyTorch】実装有:VAEを使った継続学習異常検知手法:Continual Learning for Anomaly Detection with Variational AutoencoderPython機械学習DeepLearning深層学習PyTorch はじめに 継続学習(CL;Continual Learning)とは、動的に学習データが変化する環境下において、破壊的忘却することなくモデルの学習を可能とすることを目的とした機械学習の一分野となります. ※破壊的忘却とは、単一のネットワークを複数のタスクの学習に利用する場合、過去に学んだタスクに対する精度が、新しいタスクの学習時に悪化する事象のことを指します ICLRやICMLをはじめとしたAI関連のトップカンファレンスにおいても、CLに関する論文の投稿数は増加傾向にあり、注目されている分野といえます. 主にCLは識別モデルの
関連キーワード 人工知能 | 機械学習 テキストや画像、音声、ソースコードなど、さまざまなコンテンツを生成する人工知能(AI)技術である「生成AI」の発展には、深層学習モデルが大きく寄与している。本稿は、その中でも代表的な以下の深層学習モデルについて解説する。 GAN(Generative Adversarial Network:敵対的生成ネットワーク) VAE(Variational Auto Encoder:変分オートエンコーダー) 拡散モデル (Diffusion Model) Transformer(トランスフォーマー) NeRF(Neural Radiance Fields) 「GAN」「VAE」「Transformer」とは? 5つの深層学習モデルを解説 併せて読みたいお薦め記事 生成AIの基礎技術解説 LLMの徹底理解に欠かせない「ELIZA」「Seq2Seq」「Transf
1. ELBO型VAEのダメなところ 機械学習ゼミ @UMU____ 参考にした論文:Zhao, Shengjia, Jiaming Song, and Stefano Ermon. "Infovae: Information maximizing variational autoencoders." arXiv preprint arXiv:1706.02262 (2017). 2. [pre]VAEとは何がしたいのか • データ𝐷 = (𝑋 𝑖 , 𝑖 = 1, … , 𝑁)があります. • 𝐷から生成モデル(generative model)を作りたい. →生成モデルとは: 𝑋の母集団の確率分布𝑝 𝑅 𝑋 のこと. または,𝑝 𝑅 𝑋 からサンプリングできる装置のこと. • (有限の)𝐷からどうやって作るか→尤度最大化! • 尤度最大化とは: 𝜃でパラメ
今回は、VQ-VAE(Vector Quantised-Variational AutoEncoder)を解説したいと思います。 VQ-VAEもVAE(Variational AutoEncoder)と同じで潜在変数を使った画像などの生成モデルです。 通常のVAEと違うところは、VAEでは潜在変数\(z\)が連続的なベクトルを取りましたが、VQ-VAEでは潜在変数が離散的なベクトルを取る点です。 画像や自然言語は本来離散的なもので、例えば「犬」から「猫」へ少しずつ変化していくものでありません。 ですので、潜在変数を離散的にすることは自然であると言えます。 では、以下の論文をもとに解説していきたいと思います。 『Neural Discrete Representation Learning』 最後にTensorflowで実装していますので、そちらも参考にしていただければと思います。 PyTo
We present VideoGPT: a conceptually simple architecture for scaling likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE that learns downsampled discrete latent representations of a raw video by employing 3D convolutions and axial self-attention. A simple GPT-like architecture is then used to autoregressively model the discrete latents using spatio-temporal position encodin
また,実用上以下のような分布の仮定を置くことが多いです。潜在空間には平均が$\boldsymbol{0}$で共分散行列が単位行列の標準多次元ガウス分布を仮定します。また,エンコーダ部にもガウス分布を仮定することで目的関数を解析的に求めることができます。(以下で説明します) \begin{eqnarray} q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) &\sim& \mathcal{N}(\boldsymbol{z};\boldsymbol{\mu}_{\phi},\boldsymbol{\sigma^2}_{\phi})\\ p_{\theta}(\boldsymbol{z}) &\sim& \mathcal{N}(\boldsymbol{z};\boldsymbol{0},\boldsymbol{I}) \end{eqnarray} 大切なのは,デコー
StableDiffusion WebuiでのVAEの比較と使い方についてのノートになります。 ■VAEとは何か?VAEとは何か、については細かい説明は「Stable Diffusion VAE」とかで検索するといいでしょう。 理論とかどうでもいい、「VAEとは生成された画像の『映え』を左右する大事な概念であり仕組みである」とザックリ覚えておきましょう。 端的には「VAEがないと映えない」と乱暴に覚えていればいいです。 私みたいな文学部国文学科で民俗学と古代歌謡を専攻していたようなガチ文系でもわかるね? というところで、あなたは下記のような画像を見たことがないだろうか。 これが、VAEの設定されていない「映えてない画像」なのだ。ピンとこないようなら。 下記画像と比較していただきたい。これが適切にVAEを指定した画像になる。 Aivyやほかの投稿サイトやtwitterで目を引くほかの人の画像
深層生成モデルとしては、GAN (敵対的生成ネットワーク Generative Adversary Network)とVAE(変分オートエンコーダ Variational Auto Encoder)の2つがよく知られています。GANとVAEは、いまや、深層学習のトップスターです。 ところで、深層生成モデルのグループに括られるモデルとして、Flowベース生成モデル (Flow-based generative models)というものがあります。 2014年にGoogle Brain在籍の研究者が提出した論文(ICLR2015査読通過)で最初に提案されたモデルで、入力データのデータ生成過程(生成元の統計母分布の確率密度関数)を推定するにあたり、対数尤度の値を直接、計算可能で(変分下限を介在させない。VAEは変分下限が介在する)、近似値ではなく、対数尤度の値そのもの(exact value)を
\[\require{cancel}\] Introduction Recently I have been studying a class of generative models known as diffusion probabilistic models. These models were proposed by Sohl-Dickstein et al. in 2015 [1], however they first caught my attention last year when Ho et al. released “Denoising Diffusion Probabilistic Models” [2]. Building on [1], Ho et al. showed that a model trained with a stable variational
モデルによってVAEを使用しないと画像全体が暗い感じのイメージになっていたり、霞んでしまったりします。 VAEを入れることで、全体が明るくなったり、他の部分(身体の部位など)が少しだけ修正されたり、よりはっきりと(ぼやけがなくなる)画像生成されるようになったり、両目にハイライトが綺麗に入るようになったりしてクオリティーが向上するので非常に重要ですから、VAEは必須で入れていた方がいいです。 この記事では、クオリティーが高くなるおすすめのVAEについて紹介します。 モデルはリアル風でChilled Remix、アニメ風はAnyLoraを使用しているので参考にしてみてください。 VAEの導入方法や使い方については、以下の記事で分かりやすく解説しているので合わせて読んでみてください。
概要/AboutThis is a merged VAE that is slightly more vivid than animevae and does not bleed like kl-f8-anime2. animevaeより若干鮮やかで赤みをへらしつつWDのようににじまないマージVAEです。 Made for anime style models. アニメ調モデル向けに作成しました。 注意/NoteV1(main) and V1.1(variant) has frequent Nans errors due to NAI. If you see a NansException error, Try add --no-half-vae(causes slowdown) or --disable-nan-check(may generate black images) to th
2023/04/11 (更新日: 2023/09/29) 【彩度アップ】Stable Diffusionで必須のVAEとは?初期設定と使い方を解説! AIイラスト ※当ブログはアフィリエイト・アドセンスによる収益で運営されています。 Stable Diffusionで生成したイラストがイマイチ… なんか色が薄い感じなんだよね 他の人みたいに色鮮やかなイラストを作りたい こういったお悩みにお答えします。 Stable Diffusionでイラストを生成するうえでVAEは必須。VAEがないと、出力されるのはぼんやりと色あせたようなイラストばかり…。 この記事では Stable Diffusionで必須のVAEとは? VAEのダウンロード・初期設定(変更方法) VAEをもっと簡単に切り替える方法 必要なVAEはモデルごとに異なる もっとスムーズにイラストを生成したいなら… 生成した大量のイラスト
【比較例付き】Stable Diffusionでよく使うVAEとは?『VAE』とは、変分自己符号化器(Variational Auto-Encoder)という画像生成モデルの一種です。 要するにVAEは”Stable Diffusionでイラスト生成する時に補助してくれるツール”です。VAEの種類によって彩度や色味、シャープ感などに違いがでます。 Stable DiffusionにVAEを導入すると同じ呪文(プロンプト)でも画像の質が向上します。 下記画像をご覧ください。VAEなしで生成した画像は全体にモヤがかかっているのに対して、VAEありで生成した画像は全体がハッキリしているのが分かると思います。 このようにVAEを導入することで高画質化することができます。
はじめに Proxima Technology にて論文読みバイトをさせて頂いております、名古屋大学医学部5年の野村怜史です。大学では生命科学分野での機械学習手法の研究開発を行っています。 本記事では、AISTATS 2020 で発表された論文「GP-VAE: Deep Probabilistic Time Series Imputation」を紹介します。この論文では、欠損値を含む多変量時系列データを対象とし、欠損値補間を行うための手法 GP-VAE を提案しています。Variational autoencoder (VAE) を用い、次元削減と潜在空間におけるガウス過程の導入を両立している点がポイントです。 モチベーション 本手法は、多変量時系列データにおける欠損値補間を問題とします。ここでは、チャネル(特徴量)方向・時間方向の双方における相関関係を考慮しつつ欠損値補間を行いたい、とい
せりふに合わせて口パクする動画を作る方法を説明します。作業時間は10分ぐらいです。X(Twitter)用動画、歌詞動画作成に便利。自作キャラクタを口パクさせる方法はこちら。イラストを動かす方法。歌詞動画の例。しゃべる解説はこちら。 Youtubeで解説をみる。 他のアニメの作り方はこちら。 9VAeの質問はこちら。 内容:10分程度 「1.」で書き順アニメの準備(1) せりふの文章をいれる(2) 吹き出しをいれる(3) 9VAeにSVGキャラクタを読み込む(4、5) 口パクをつける(6) アニメGIF出力(7) Twitterに投稿(8) ■ 9VAeきゅうべえのダウンロード Android / Chromebook:9VAeきゅうべえAndroid版、9VAeDangla iPad / iPhone:9VAeDanga (Apple)、9VAePro (Apple) Win / Mac
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/q/VAE
Alternative Proxies: