ディープラーニング

Representing images on multiple layers of abstraction in deep learning — ディープラーニングにおける抽出の多層レイヤーによる画像表示^[1]。

ディープラーニング（英: deep learning）または深層学習（しんそうがくしゅう）とは、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことである^[2]^{[注釈 1]}。深層学習は複数の独立した機械学習手法の総称であり、その中でも最も普及した手法は、（狭義には4層以上^[3]^{[注釈 2]}の）多層の人工ニューラルネットワーク（ディープニューラルネットワーク、英: deep neural network; DNN）による機械学習手法である^[4]。

要素技術としてはバックプロパゲーションなど、20世紀のうちに開発されていたものの、4層以上の深層ニューラルネットについて、局所最適解や勾配消失などの技術的な問題によって十分学習させられず、性能も芳しくなかった。しかし、ジェフリー・ヒントンの研究チームが2006年に多層ニューラルネットワークを用いたオートエンコーダを発表したことをきっかけに、多層ニューラルネットワークの学習の研究が進展し、同時に学習に必要な計算機の能力向上とインターネットの発展による学習データの流通が相まって、十分に学習させられるようになった。その結果、音声・画像・自然言語を対象とする諸問題に対して他の手法を圧倒する高い性能を示し^[5]、2000年代末から2010年代にかけて急速に普及した^[3]^[6]^[7]^{[注釈 3]}。

深層学習が機械学習分野に与えた影響は非常に大きく、2015年に発表された拡散モデルに代表される生成モデルの多くに組み込まれたほか、2017年に発表されたTransformerをはじめとする大規模言語モデルなどの基盤にもなっている^[8]。しかし、深層学習によって行われたパターン認識がどのような根拠に基づいているかを解析することは難しく、ブラックボックス問題を引き起こしている^[9]。また、開発競争がきわめて激しく、最新の手法が数ヶ月で古くなるような事もあり得る状況であるため、常に最先端の技術を追いかけ続けることは容易ではない^[10]^{[注釈 4]}。

概要

ディープラーニングは、学習に用いる具体的な数学的概念はどうであれ、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法を指す^[2]^{[注釈 1]}。21世紀に入って、オートエンコーダを始めとするジェフリー・ヒントンらによる多層ニューラルネットワークによる学習の研究や、学習に必要な計算機の能力向上、および、インターネットの発展による学習データの流通により、多層ニューラルネットによる手法が最初に確立された。その結果、音声・画像・自然言語を対象とする諸問題に対し、他の手法を圧倒する高い性能を示し^[5]、2010年代に普及した^[3]。結果として（狭義には4層以上^[3]^{[注釈 5]}の）多層の人工ニューラルネットワーク（ディープニューラルネットワーク、英: deep neural network; DNN）による機械学習手法^[4]が広く知られるようになったが、ニューラルネットワーク以外でも深層学習は構成可能であり、現在はニューラルネットワークよりも抽象的な深層学習の数学的概念が模索されている最中にある^[7]。ビジネスの現場では多層ニューラルネットワークの応用が盛んであり、「ディープラーニング=ニューラルネットワーク」などと解釈される事が多いが、学界ではニューラルネットワーク以外の手法も含めた抽象的な概念として説明される^[7]^{[注釈 3]}。

歴史

ディープラーニングはニューラルネットワークの分野で最初に実現されたため、歴史はニューラルネットワークの発展から順次記載する。

前史

ニューラルネットワークの構成要素となるパーセプトロンが考案されたのは1957年であるが、計算機の性能の大幅な不足や、2層からなる単純パーセプトロンでは排他的論理和の認識ができないなどの欠点があったため、研究が大きく続けられることはなかった^[11]。その後、1980年代より、排他的論理和の問題を扱うことができる3層からなる多層パーセプトロンの学習を可能にするバックプロパゲーションが開発されたが、非効率的なメカニズムや、動詞の過去形など複雑な認識ができない（そもそも3層ニューラルネットで任意関数は全て近似可能であり、大脳新皮質がなぜ3層以上存在するのかが不明であった）などの要因により、1990年代後半には沈静化した^[12]^[13]。

ネオコグニトロン（1979年）

ディープラーニングのような多層ニューラルネットワークを志向する先駆的研究として、日本の福島邦彦（NHK放送技術研究所、その後大阪大学基礎工学部生物工学科）によって1979年に発表されたネオコグニトロン^[14]^[15]が挙げられる^[16]^[17]。ネオコグニトロンには自己組織化機能があり、自ら学習することによってパターン認識能力を獲得（概念の形成）していく。応用例として、福島らは手書き文字データベース（ビッグデータ）から自己学習によって手書き文字認識能力（各文字の概念）が獲得されることを実証した。しかし、当時は「手書き文字認識方式の一つ」と誤解され、その重要性についての認識が世間に広がらなかった^[18]。この当時はネオコグニトロンを検証する上ではデジタルコンピュータが貧弱過ぎたため、ソフトウェアでの検証が不可能であり、回路素子を繋ぎ合わせてネオコグニトロンを実装して検証が行われた。学習方法に誤差逆伝播法ではなくadd-if silentを使用している以外は畳み込みニューラルネットワーク（CNN）と同じであり、時代を考えると非常に先見性があった。

LeNet-5（1998年）

1998年には畳み込みニューラルネットワーク（CNN）の直系の元祖となるLeNet-5（末尾の数字は5層であることを表す）が提案された。論文の中で、ニューラルネットワークの層構造を板状の図形で図示する方法が初めて用いられた^[19]。

多層ニューラルネットワークの実現（2006 - 2012年）

初期のディープラーニングはジェフリー・ヒントンによる貢献が大きいため、ニューラルネットワークによる理論実証の過程を記載する^[20]。

単層パーセプトロンの「線型分離不可能な問題」を解けない、という限界は、多層パーセプトロンの機械学習がバックプロパゲーションにより実現されたことで、ある程度は解決された。しかし、層数を増やした多層ニューラルネットの学習は、局所最適解や勾配消失などの技術的な問題によって、十分に学習させられず、性能も芳しくないとして、1990年代を中心とした時期には研究なども退潮気味にあった。また、これら理論の不備以前の問題として、発展的な機械学習を行うにはコンピュータの計算性能が大幅に不足しており、大量のデータの入手も難しかったため、研究の大きな障害になっていた。しかし、インターネットが広く普及し、コンピュータの性能が向上した2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダ（自己符号化器）の深層化に成功^{[注釈 6]}し、再び注目を集めるようになった。この時発明された手法は積層自己符号化器（スタックトオートエンコーダ）と呼ばれた。この際、発表した論文から、これまでの多層ニューラルネットよりもさらに深いネットワーク構造を意味する、ディープネットワークの用語が定着した。元々はジェフリー・ヒントンらの開発したディープネットワークは層が直列された単純な構造をしていたが、現在のアルゴリズムは複数の分岐やループのある複雑なグラフ構造を持つ。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたライブラリも公開されている。2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがAlexNetによって従来の手法（エラー率26%）に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。その後もILSVRCでは毎年上位はディープラーニングを使ったチームが占めるようになり、エラー率は2014年時点で5%程度にまで改善した^[21]。

学習モデルの複雑化・数学的抽象化の時代（2012年 - 現在）

コンピュータのハード性能の急激な進歩、インターネット普及によるデータ収集の容易化、CPUよりも単純な演算の並列処理に優れたGPUの低価格化、また、それらの計算資源の拡張を礎として、画像処理におけるディープラーニングの有用性が競技会で世界的に認知された2012年頃からは急速に研究が活発となり、第三次人工知能ブームが到来したとされている^[22]。これ以後は様々なアプリに人工知能が組み込まれ、ユーザーに最適な回答を返す事が出来るようになって行った。

2016年、グーグル翻訳はディープラーニングを利用して、従来の統計的翻訳から、ほぼ人間レベルの翻訳へと変貌を遂げた^[23]。その結果、人間にとって機械翻訳は日常生活での常識となり、計算神経科学などを研究する学者が揺るがされる時代となった^[24]。2022年には、Stable Diffusionなどにおけるディープラーニングの利用がPixivのような画像投稿サイトを変革し^[25]、ディープラーニングを利用したChatGPTなどが世界に革命をもたらした^[26]。

利用

ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。国家の経済成長を大きく左右する技術であるため、国家間の研究開発競争は経済戦争を引き起こしている。

GoogleのAndroid 4.3^[27]は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた^[28]。2012年、スタンフォード大学との共同研究であるグーグル・ブレイン（英語版）は、1,000のサーバーの16,000のコアを使い、3日間で猫の画像に反応するニューラルネットワークを構築したと発表して話題となった^[29]^[30]。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている^[31]。GoogleLeNetと呼ばれるチームによるトロント大学との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、コンピュータビジョンと自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの^[32]^[33]^[34]である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した（22層）^[35]。2016年1月、AlphaGoと呼ばれるシステムが中国系フランス人のヨーロッパ囲碁王者である樊麾と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁はチェスよりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いることができるシステムを使っている点に注目が集まった^[36]^[37]。2016年から2017年にかけては、いずれも世界トップクラスの棋士である韓国の李世乭と中国の柯潔と対戦し、2016年の李世ドルとの5番勝負では4勝1敗、2017年の柯潔との3番勝負では3連勝を収めた^[38]^[39]。

Facebookは、ユーザーがアップロードした画像を、ディープラーニングによって認識させ、何が写っているかの判別精度を向上させている^[28]。また、人工知能研究ラボを2013年に立ち上げ^[40]、その成果としてディープラーニング開発環境を2015年1月16日にオープンソースで公開した。これは、GPU環境において、従来のコードの23.5倍の速度を実現しており^[41]、ディープラーニングの研究開発の促進が期待されている^[42]。

ニューラルネットワークによるディープラーニングを使ったニューラル機械翻訳（NMT）が登場したことで、翻訳の品質が大幅に向上した^[43]。

エンターテインメントにおいても、NPCのAIはメタ解析によるディープラーニングが主流となり^[44]、ゲームデザインには人間とAIの協調が求められるようになった^[45]。また、自動運転車の障害物センサー^[46]や医療にも使われている^[47]。

利点が多い一方で、倫理^{[要曖昧さ回避]}的な問題や犯罪も発生している。例えば、中国では天網に代表されるようにディープラーニングが国民に対する当局の監視強化を目的に急速に普及しており^[48]^[49]^[50]、世界のディープラーニング用サーバーの4分の3を占めているとされる^[51]。米国政府によれば2013年からディープラーニングに関する論文数では中国が米国を超えて世界一となっている^[52]。ヒントンらと並んで「ディープラーニングの父」と呼ばれているヨシュア・ベンジオは中国が市民の監視や独裁政治の強化に人工知能を利用していることに警鐘を鳴らした^[53]^[54]。また、ディープフェイクという、本物と区別の付かない偽画像生成技術が登場し、特定の有名人の顔や声を使って事実と異なる発言やポルノ（フェイクポルノと呼ばれる）を収めた動画が多数流通するようになってからは、重大な名誉毀損や人格権の侵害の可能性があることから、警察が作成者やサイト運営者の摘発に動いている^[55]。さらに、偽の画像や音声を用いて様々な無人制御システムを撹乱する攻撃が想定されるため、被害を未然に防ぐ観点から対策が行われている^[56]。

日常生活では、ディープフェイクなどの用途で有名であるが、学術分野では医学や生物学の分野に革命をもたらしている^[57]。

ネットワークモデル

ネットワークモデルは現在も盛んに研究されており、毎年新しいものが提案されている。

畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (Convolutional Neural Networks: CNN) とは、全結合していない順伝播型ニューラルネットワークの一種。特に2次元の畳込みニューラルネットワークは人間の視覚野のニューロンの結合と似たニューラルネットワークであり、人間の認知とよく似た学習が行われることが期待される。結合がスパース（疎）であるため、全結合しているニューラルネットワークに比べて学習が高速である。

1979年に福島邦彦が発表したネオコグニトロンから発展し、1988年にHomma Toshiteruらが音素の認識に^[58]、1989年にYann LeCunらが文字画像の認識に使用し^[59]^[60]、1998年にLeCunらが発表したLeNet-5へと続き、2012年にILSVRCでの物体カテゴリ認識で優勝したAlexNetも深層畳み込みニューラルネットワークである^[61]。ネオコグニトロンの時から深層であったが、近年は深層であることを強調するため、深層が頭につき、深層畳み込みニューラルネットワークと呼ばれることもある。自然言語処理に対する応用もなされはじめた。

スタックドオートエンコーダ

まず3層のオートエンコーダで学習を行い、学習が完了したら次の層（4層目）をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。事前学習とも呼ばれる。類似技術にディープビリーフネットワーク、ディープボルツマンマシンなどがある。

Residual network

入力データを出力に変える変換を学習するのではなく、残差^{[要曖昧さ回避]}を学習する。通常の多層ニューラルネットより勾配消失がおきにくく、はるかに多層化できる。実験的には1000層まで学習されたものもある。欠点としては、入力次元数と出力次元数を変えることができない。

敵対的生成ネットワーク

2つのネットワークが相反した目的のもとに学習するネットワークモデル。Discriminatorが損失関数の役目を担う。二乗誤差最小化などでは、ピークが一つしか無いことを仮定しているが、discriminatorはニューラルネットであるのでピークを複数持つ確率分布を近似でき、より一般の確率分布を扱うことができる。

Transformer

Self-Attention機構（自己注意機構）を利用したモデルである^[62]。再帰型ニューラルネットワークの代替として考案された^[62]。

MLP-mixer

従来のニューラルネットワークとは異なり、本来ディープラーニングには使われないはずの純粋な多層パーセプトロンのみで構成された画像認識モデルである^[63]。画像を多数のパッチに分け、それらのパッチごとにパラメータ共有された層とパッチ間での変換を行う層を用意することで大幅な精度の向上がされている。欠点としては、固定されたサイズの画像しか入力が出来ない。

ボルツマンマシン

統計的な変動をもちいたホップフィールド・ネットワークの一種。

制限ボルツマンマシン

同一層間では接続を持たないボルツマンマシン。

回帰型ニューラルネットワーク

回帰型ニューラルネットワーク（Recurrent Neural Network：RNN）とは、有向閉路を持つニューラルネットワークのこと。それ以前の入力によって変化する状態を保持する（オートマトン）。動画像、音声、言語など、入力データの順序によって出力が変わる場合に有効である。また、順伝播型ニューラルネットワークでは、近似できるピーク数が中間層の素子数に依存するのに対して、回帰型ニューラルネットワークでは無限の周期性を持つ関数を近似することが可能である。

1980年代から研究が始まり、1982年に発表されたホップフィールド・ネットワークが初期の研究。その後ElmanネットワークやJordanネットワークが発表され、1997年にS. HochreiterおよびJ. SchmidhuberらがLSTMネットワーク（長・短期記憶、Long short-term memory）を発表した。

特有の問題

勾配消失問題

確率的勾配法は誤差から勾配を計算して中間層の重みを修正するが、シグモイド関数などは見てすぐにわかる通り、勾配が0に近い領域が存在する。偶然その領域に進むと勾配が0に近くなり、重みがほぼ修正されなくなる。多層NNでは一か所でも勾配が0に近い層が存在すると、それより下の層の勾配も全て0に近くなるため、確率的には層数が増えるほど学習が難しくなる。詳しくはバックプロパゲーション、活性化関数も参照のこと。

過学習

トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。

局所最適解へのトラップ

学習が、大域的な最適解ではなく、局所的には適した解へと収束し、抜け出せなくなること。

テクニック

データ拡張

深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定（モデル化）ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。

活性化関数

古くからニューラルネットワークにおいてはシグモイド関数がよく使われていたが、勾配消失問題などにより、近年では別の関数が使われるようになった。詳しくは活性化関数を参照。

ReLU

ReLU（rectified linear unit ランプ関数とも呼ばれる）

f(x)=\max(0,x)

出力が0.0 - 1.0に規格化されないため勾配消失問題が起きにくく、またシグモイド関数に比べると単純であるために計算量が小さく学習が速く進む等のメリットがある^[64]。

maxout

複数の次元の最大値を出力する関数。入力値のどれか一つでも大きい値を持っていれば良いので勾配消失問題が生じる確率が極めて低くなる。CNNのプーリングと同じ計算である。高性能と言われるが、性質上、次元が減少する。特徴選択も兼ねていると言える。

ドロップアウト

ドロップアウト^{[要曖昧さ回避]}はランダムに任意のニューロン（次元）を何割か無視してしまう技術である。入力データを増やせずとも、次元を減らすことで解の有意性を上げることができる。ドロップアウトして得た学習結果は、テスト時には同時に使用し、結果は平均して用いる。これはRandom forestと同様、検出率の低い識別器でも並列化することで信頼度を上げることができるためである。

スパースコーディング

ラッソ回帰とも呼ばれる。辞書行列と係数行列の内積（線形結合）で入力データ(列ベクトル)を近似するとき、係数行列は疎行列（非零の要素が僅かしかない行列）になる。L1正則化のこと。

バッチ正則化

バッチ学習を行う際に、バッチ正則化層を設け、白色化 (入力データを平均 0、分散 1 に正則化) する。従来は、内部共変量シフト (internal covariance shift) を抑えることで、学習が効率的に進むとされていたが、現在では単に内部共変量シフトだけによるものではないと考えられている^[65]^[66]^[67]。

量子化

深層学習における量子化（英: quantization）は活性化値の連続-離散変換である。

情報科学一般における量子化と同様に、連続値を離散値へ変換・近似する。深層学習では誤差逆伝播に勾配連続性が必要であるため、中間層で量子化を採用するには何らかの工夫が必要である。また、大きな入力セットのサンプル値データを小さな出力セットのサンプル値データに変換することでもある^[68]。

以下は勾配生成アルゴリズムの一例である：

表. 量子化勾配生成手法
手法名
英: straight-through estimator, STE
英: Gumbel-Softmax

以下は量子化を深層学習モデルへ組み込む技法の一例である：

表. 量子化手法
手法名	量子化単位	勾配	利用モデル名	原論文
ベクトル量子化, VQ 英: vector quantization	ベクトル	STE^[69]	VQ-VAE	^[70]
英: product quantization ^[71]	サブベクトル	softmax or STE^[72]		^[73]
英: residual vector quantization, RVQ	ベクトル		SoundStream
英: finite scalar quantization, FSQ ^[74]	スカラー	STE^[75]		^[76]

ミニバッチ法

蒸留

事前学習 (Pre-training)

AdaGrad

Adam

ライブラリ

Caffe - Python, C++
torch - Lua
Theano - Python。関数型言語。並列化に特化し、GPUのコードが自動的に生成される。
Pylearn2 - Python
Blocks - Python
Keras - Python。TensorFlowのラッパー。Theanoでも動作可能。
Lasagne - Python
deepy - Python
cuDNN - NVIDIAが提供するCUDAベース (GPUベース) のDNN用プリミティブライブラリ。
Deeplearning4j - Java、Scalaが使用されている。
EBlearn - C++で書かれているCNN用ライブラリ。
cuda-convnet - C++/CUDA実装のCNN。基本的な機能はEBlearnと同じ。
Chainer - Python
TensorFlow - Python, C++
ReNom - Python
PyTorch
Microsoft Cognitive Toolkit - Python, C++, C#。以前はCNTKと呼ばれていた。
DyNet - Python, C++

脚注

[脚注の使い方]

注釈

^ ^a ^b ディープラーニング(深層学習)の大家として世界的に知られるIan Goodfellow，Yoshua Bengio，Aaron Courvilleが著した"Deep Learning"という教科書のIntroductionの第4パラグラフ（pp.1-2）におけるディープラーニングの定義では、ニューラルネットワークについて全く触れられておらず、「概念の階層により、コンピューターは、単純な概念から複雑な概念を構築することにより、複雑な概念を学習できます。これらの概念がどのように相互に構築されているかを示すグラフを描くと、グラフは深く、多くの層があります。このため、このアプローチをAIディープラーニングと呼びます。」と概念の階層構造により定義している。
^ 2層なら単純パーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層（階層型）ニューラルネットと呼ぶ。
^ ^a ^b 学界は人工知能が有用であればどのような実現方法でも良いとの認識である^[要出典]。従って、学界は計算機における人間の脳の再現だけを目指しているわけではない^[要出典]。また、ニューラルネットワークは人間の脳神経のネットワーク^{[要曖昧さ回避]}構造に着想を得て研究が始められただけであり^[要出典]、その後は一部の研究事例を除いて人間の脳とは無関係に多様な方法で理論拡張が行われ続けている^[要出典]。
^ 技術開発のスピードが速すぎて学会の査読が追いつかないため、arXivなどのプレプリントサービスに掲載された論文が参考文献として挙げられる場合も多い。
^ 2層なら単純パーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層（階層型）ニューラルネットと呼ぶ。
^ 積層自己符号化器（スタックドオートエンコーダ）と呼ばれる手法

出典

^ Schulz, Hannes; Behnke, Sven (1 November 2012). “Deep Learning” (英語). KI - Künstliche Intelligenz 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987.
^ ^a ^b Ian Goodfellow and Yoshua Bengio and Aaron Courville. “Deep Learning” (English). マサチューセッツ工科大学出版局. 2021年2月4日閲覧。
^ ^a ^b ^c ^d 麻生英樹他、監修: 人工知能学会「深層学習手法の全体像」『深層学習』近代科学社、2015年、xiv頁。ISBN 9784764904873。
^ ^a ^b 深層学習人工知能学会深層学習手法の全体像xiii
^ ^a ^b 岡谷貴之深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021
^ 「深層学習の原理に迫る数学の挑戦」今泉允聡岩波書店 2021/04/16 試し読み https://www.iwanami.co.jp/moreinfo/tachiyomi/0297030.pdf https://www.iwanami.co.jp/book/b570597.html 深層学習の汎化誤差のための近似性能と複雑性解析 2019/11/22 IBIS企画セッション今泉允聡東京大学（統計数理研究所 / 理化学研究所 / JSTさきがけ）https://ibisml.org/ibis2019/files/2019/11/slide_imaizumi.pdf https://sites.google.com/view/mimaizumi/home_JP
^ ^a ^b ^c Ian Goodfellow and Yoshua Bengio and Aaron Courville. “Deep Learning”. An MIT Press book. p. 14. 2021年2月3日閲覧。
^ “ChatGPTを賢くする呪文 - 日本経済新聞”. www.nikkei.com. 2023年5月7日閲覧。
^ “人間が深層学習のAIを理解できないのには、理由がある：朝日新聞GLOBE＋”. 朝日新聞GLOBE＋. 2022年8月28日閲覧。
^ “加藤邦人 | 岐阜大学人工知能研究推進センター”. www1.gifu-u.ac.jp. 2023年5月7日閲覧。
^ 小林雅一 2013, p. 92.
^ “ディープラーニングはビジネスにどう使えるか?”. WirelessWire News (2015年5月20日). 2015年5月21日閲覧。
^ 小林雅一 2013, p. 94.
^ “ネオコグニトロン”. 2015年6月30日閲覧。
^ “位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---”. 電子通信学会論文誌A (1979年10月1日). 2017年8月16日閲覧。
^ “「ネオコグニトロンはまだ進化する」、画像向けディープラーニング「CNN」の父に聞く” (2015年5月22日). 2015年9月3日閲覧。
^ “［CEDEC 2015］画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する”. 4gamer (2015年8月29日). 2015年9月1日閲覧。
^ 小林雅一 2015, p. 107.
^ “MNIST Demos on Yann LeCun's website”. yann.lecun.com. 2021年3月31日閲覧。 / 1989.02 サイエンス社ニューロコンピューター読本 pp.32 の図に板状を用いた同類の記述がある。
^ Tappert, Charles C. (2019-12). “Who Is the Father of Deep Learning?”. 2019 International Conference on Computational Science and Computational Intelligence (CSCI): 343–348. doi:10.1109/CSCI49370.2019.00067.
^ 浅川直輝 (2014年10月1日). “［脳に挑む人工知能1］驚異のディープラーニング、その原型は日本人が開発”. 日経 xTECH（クロステック）. 2019年12月20日閲覧。
^ “【第四回】今、最も熱いディープラーニングを体験してみよう（2ページ）”. エンタープライズ (2015年1月14日). 2015年5月30日閲覧。
^ “A Neural Network for Machine Translation, at Production Scale” (英語). ai.googleblog.com (2016年9月27日). 2023年7月30日閲覧。
^ “4-9 Surviving in the New Information Economy - Adopting a Learning Lifestyle”. Coursera. 2023年7月30日閲覧。
^ “Startup Stability Releases New AI Model For Stable Diffusion as Deep-Fake Concerns Rise” (英語). Bloomberg.com. (2023年6月22日) 2023年7月30日閲覧。
^ “ChatGPT — Release Notes | OpenAI Help Center” (英語). help.openai.com. 2023年7月30日閲覧。
^ “Googleのディープラーニングはレトロゲームを自分で学習してプレイする”. ascii×デジタル (2015年3月21日). 2015年5月21日閲覧。
^ ^a ^b 小林雅一 2015, p. 29.
^ 小林雅一 2015, p. 28.
^ “グーグルが開発を進めている、写真を「自動的に説明する」技術”. wired (2014年11月20日). 2015年5月18日閲覧。
^ “ディープラーニングというGPUの新市場”. PC Watch (2014年4月17日). 2015年5月21日閲覧。
^ “画像をアップすると自動で説明文を生成してくれる「Images to Text」”. GIGAZINE (2014年12月13日). 2015年5月21日閲覧。
^ “グーグルが開発を進めている、写真を「自動的に説明する」技術”. WIRED (2014年11月20日). 2015年5月30日閲覧。
^ “人工知能は世界をもっと認識できる：グーグルのコンピューターヴィジョン”. WIRED (2014年9月9日). 2015年5月30日閲覧。
^ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから
^ ITTOUSAI (2016年1月28日). “Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達”. Engadget. 2016年1月28日時点のオリジナルよりアーカイブ。2016年3月2日閲覧。
^ CADE METZ (2016年1月31日). “「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた”. WIRED. 2016年3月2日閲覧。
^ “＜囲碁：人間ｖｓ人工知能＞李世ドル「必ず勝ちたかったが、３連敗した時より今日のほうが辛かった」”. 中央日報. (2016年3月16日) 2018年2月7日閲覧。
^ “AlphaGoが最終戦も勝利で3連勝”. 日本棋院 (2017年5月27日). 2018年2月7日閲覧。
^ “Facebook、人工知能研究ラボを立ち上げ”. ITMedia News (2013年12月10日). 2015年5月22日閲覧。
^ “Facebook、ディープラーニング開発環境「Torch」向けモジュールをオープンソースで公開”. ITMedia News (2015年1月19日). 2015年5月22日閲覧。
^ “Facebook、ディープラーニング技術をオープンソースに”. ZDNet Japan (2015年1月19日). 2015年5月22日閲覧。
^ 中澤敏明、機械翻訳の新しいパラダイム：ニューラル機械翻訳の原理『情報管理』 2017年 60巻 5号 p.299-306, doi:10.1241/johokanri.60.299
^ Lu, Yunlong; Li, Wenxin (2022-08-12). “Techniques and Paradigms in Modern Game AI Systems” (英語). Algorithms 15 (8): 282. doi:10.3390/a15080282. ISSN 1999-4893.
^ M. Wittmann, Benedikt Morschheuser (2022). “What do games teach us about designing effective human-AI cooperation? - A systematic literature review and thematic synthesis on design patterns of non-player characters”. GamiFIN Conference.
^ “人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan”. マイナビニュース (2015年5月20日). 2015年5月26日閲覧。
^ Iizuka, Tomomichi; Fukasawa, Makoto; Kameyama, Masashi (2019-06-20). “Deep-learning-based imaging-classification identified cingulate island sign in dementia with Lewy bodies” (英語). Scientific Reports 9 (1). doi:10.1038/s41598-019-45415-5. ISSN 2045-2322. PMC 6586613. PMID 31222138.
^ “顔認証で市民監視、中国の新たなAIツール”. ウォール・ストリート・ジャーナル. (2017年6月30日) 2018年2月7日閲覧。
^ “アングル：中国の顔認証技術に活況投資、監視用の需要も後押し”. ロイター. (2017年11月18日) 2018年2月7日閲覧。
^ “中国の「超ＡＩ監視社会」－－新疆ウイグル自治区では“体内”まで監視！”. 集英社. (2018年2月3日) 2018年2月7日閲覧。
^ “中国、新疆ウイグル自治区で顔認識システム運用をテスト。指定地域から300m以上離れると当局に警告”. Engadget. (2018年1月20日). オリジナルの2020年3月13日時点におけるアーカイブ。 2018年2月7日閲覧。
^ “中国が「AI超大国」になる動きは、もはや誰にも止められない”. WIRED. (2017年8月16日) 2018年2月7日閲覧。
^ “「深層学習の父」、中国のＡＩ利用に警鐘”. Sankei Biz. (2019年4月1日) 2019年4月5日閲覧。
^ “Deep Learning ‘Godfather’ Bengio Worries About China's Use of AI”. ブルームバーグ. (2019年2月2日) 2019年4月5日閲覧。
^ “AI使った偽ポルノ「被害に対する原状回復は絶望的なほど困難」“ディープフェイク”技術の問題点とは：中日スポーツ・東京中日スポーツ”. 中日スポーツ・東京中日スポーツ. 2021年3月31日閲覧。
^ “AIだって騙される？AIの抱える弱点とは一体何か｜セキュリティ通信”. セキュリティ通信. 2021年4月1日閲覧。
^ Mahmud, Mufti; Kaiser, M. Shamim; McGinnity, T. Martin; Hussain, Amir (2021-01-01). “Deep Learning in Mining Biological Data” (英語). Cognitive Computation 13 (1): 1–33. doi:10.1007/s12559-020-09773-x. ISSN 1866-9964. PMC 7783296. PMID 33425045.
^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). “An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification”. Advances in Neural Information Processing Systems 1: 31–40.
^ Yann Le Cun (June 1989). Generalization and Network Design Strategies.
^ Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). “Backpropagation applied to handwritten zip code recognition”. Neural Computation 1 (4): 541-551.
^ Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25: 1097-1105.
^ ^a ^b Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). “Attention Is All You Need”. arXiv:1706.03762 [cs]. https://arxiv.org/abs/1706.03762.
^ Tolstikhin, Ilya; Houlsby, Neil; Kolesnikov, Alexander; Beyer, Lucas; Zhai, Xiaohua; Unterthiner, Thomas; Yung, Jessica; Steiner, Andreas et al. (2021-06-11). “MLP-Mixer: An all-MLP Architecture for Vision”. arXiv:2105.01601 [cs]. https://arxiv.org/abs/2105.01601.
^ 岡谷貴之深層学習 p11
^ [1806.02375]バッチ正規化について
^ Understanding Batch Normalization · Issue #942 · arXivTimes/arXivTimes · GitHub
^ 論文紹介 Understanding Batch Normalization - じんべえざめのノート
^ Chang, Shih Yu; Wu, Hsiao-Chun (2022-08). “Tensor Quantization: High-Dimensional Data Compression”. IEEE Transactions on Circuits and Systems for Video Technology 32 (8): 5566–5580. doi:10.1109/TCSVT.2022.3145341. ISSN 1051-8215.
^ "we approximate the gradient similar to the straight-through estimator" Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.
^ Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.
^ "In this work, we propose differentiable product quantization" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
^ "The second instantiation of DPQ ... pass the gradient straight-through" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
^ Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
^ "Each (scalar) entry in the representation z is independently quantized to the nearest integer by rounding ... bounding the range of the quantizer ... We call this approach finite scalar quantization (FSQ)" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.
^ "To get gradients through the rounding operation, we use the STE" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.
^ Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

参考文献

小林雅一『AIの衝撃人工知能は人類の敵か』（第1刷）講談社〈講談社現代新書〉、2015年3月20日。ISBN 978-4-06-288307-8。
小林雅一『クラウドからAIへアップル、グーグル、フェイスブックの次なる主戦場』（第1刷）朝日新聞出版〈朝日新書〉、2013年7月30日。ISBN 978-4-02-273515-7。
松尾豊『人工知能は人間を超えるかディープラーニングの先にあるもの』（第1刷）KADOKAWA〈角川EPUB選書〉、2015年3月11日。ISBN 978-4040800202。
園田翔：「深層ニューラルネットの積分表現理論」、早稲田大学博士論文（2017）。
園田翔：「ニューラルネットの積分表現理論」

外部リンク

『ディープラーニング』 - コトバンク

[:0-3] ディープラーニング(深層学習)の大家として世界的に知られるIan Goodfellow，Yoshua Bengio，Aaron Courvilleが著した"Deep Learning"という教科書のIntroductionの第4パラグラフ（pp.1-2）におけるディープラーニングの定義では、ニューラルネットワークについて全く触れられておらず、「概念の階層により、コンピューターは、単純な概念から複雑な概念を構築することにより、複雑な概念を学習できます。これらの概念がどのように相互に構築されているかを示すグラフを描くと、グラフは深く、多くの層があります。このため、このアプローチをAIディープラーニングと呼びます。」と概念の階層構造により定義している。

[5] 2層なら単純パーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層（階層型）ニューラルネットと呼ぶ。

[:1-10] 学界は人工知能が有用であればどのような実現方法でも良いとの認識である^[要出典]。従って、学界は計算機における人間の脳の再現だけを目指しているわけではない^[要出典]。また、ニューラルネットワークは人間の脳神経のネットワーク^{[要曖昧さ回避]}構造に着想を得て研究が始められただけであり^[要出典]、その後は一部の研究事例を除いて人間の脳とは無関係に多様な方法で理論拡張が行われ続けている^[要出典]。

[14] 技術開発のスピードが速すぎて学会の査読が追いつかないため、arXivなどのプレプリントサービスに掲載された論文が参考文献として挙げられる場合も多い。

[15] 2層なら単純パーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層（階層型）ニューラルネットと呼ぶ。

[26] 積層自己符号化器（スタックドオートエンコーダ）と呼ばれる手法

[1] Schulz, Hannes; Behnke, Sven (1 November 2012). “Deep Learning” (英語). KI - Künstliche Intelligenz 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987.

[:1-2] Ian Goodfellow and Yoshua Bengio and Aaron Courville. “Deep Learning” (English). マサチューセッツ工科大学出版局. 2021年2月4日閲覧。

[asou-4] 麻生英樹他、監修: 人工知能学会「深層学習手法の全体像」『深層学習』近代科学社、2015年、xiv頁。ISBN 9784764904873。

[#1-6] 深層学習人工知能学会深層学習手法の全体像xiii

[Okatani_DL-7] 岡谷貴之深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021

[8] 「深層学習の原理に迫る数学の挑戦」今泉允聡岩波書店 2021/04/16 試し読み https://www.iwanami.co.jp/moreinfo/tachiyomi/0297030.pdf https://www.iwanami.co.jp/book/b570597.html 深層学習の汎化誤差のための近似性能と複雑性解析 2019/11/22 IBIS企画セッション今泉允聡東京大学（統計数理研究所 / 理化学研究所 / JSTさきがけ）https://ibisml.org/ibis2019/files/2019/11/slide_imaizumi.pdf https://sites.google.com/view/mimaizumi/home_JP

[:0-9] Ian Goodfellow and Yoshua Bengio and Aaron Courville. “Deep Learning”. An MIT Press book. p. 14. 2021年2月3日閲覧。

[11] “ChatGPTを賢くする呪文 - 日本経済新聞”. www.nikkei.com. 2023年5月7日閲覧。

[:3-12] “人間が深層学習のAIを理解できないのには、理由がある：朝日新聞GLOBE＋”. 朝日新聞GLOBE＋. 2022年8月28日閲覧。

[13] “加藤邦人 | 岐阜大学人工知能研究推進センター”. www1.gifu-u.ac.jp. 2023年5月7日閲覧。

[FOOTNOTE小林雅一201392-16] 小林雅一 2013, p. 92.

[17] “ディープラーニングはビジネスにどう使えるか?”. WirelessWire News (2015年5月20日). 2015年5月21日閲覧。

[FOOTNOTE小林雅一201394-18] 小林雅一 2013, p. 94.

[19] “ネオコグニトロン”. 2015年6月30日閲覧。

[20] “位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---”. 電子通信学会論文誌A (1979年10月1日). 2017年8月16日閲覧。

[21] “「ネオコグニトロンはまだ進化する」、画像向けディープラーニング「CNN」の父に聞く” (2015年5月22日). 2015年9月3日閲覧。

[22] “［CEDEC 2015］画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する”. 4gamer (2015年8月29日). 2015年9月1日閲覧。

[FOOTNOTE小林雅一2015107-23] 小林雅一 2015, p. 107.

[24] “MNIST Demos on Yann LeCun's website”. yann.lecun.com. 2021年3月31日閲覧。 / 1989.02 サイエンス社ニューロコンピューター読本 pp.32 の図に板状を用いた同類の記述がある。

[25] Tappert, Charles C. (2019-12). “Who Is the Father of Deep Learning?”. 2019 International Conference on Computational Science and Computational Intelligence (CSCI): 343–348. doi:10.1109/CSCI49370.2019.00067.

[27] 浅川直輝 (2014年10月1日). “［脳に挑む人工知能1］驚異のディープラーニング、その原型は日本人が開発”. 日経 xTECH（クロステック）. 2019年12月20日閲覧。

[28] “【第四回】今、最も熱いディープラーニングを体験してみよう（2ページ）”. エンタープライズ (2015年1月14日). 2015年5月30日閲覧。

[29] “A Neural Network for Machine Translation, at Production Scale” (英語). ai.googleblog.com (2016年9月27日). 2023年7月30日閲覧。

[30] “4-9 Surviving in the New Information Economy - Adopting a Learning Lifestyle”. Coursera. 2023年7月30日閲覧。

[31] “Startup Stability Releases New AI Model For Stable Diffusion as Deep-Fake Concerns Rise” (英語). Bloomberg.com. (2023年6月22日) 2023年7月30日閲覧。

[32] “ChatGPT — Release Notes | OpenAI Help Center” (英語). help.openai.com. 2023年7月30日閲覧。

[33] “Googleのディープラーニングはレトロゲームを自分で学習してプレイする”. ascii×デジタル (2015年3月21日). 2015年5月21日閲覧。

[FOOTNOTE小林雅一201529-34] 小林雅一 2015, p. 29.

[FOOTNOTE小林雅一201528-35] 小林雅一 2015, p. 28.

[wired112-36] “グーグルが開発を進めている、写真を「自動的に説明する」技術”. wired (2014年11月20日). 2015年5月18日閲覧。

[pcw632-37] “ディープラーニングというGPUの新市場”. PC Watch (2014年4月17日). 2015年5月21日閲覧。

[38] “画像をアップすると自動で説明文を生成してくれる「Images to Text」”. GIGAZINE (2014年12月13日). 2015年5月21日閲覧。

[39] “グーグルが開発を進めている、写真を「自動的に説明する」技術”. WIRED (2014年11月20日). 2015年5月30日閲覧。

[40] “人工知能は世界をもっと認識できる：グーグルのコンピューターヴィジョン”. WIRED (2014年9月9日). 2015年5月30日閲覧。

[41] CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから

[42] ITTOUSAI (2016年1月28日). “Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達”. Engadget. 2016年1月28日時点のオリジナルよりアーカイブ。2016年3月2日閲覧。

[43] CADE METZ (2016年1月31日). “「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた”. WIRED. 2016年3月2日閲覧。

[44] “＜囲碁：人間ｖｓ人工知能＞李世ドル「必ず勝ちたかったが、３連敗した時より今日のほうが辛かった」”. 中央日報. (2016年3月16日) 2018年2月7日閲覧。

[45] “AlphaGoが最終戦も勝利で3連勝”. 日本棋院 (2017年5月27日). 2018年2月7日閲覧。

[46] “Facebook、人工知能研究ラボを立ち上げ”. ITMedia News (2013年12月10日). 2015年5月22日閲覧。

[47] “Facebook、ディープラーニング開発環境「Torch」向けモジュールをオープンソースで公開”. ITMedia News (2015年1月19日). 2015年5月22日閲覧。

[48] “Facebook、ディープラーニング技術をオープンソースに”. ZDNet Japan (2015年1月19日). 2015年5月22日閲覧。

[nmt001-49] 中澤敏明、機械翻訳の新しいパラダイム：ニューラル機械翻訳の原理『情報管理』 2017年 60巻 5号 p.299-306, doi:10.1241/johokanri.60.299

[50] Lu, Yunlong; Li, Wenxin (2022-08-12). “Techniques and Paradigms in Modern Game AI Systems” (英語). Algorithms 15 (8): 282. doi:10.3390/a15080282. ISSN 1999-4893.

[51] M. Wittmann, Benedikt Morschheuser (2022). “What do games teach us about designing effective human-AI cooperation? - A systematic literature review and thematic synthesis on design patterns of non-player characters”. GamiFIN Conference.

[52] “人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan”. マイナビニュース (2015年5月20日). 2015年5月26日閲覧。

[53] Iizuka, Tomomichi; Fukasawa, Makoto; Kameyama, Masashi (2019-06-20). “Deep-learning-based imaging-classification identified cingulate island sign in dementia with Lewy bodies” (英語). Scientific Reports 9 (1). doi:10.1038/s41598-019-45415-5. ISSN 2045-2322. PMC 6586613. PMID 31222138.

[54] “顔認証で市民監視、中国の新たなAIツール”. ウォール・ストリート・ジャーナル. (2017年6月30日) 2018年2月7日閲覧。

[55] “アングル：中国の顔認証技術に活況投資、監視用の需要も後押し”. ロイター. (2017年11月18日) 2018年2月7日閲覧。

[56] “中国の「超ＡＩ監視社会」－－新疆ウイグル自治区では“体内”まで監視！”. 集英社. (2018年2月3日) 2018年2月7日閲覧。

[57] “中国、新疆ウイグル自治区で顔認識システム運用をテスト。指定地域から300m以上離れると当局に警告”. Engadget. (2018年1月20日). オリジナルの2020年3月13日時点におけるアーカイブ。 2018年2月7日閲覧。

[58] “中国が「AI超大国」になる動きは、もはや誰にも止められない”. WIRED. (2017年8月16日) 2018年2月7日閲覧。

[59] “「深層学習の父」、中国のＡＩ利用に警鐘”. Sankei Biz. (2019年4月1日) 2019年4月5日閲覧。

[60] “Deep Learning ‘Godfather’ Bengio Worries About China's Use of AI”. ブルームバーグ. (2019年2月2日) 2019年4月5日閲覧。

[61] “AI使った偽ポルノ「被害に対する原状回復は絶望的なほど困難」“ディープフェイク”技術の問題点とは：中日スポーツ・東京中日スポーツ”. 中日スポーツ・東京中日スポーツ. 2021年3月31日閲覧。

[62] “AIだって騙される？AIの抱える弱点とは一体何か｜セキュリティ通信”. セキュリティ通信. 2021年4月1日閲覧。

[63] Mahmud, Mufti; Kaiser, M. Shamim; McGinnity, T. Martin; Hussain, Amir (2021-01-01). “Deep Learning in Mining Biological Data” (英語). Cognitive Computation 13 (1): 1–33. doi:10.1007/s12559-020-09773-x. ISSN 1866-9964. PMC 7783296. PMID 33425045.

[64] Homma, Toshiteru; Les Atlas; Robert Marks II (1988). “An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification”. Advances in Neural Information Processing Systems 1: 31–40.

[65] Yann Le Cun (June 1989). Generalization and Network Design Strategies.

[66] Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). “Backpropagation applied to handwritten zip code recognition”. Neural Computation 1 (4): 541-551.

[67] Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25: 1097-1105.

[:2-68] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). “Attention Is All You Need”. arXiv:1706.03762 [cs]. https://arxiv.org/abs/1706.03762.

[69] Tolstikhin, Ilya; Houlsby, Neil; Kolesnikov, Alexander; Beyer, Lucas; Zhai, Xiaohua; Unterthiner, Thomas; Yung, Jessica; Steiner, Andreas et al. (2021-06-11). “MLP-Mixer: An all-MLP Architecture for Vision”. arXiv:2105.01601 [cs]. https://arxiv.org/abs/2105.01601.

[70] 岡谷貴之深層学習 p11

[71] [1806.02375]バッチ正規化について

[72] Understanding Batch Normalization · Issue #942 · arXivTimes/arXivTimes · GitHub

[73] 論文紹介 Understanding Batch Normalization - じんべえざめのノート

[74] Chang, Shih Yu; Wu, Hsiao-Chun (2022-08). “Tensor Quantization: High-Dimensional Data Compression”. IEEE Transactions on Circuits and Systems for Video Technology 32 (8): 5566–5580. doi:10.1109/TCSVT.2022.3145341. ISSN 1051-8215.

[75] "we approximate the gradient similar to the straight-through estimator" Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.

[76] Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.

[77] "In this work, we propose differentiable product quantization" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.

[78] "The second instantiation of DPQ ... pass the gradient straight-through" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.

[79] Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.

[80] "Each (scalar) entry in the representation z is independently quantized to the nearest integer by rounding ... bounding the range of the quantizer ... We call this approach finite scalar quantization (FSQ)" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

[81] "To get gradients through the rounding operation, we use the STE" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

[82] Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.

[1]

[2]

[注釈 1]

[3]

[注釈 2]

[4]

[5]

[6]

[7]

[注釈 3]

[8]

[9]

[10]

[注釈 4]

[注釈 5]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[注釈 6]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

概要

歴史

前史