Content-Length: 258470 | pFad | http://b.hatena.ne.jp/site/qiita.com/pocokhc
サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16e
qiita.com/pocokhc
はじめに 話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べてみました。 ただ参考のメンダコさんのブログが分かりやすくて… 記事にする必要あるか?と思ったけど途中まで作っていたのであげておきます。 GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。 これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現した内容となります。 参考 (論文) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (論文) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learn
ED法の記事その3です。 その1:金子勇さんのED法を実装してMNISTを学習させてみた その2:ED法を高速化してその性能をMNISTで検証してみた もう記事を書く予定はなかったんですが、思ったより頭から離れなかったので記事に起こしました。 今回はED法をTorchとTFで実装し交差エントロピーとReLUを実装しました。 なので正規のMNISTを学習してみたいと思います。 最後にBitNet×ED法を試して考察しています。 本記事を含めたED法のコードをGithubに作成しました。 追加の実装 ED法+交差エントロピー まずは今までの平均二乗誤差(MSE;Mean Squared Error)のイメージです。 MSEのlossは(正解データ-出力)で表され、それをED法で学習します。 次に交差エントロピーのイメージです。 各出力に対してED法ニューラルネットを作成し、その出力達をsoft
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 追記:続きを書きました。 その2:ED法を高速化してその性能をMNISTで検証してみた その3:ED法+交差エントロピーをTF/Torchで実装してみた(おまけでBitNet×ED法を検証) はじめに 先日以下の記事が投稿され、その斬新な考え方に個人的ながら衝撃を受けました。 内容をざっくり言うと、ニューラルネットワークの学習を現在の主流であるBP法(誤差逆伝播法)ではなく、ED法(誤差拡散法)という新しい学習手法を提案しているものです。 もし記事の内容が本当ならニューラルネットワークの学習がO(1)でできてしまう事になり、まさしく革命
# Torch: https://pytorch.org/get-started/locally/ # Stable(2.2.2) CUDA12.1 > pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 > python -c "import torch; print(torch.cuda.is_available())" True # Transformers > pip install transformers > python -c "import transformers; print(transformers.__version__)" 4.39.3 1. モデルの選定 各モデルの概要はドキュメントにあるのでそちらを参考にしつつ選びました。(ドキュ
はじめに 2/27にMicrosoftから BitNet b1.58 に関する論文が発表されました。 これはモデルの推論を従来の小数でするのではなく、ビットで推論する事により速度・メモリを含めたエネルギーの省力化を実現した内容となります。 (ディープラーニングにおいて、こういったモデルを低ビット等に離散化して計算量を減らす技術のことを量子化といいます) (ちなみに私は量子化分野はほとんど分からないので間違っている内容があればすいません…) 論文では主にTransformerの利用に言及していますが、仕組み自体は単純でニューラルネット全般に適用できるので、そちらの視点をメインに書いています。 また、BitNetに関する解説記事はすでに分かりやすい記事があるので、この記事では技術メインに解説していきます。 ・【論文丁寧解説】BitNet b1.58とは一体何者なのか また実装に関してですが、多
この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて
この記事は自作している強化学習フレームワークの解説記事です。 次:PlaNet World Models 参考 ・論文:https://arxiv.org/abs/1803.10122 ・作者のblog:https://worldmodels.github.io/ ・コードサンプル:https://paperswithcode.com/paper/world-models ・(論文)World Models(2018) | Qiita ・機械学習論文読み:World Models | Qiita ・World Models (the long version) | ADG Efficiency 1. 動機 私たちの脳は日常生活にある膨大な情報を扱うために、空間的・時間的な側面を抽象化して学習しています。 (画像は論文より引用、脳内では自転車が抽象化されている) この脳内で抽象化された予測モ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 前:AlphaZero 次:Stochastic MuZero 今回はAlphaZeroの後継であるMuZeroについて解説します。 MuZero AlphaZeroは木探索時にゲームのルールを使うという問題がありました。 (1手進めた後、盤面の状態を知る必要がある) これではルールを知っている環境にしかAlphaZeroが使えないので、強化学習で一般的に想定されるマルコフ決定過程(MDP)の環境にも使えるように拡張したアルゴリズムが
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 次:AlphaZero はじめに モンテカルロ木探索は強化学習のアルゴリズムというより木探索アルゴリズムの一種という位置付けです。 ただこれの発展系として、AlphaGo,AlphaZero,MuZeroといった有名なアルゴリズムがあるのでまずは説明していきたいと思います。 また以前に記事(第11回 今更だけど基礎から強化学習を勉強する モンテカルロ木探索編)を書いていますが、フレームワークに沿った内容として改めて書いています。 モンテカルロ法(Monte Carlo method; MC) モンテカルロ法をざっくり言うと、適当な回数ランダムに実行してみてその結果から結論を導くアルゴリズムです。 主に確率または期待値の近似値を求める手法として使われます。 (強化学習では予測値を求める手法
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 DQNについては昔記事を書いていますが、知識も更新されているので改めて書いています。 前:Q学習 次:Rainbow DQN(Deep Q-Networks) 略称がネットスラングと重なったのは偶然らしいです。 また、時代背景的に初めて強化学習に深層学習(ニューラルネットワーク)の技術を採用して成果を出したことで有名になった手法となります。 Q学習の一番の問題点は、状態が離散かつ有限状態でしか表現できなかったことです。 例えば以下のマリオの位置を考えます。 マリオの座標が 1.1 と 1.11 はほぼ同じ状態とみて問題ありません。 しかし、Q学習ではこれが別の状態と認識されてしまいます。 こういう連続値は状態数が無限になるのでQ学習では学習ができません。 そこでQテーブルをニューラルネッ
初心者ながらKaggleに挑戦した時のコードを備忘録として残しておきます。 今回は自然言語編です。 また、BERT編を別記事にする予定です。 ・Kaggle関係の記事 Kaggleのタイタニックに挑戦してみた(その1) Kaggleのタイタニックに挑戦してみた(その2) Kaggleで書いたコードの備忘録~データ分析で使った手法一通り~ Kaggleで書いたコードの備忘録その2(ここ) KaggleタイタニックでNameだけで予測精度80%超えた話(BERT) 作成したコード Kaggle notebook 1.データ Kaggleチュートリアルのタイタニックを使います。 # import import numpy as np import pandas as pd from matplotlib import pyplot as plt import seaborn as sns imp
初心者ながらKaggleに挑戦した時のコードを備忘録として残しておきます。 ・Kaggle関係の記事 Kaggleのタイタニックに挑戦してみた(その1) Kaggleのタイタニックに挑戦してみた(その2) Kaggleで書いたコードの備忘録その1(ここ) Kaggleで書いたコードの備忘録その2~自然言語処理まとめ~ KaggleタイタニックでNameだけで予測精度80%超えた話(BERT) 1.データ import 全体的に使うライブラリです。 各項目で使うライブラリはそちら側でimportを記載しています。
今回はDDPGを実装してみました。 第6回 PPO編 第8回 SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 追記:自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。 参考 DDPGでPendulum-v0(強化学習, tens
はじめに 最適化アルゴリズムにおけるメタヒューリスティクスアルゴリズムを主に実装していきます。 メタヒューリスティクスは、問題に依存しないで解を得られることが最大の利点ですが、 実際の問題に対してどうアプローチしていいかがいまいち分かりにくかったのでまとめてみました。 やりたいことは、 できる限りわかりやすく一般化して、問題に対する共通のインターフェースをつくる 各アルゴリズムを比較 です。 また、各アルゴリズムについては別記事にして少しずつ上げていく予定です。 (記事を上げたらリンクをつけていきます) コードはgithubにあります。 対象アルゴリズム 遺伝的アルゴリズム(Genetic Algorithm: GA) 実数型遺伝的アルゴリズム 人口蜂コロニーアルゴリズム(Artificial Bee Colony: ABC) 粒子群最適化(Particle Swarm Optimizat
強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています 追記:自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。 目次 構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up
Keras のステートレスLSTMとステートフルLSTMの勉強です。 ネット上の情報をかき集めて自分なりに実装しているので正確ではないところがある点はご了承ください。 追記:ステートフルLSTMと hidden state に関して記事を書きました。 Keras のステートフルLSTMと hidden state の関係を調査してみた 目次 KerasのステートレスLSTMとステートフルLSTMについて 実験に使うモデルセットの説明(アルファベット予測) 実験1:「1 文字 => 1 文字」マッピング 実験2:「3 文字特徴ウィンドウ => 1 文字」マッピング 実験3:「3 文字タイムステップ・ウィンドウ => 1 文字」マッピング 実験4:バッチサイズ 実験5:hidden state の保存と設定 コード全体 本記事で作成したコードは以下です。 ※1ファイル完結です。 ※Google
このページを最初にブックマークしてみませんか?
『@pocokhcのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/site/qiita.com/pocokhc
Alternative Proxies:
Alternative Proxy
pFad Proxy
pFad v3 Proxy
pFad v4 Proxy