タグ

advancedanalyticsに関するteddy-gのブックマーク (69)

  • MLAC2013 数式を使わずイメージで理解するEMアルゴリズム - Wolfeyes Bioinformatics beta

    はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです.専門はバイオインフォマティクスという計算機を使って生物学をする分野で,生モノではなく遺伝子の文字列相手に格闘している大学院生です.今回は初心者の人を対象に,なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います. EMアルゴリズムは,SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく,機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです.そのため多くの人にとってEMアルゴリズムは,それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう.でも,EMアルゴリズムなんて仰々しい名前が付けられているだけあって,いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの

    teddy-g
    teddy-g 2016/12/07
    何という簡潔で明解な解説。EMアルゴリズムって何?と人に聞かれても説明できるな
  • Need a data set for fraud detection

    teddy-g
    teddy-g 2016/11/22
    異常検知用のテストデータセットいろいろ。ネタ帳として。
  • Q-Learning

    Q-Learning Q-LearningはTD学習の一つである.ただし,Q-Learningでは状態と行動を一つのセットとして考える.具体的な例をみながら説明をする. 以下のように状態が遷移する環境があったとする. ここで,状態と行動をセットにして,評価値をセットする.たとえば,状態1における,行動Aと状態1における行動Bをそれぞれ評価するのである.つまり というように図示することができる.このように,それぞれの状態に,その状態で選択できる行動の数だけ評価値がある. このような状態に関連づけられている行動の評価値がどのように更新されるかを考える.それぞれの評価値をQ値と呼ぶ.Q値の更新式は という形で表される.TD学習では遷移した次の状態の評価値をみるが,Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため,その中で最大のものをみる. 実際に状態遷移を繰り返

    teddy-g
    teddy-g 2016/02/16
    強化学習のひとつ、Q学習のアルゴリズムについて。Q値を使うからQ学習。
  • パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ

    (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回(と次回予定の5回分まとめ)の記事を読んでもらいたいなぁと思います。 今回の参考文献もピンクの薄いです。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。 はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ (4件) を見る 他だと、例

    パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ
    teddy-g
    teddy-g 2016/02/12
    ランダム森ってリングネームっぽい
  • What's the system architecture of the IBM Watson?

    Answer (1 of 3): See Figure 6 from [1]: Also, Stephen Wolfram provided his take recently in [2]: The Watson authors provide a few more hints on Reddit [3]. Also here's a video with Grady Booch that talks about the system architecture at a high level: https://www.youtube.com/watch?v=E1pMI6JYk...

    What's the system architecture of the IBM Watson?
    teddy-g
    teddy-g 2016/01/19
    Watsonのロジックについて。UIMA-ASとCASがベース。それにDavid GarlanとMary ShawのPipes&Filtersの仕組みを載せている。
  • ConvNetJS: Deep Learning in your browser

    Description The library allows you to formulate and solve Neural Networks in Javascript, and was originally written by @karpathy (I am a PhD student at Stanford). However, the library has since been extended by contributions from the community and more are warmly welcome. Current support includes: Common Neural Network modules (fully connected layers, non-linearities) Classification (SVM/Softmax)

    teddy-g
    teddy-g 2015/12/30
    こういうのがあるとついついJavascriptで実装しちゃうんだよなー…楽だから…
  • ベクトルで理解する相関係数

    3. 相関係数 ・目的 2つの集合(x, y)の線形関係を定量的に表現したい ・性質 1.相関係数は[-1, 1]の範囲で表す。 2.0に近いほど相関が弱く、1(-1)に近づくほど相関が強い。 3.相関関数が3倍になる事は、3倍の相関を得ることを示さない。 相関度合いの比較を可能とするだけである。 ・計算式 x = (x1, x2, x3, ... xn), y = (y1, y2, y3, ... yn)の時 n x, yの相関関係Rは下記の式で求まる。だたし、      である。 x = n i=1 xi ¯ 1 n i=1 (xi x)(yi ¯ y) ¯ R= n n i=1 (xi x)2 ¯ i=1 (yi y )2 ¯ 3

    ベクトルで理解する相関係数
    teddy-g
    teddy-g 2015/12/17
    相関係数とcosθは同じという話。ある日これに気づいたとき、cosθが急につまらなく見えた。
  • ハミング距離 | 情報科学 | IT用語辞典 | 日立ソリューションズ

    ハミング距離とは、桁数が同じ2つ値を比べたとき、対応する位置にある異なった値の桁の個数のことである。例えば2進数の場合、「1111111」と「1110101」のハミング距離は2となる。 ハミング距離は誤り検出などに利用される。データ通信の誤り検出については、パリティビットという誤り検出符号をデータに付加して、誤りを検出する方法がある。パリティビットを利用する方法では、何らかの原因でどこかビットが反転してしまい、データが変更されると、パリティビットの値が偶数から奇数になるから誤りを検出できる。しかしパリティビットでは、2つのビットの誤りが生じた場合、パリティビットの値の値には変化がないため、検出されない。 対して、ハミング距離は符号と符号の距離を計測してデータの誤りを検出方法で、例えば、2で割り切れる偶数「2、4、6、8・・・」といった値の場合、各値はそれぞれ2以上の距離で存在している。この

    teddy-g
    teddy-g 2015/12/17
    Hamming Distanceのもっとシンプルな説明。
  • データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ

    世の中データ分析部門を立ち上げる企業が増えてきて、「データサイエンティスト」と名乗ろうが名乗るまいがデータ分析者を置いて様々なビジネス上のデータを分析させるところが目立ってきました。 でも、一方で実際のデータ分析者たちが何をやっていて、どういうアウトプットを出しているのか?について、きちんと理解している人はあまり多くなさそうに見えます。うっかりすると、「金とデータは渡すから良きに計らえ」*1ってところも少なくないかも。。。 それではあまりにもざっくりし過ぎているので、実際のデータ分析者がどんなことをしているのかを、超絶大ざっぱに4つに分けてみました*2。即ち、「回帰・分類・推定・予測」の4つのコンセプトです。今回はこの4つのコンセプトについて、データ分析を「させる(依頼する)」側の人たちに出来る限り分かりやすく説明してみようと思います。 ということで、データ分析を「させる(依頼する)」側の

    データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ
    teddy-g
    teddy-g 2015/12/17
    んー、手法寄りの解説になってる気がする。少なくともビジネス側の人間に、回帰と予測の違いは分からない。回帰⊂予測、くらいでいい気がする。
  • コンピュータアーキテクチャの話(262) ハミング距離

    ハミング距離とエラー検出 以下では、図2.6に示したデータの値を変えずに伝送する、あるいは記憶するケースについて考える。 少し形式張るが、nビットの2進数をn次元2進空間の点と考える。これを3ビットの2進数について書くと図2.8のようになる。 この立方体のそれぞれの辺の長さを距離1とすると、2進数000と100の距離は1であり、000と101の距離は2、000と111の距離は3ということになる。回り道をしない2点の間の最短経路の距離を「ハミング距離(Hamming Distance)」という。4次元以上の立方体を図示することは難しいが、要するにハミング距離は2つの2進数の対応するビットの値が異なっているところの数ということになる。 そして、1ビットのエラーが起こるということは、n次元2進空間の中で2進数の位置が距離=1だけ動くということに相当する。 入力データのビットと図2.4のようなプレ

    コンピュータアーキテクチャの話(262) ハミング距離
    teddy-g
    teddy-g 2015/12/17
    Hamming Distanceの説明。二つのビットの違いを比較したものと思っておけばよし。
  • 株式会社ALBERT(レコメンドエンジン)

    データ分析から導き出されたインサイト無しにAI人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

    株式会社ALBERT(レコメンドエンジン)
    teddy-g
    teddy-g 2015/12/17
    クラスタリングの第一歩として、類似性=距離の色々。これに後はJaccardとHammingを覚えとけばよい。
  • クラスタリングとクラス分類って違うらしい - Stargazing && Temporary Escapism ~インプット馬鹿への道~

    概要卒業研究の題目について担当の先生に相談した際にハッと気付かされた。 題目を「評価要因に着目した評価情報分類」で考えています。と切り出し研究の内容について紹介した。 レビュー集合を用意(Amazon.co.jp, kakaku.com) ↓ レビュー文から評価表現辞書を用いた評価要因を抽出するパターンを考案・実装・適用 ↓ 評価要因の抽出 ↓ 抽出した結果をtf-idf法を用いてベクトル化し、レビュー集合をクラスタリング ↓ レビュー集合を直接クラスタリングしたものと比較 ↓ 今回の提案手法を用いると、評価軸ごとにレビュー集合を分類できることを検証する という内容で相談メールを送信したところ、先生から返答をしてもらった、以下が先生の返答の一部の抜粋。 「分類」と「クラスタリング」のどっち? 「評判情報分類」で終わってよいのか? 衝撃的だった。えっ!?分類とクラスリングって意味違うの???

    クラスタリングとクラス分類って違うらしい - Stargazing && Temporary Escapism ~インプット馬鹿への道~
    teddy-g
    teddy-g 2015/12/17
    英語で言うとClusteringとClassificationで明らかに違うんだけど、日本語だと通じづらい。コレ系は日本語訳が分かりにくいのも問題だなあ。尤度とか。素性とか。正則化とか。
  • 意思決定コストを削減する予測分析ソリューション--コラム集

    予測モデル開発の進め方 建築業の現場では、顧客の希望と予算を確認し、設計を行い、施工し、引き渡されます。 弊社が業とするシステム開発も、このような工程を踏む仕事ということで、よく建築業に例えられることがあります。 その際、両者に共通することは、開発規模が大きくなればなるほど(犬小屋から超高層ビルへ)、後工程からの手戻りがないように工程をマネージメントできるかどうが、プロジェクト成功の成否を決定付けるということです。 予測モデルの開発においても、同じことが言えます。 目的・ゴールがあいまいな状態で、闇雲にデータを解析ソフトに投入して結果をみて試行錯誤するのは、木を見て森を見ない、局所最適は実現できても、全体最適に寄与しないというような危険が常に背中合わせであることを肝に銘じる必要があろうかと思います。 さて、予測モデルの開発工程を大きく4つに分けると (1) 経営目標と課題認識に基づく分

    teddy-g
    teddy-g 2015/12/11
    カテゴリー変数の扱い方について。(2)も合わせて読むとよい。結局行列にするしかないって話だよなあ
  • How to select a machine learning algorithm - Azure Machine Learning

    If you're wondering which machine learning algorithm to use, the answer depends primarily on two aspects of your data science scenario: What do you want to do with your data? Specifically, what's the business question you want to answer by learning from your past data? What are the requirements of your data science scenario? What are the features, accuracy, training time, linearity, and parameters

    How to select a machine learning algorithm - Azure Machine Learning
    teddy-g
    teddy-g 2015/12/11
    どの機械学習を選べばいいの?っていうチュートリアル。cheat sheetと合わせて読むと分かりやすい。初心者にもわかりやすいと思うんだけど、これでもハードル高いんだろな…。
  • カルマンフィルタのアドテクへの応用(理論編) - アドファイブ日記(ミラー版)

    カルマンフィルタという数理手法がロケットの姿勢制御等で良く使われています。これをアドテクに応用できそうに思うのでシェアしてみます。 カルマンフィルタと関連手法(知ってる人は飛ばして次へ) カルマンフィルタは一言でいうと「連続値の隠れ変数についてのモデルが既知でそれが線形で不定性をガウスノイズでくくれるような問題」に適用可能な手法です。 データサイエンティスト的な手法分類としては、線形じゃなくて非線形だったら粒子フィルタというのを使いますが、粒子フィルタはサンプリングといって乱数でシミュレートしてあたりをつけるみたいな方法なのに対して、カルマンフィルタは次の推定値を式一発でビシッと出してくれる(そういうのを「閉形式で解析的に求まっている」みたいな言い方をします)ので線形モデルで近似できそうならば線形モデルを使うことの利点はかなりあります。 隠れ状態が連続値でなく離散値だったら隠れマルコフモデ

    カルマンフィルタのアドテクへの応用(理論編) - アドファイブ日記(ミラー版)
    teddy-g
    teddy-g 2015/12/10
    カルマンフィルタを広告に適用するというのは興味深いけど、指向性がそもそも低いというか誤差が大きいように思う
  • 行列の固有値・固有ベクトルの定義と具体的な計算方法 | 高校数学の美しい物語

    Axundefined=λxundefinedA\overrightarrow{x}=\lambda \overrightarrow{x}Ax=λx が成立するとき xundefined\overrightarrow{x}x を AAA の固有ベクトル(英:eigenvector),λ\lambdaλ を AAA の固有値(英:eigenvalue)と言う。ただし,AAA は正方行列,xundefined\overrightarrow{x}x は 0undefined\overrightarrow{0}0 でないベクトル,λ\lambdaλ は スカラー。

    行列の固有値・固有ベクトルの定義と具体的な計算方法 | 高校数学の美しい物語
    teddy-g
    teddy-g 2015/12/07
    Eigenvector & Eigenvalueの説明。オイゲンの綴りはEugenだから別物。
  • はじめてのパターン認識 9章(前半) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 部分空間法 機械学習を行うために、マシーンにわせるデータを準備します。 その際にデータの次元数(大きさ)が小さい方がより学習に効果的なので、 $d$次元特徴ベクトル空間を重要な情報をもつ$r(≤d)$次元空間に縮小します。 9章では、教師なし学習次元削除手法の 主成分分析、特異値分解、 部分空間法、カーネル主成分分析、カーネル部分空間法 について取り上げています。 部分空間法、カーネル主成分分析、カーネル部分空間法は難しいので後半に分けます。 なお、はじめてのパターン認識 第4章 確率モデルと識別関数 前半(観測データの線形変換)の話

    はじめてのパターン認識 9章(前半) - Qiita
    teddy-g
    teddy-g 2015/12/03
    色々読んだがここの特異値分解の説明が一番わかりやすい気がする。
  • カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(前編) - ALBERT Engineer Blog

    はじめに 当ブログでは Apache Spark プロジェクト機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器 今回のエントリでは MLlib の協調フィルタリングについて書きます。 アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。 少し長くなるので前・後編に分かれます。 以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング

    カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(前編) - ALBERT Engineer Blog
    teddy-g
    teddy-g 2015/12/02
    Matrix Factorizationって日本語では行列因子分解って言うのか。具体的かつ詳しいのでわかりやすい。
  • Matrix Factorizationとは - Qiita

    Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。

    Matrix Factorizationとは - Qiita
    teddy-g
    teddy-g 2015/12/02
    次元縮減の手法のひとつ、Matrix Factorizationについて。協調フィルタリングと相性がいいそうな。
  • ロトカ・ヴォルテラの捕食式 - もうカツ丼はいいよな

    者と被者の個体数は捕を通じて互いに影響しており、時に双方の個体数が共振動することがある。例えば、カナダのカンジキウサギ(被者)とカナダオオヤマネコ(捕者)の個体数は、約10年の周期で共振動している。野外では気象条件などの影響を排除し切れないが、室内の実験系においても共振動は確認されているらしい。 個体数の共振動という現象は、理論的にはロトカ・ヴォルテラの捕式を用いることで確認できる。 ロトカ・ヴォルテラの捕式では以下の仮定をしている。 まず、捕者、被者がそれぞれ単独で存在していて、捕-被の関係が存在しない時、捕される心配のない被者は世代ごとにrの割合で個体数を増やし、獲物を得られない捕者は世代ごといqの割合で死亡すると仮定する。被者の個体数をN、捕者の個体数をPとすると と表現できる。 次に、単位時間あたりに捕される被者の数について、その数は捕者が多

    ロトカ・ヴォルテラの捕食式 - もうカツ丼はいいよな
    teddy-g
    teddy-g 2015/12/01
    Predator-Prey Modelというやつでぐるぐるループするデータ。普通の分析手法ではこの手のループを処理するのは難しい。
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy