[B! advancedanalytics] teddy-gのブックマーク

advancedanalyticsに関するteddy-gのブックマーク (69)

MLAC2013 数式を使わずイメージで理解するEMアルゴリズム - Wolfeyes Bioinformatics beta
はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです．専門はバイオインフォマティクスという計算機を使って生物学をする分野で，生モノではなく遺伝子の文字列相手に格闘している大学院生です．今回は初心者の人を対象に，なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います． EMアルゴリズムは，SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく，機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです．そのため多くの人にとってEMアルゴリズムは，それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう．でも，EMアルゴリズムなんて仰々しい名前が付けられているだけあって，いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの
teddy-g 2016/12/07
何という簡潔で明解な解説。EMアルゴリズムって何？と人に聞かれても説明できるな

machinelearning

math

advancedanalytics

analysis

analytics
リンク
Need a data set for fraud detection
teddy-g 2016/11/22
異常検知用のテストデータセットいろいろ。ネタ帳として。

bigdata

datascience

advancedanalytics

analytics

analysis
リンク
Q-Learning
Q-Learning Q-LearningはTD学習の一つである．ただし，Q-Learningでは状態と行動を一つのセットとして考える．具体的な例をみながら説明をする．以下のように状態が遷移する環境があったとする．ここで，状態と行動をセットにして，評価値をセットする．たとえば，状態1における，行動Aと状態1における行動Bをそれぞれ評価するのである．つまりというように図示することができる．このように，それぞれの状態に，その状態で選択できる行動の数だけ評価値がある．このような状態に関連づけられている行動の評価値がどのように更新されるかを考える．それぞれの評価値をQ値と呼ぶ．Q値の更新式はという形で表される．TD学習では遷移した次の状態の評価値をみるが，Q-Learningではその状態について複数の行動に関連づけられた評価値を持つため，その中で最大のものをみる．実際に状態遷移を繰り返
teddy-g 2016/02/16
強化学習のひとつ、Q学習のアルゴリズムについて。Q値を使うからQ学習。

machinelearning

advancedanalytics
リンク
パッケージユーザーのための機械学習(5)：ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ
（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが（笑）、教師あり学習＆分類器系では一旦これでシリーズを〆る予定です。トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回（と次回予定の5回分まとめ）の記事を読んでもらいたいなぁと思います。今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。はじめてのパターン認識作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本（ソフトカバー）購入: 1人クリック: 7回この商品を含むブログ (4件) を見る他だと、例
teddy-g 2016/02/12
ランダム森ってリングネームっぽい

randomforest

machinelearning

statistics

bigdata

advancedanalytics

R
リンク
What's the system architecture of the IBM Watson?
Answer (1 of 3): See Figure 6 from [1]: Also, Stephen Wolfram provided his take recently in [2]: The Watson authors provide a few more hints on Reddit [3]. Also here's a video with Grady Booch that talks about the system architecture at a high level: https://www.youtube.com/watch?v=E1pMI6JYk...
teddy-g 2016/01/19
Watsonのロジックについて。UIMA-ASとCASがベース。それにDavid GarlanとMary ShawのPipes&Filtersの仕組みを載せている。

AI

bigdata

analytics

advancedanalytics
リンク
ConvNetJS: Deep Learning in your browser
Description The library allows you to formulate and solve Neural Networks in Javascript, and was originally written by @karpathy (I am a PhD student at Stanford). However, the library has since been extended by contributions from the community and more are warmly welcome. Current support includes: Common Neural Network modules (fully connected layers, non-linearities) Classification (SVM/Softmax)
teddy-g 2015/12/30
こういうのがあるとついついJavascriptで実装しちゃうんだよなー…楽だから…

machinelearning

deeplearning

javascript

tips

hacks

bigdata

advancedanalytics

analytics

analysis
リンク
ベクトルで理解する相関係数
3. 相関係数・目的 2つの集合(x, y)の線形関係を定量的に表現したい・性質１．相関係数は[-1, 1]の範囲で表す。２．0に近いほど相関が弱く、1(-1)に近づくほど相関が強い。３．相関関数が3倍になる事は、3倍の相関を得ることを示さない。相関度合いの比較を可能とするだけである。・計算式 x = (x1, x2, x3, ... xn), y = (y1, y2, y3, ... yn)の時 n x, yの相関関係Rは下記の式で求まる。だたし、である。 x = n i=1 xi ¯ 1 n i=1 (xi x)(yi ¯ y) ¯ R= n n i=1 (xi x)2 ¯ i=1 (yi y )2 ¯ 3
teddy-g 2015/12/17
相関係数とcosθは同じという話。ある日これに気づいたとき、cosθが急につまらなく見えた。

bigdata

analytics

statistics

advancedanalytics

machinelearning
リンク
ハミング距離 | 情報科学 | IT用語辞典 | 日立ソリューションズ
ハミング距離とは、桁数が同じ2つ値を比べたとき、対応する位置にある異なった値の桁の個数のことである。例えば2進数の場合、「1111111」と「1110101」のハミング距離は2となる。ハミング距離は誤り検出などに利用される。データ通信の誤り検出については、パリティビットという誤り検出符号をデータに付加して、誤りを検出する方法がある。パリティビットを利用する方法では、何らかの原因でどこかビットが反転してしまい、データが変更されると、パリティビットの値が偶数から奇数になるから誤りを検出できる。しかしパリティビットでは、2つのビットの誤りが生じた場合、パリティビットの値の値には変化がないため、検出されない。対して、ハミング距離は符号と符号の距離を計測してデータの誤りを検出方法で、例えば、2で割り切れる偶数「2、4、6、8・・・」といった値の場合、各値はそれぞれ2以上の距離で存在している。この
teddy-g 2015/12/17
Hamming Distanceのもっとシンプルな説明。

bigdata

analytics

statistics

advancedanalytics

machinelearning
リンク
データ分析を「させる（依頼する）」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ
世の中データ分析部門を立ち上げる企業が増えてきて、「データサイエンティスト」と名乗ろうが名乗るまいがデータ分析者を置いて様々なビジネス上のデータを分析させるところが目立ってきました。でも、一方で実際のデータ分析者たちが何をやっていて、どういうアウトプットを出しているのか？について、きちんと理解している人はあまり多くなさそうに見えます。うっかりすると、「金とデータは渡すから良きに計らえ」*1ってところも少なくないかも。。。それではあまりにもざっくりし過ぎているので、実際のデータ分析者がどんなことをしているのかを、超絶大ざっぱに4つに分けてみました*2。即ち、「回帰・分類・推定・予測」の4つのコンセプトです。今回はこの4つのコンセプトについて、データ分析を「させる（依頼する）」側の人たちに出来る限り分かりやすく説明してみようと思います。ということで、データ分析を「させる（依頼する）」側の
teddy-g 2015/12/17
んー、手法寄りの解説になってる気がする。少なくともビジネス側の人間に、回帰と予測の違いは分からない。回帰⊂予測、くらいでいい気がする。

bigdata

analytics

advancedanalytics

statistics

machinelearning
リンク
コンピュータアーキテクチャの話(262) ハミング距離
ハミング距離とエラー検出以下では、図2.6に示したデータの値を変えずに伝送する、あるいは記憶するケースについて考える。少し形式張るが、nビットの2進数をn次元2進空間の点と考える。これを3ビットの2進数について書くと図2.8のようになる。この立方体のそれぞれの辺の長さを距離1とすると、2進数000と100の距離は1であり、000と101の距離は2、000と111の距離は3ということになる。回り道をしない2点の間の最短経路の距離を「ハミング距離(Hamming Distance)」という。4次元以上の立方体を図示することは難しいが、要するにハミング距離は2つの2進数の対応するビットの値が異なっているところの数ということになる。そして、1ビットのエラーが起こるということは、n次元2進空間の中で2進数の位置が距離=1だけ動くということに相当する。入力データのビットと図2.4のようなプレ
teddy-g 2015/12/17
Hamming Distanceの説明。二つのビットの違いを比較したものと思っておけばよし。

bigdata

analytics

advancedanalytics

statistics

machinelearning
リンク
株式会社ALBERT（レコメンドエンジン）
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
teddy-g 2015/12/17
クラスタリングの第一歩として、類似性＝距離の色々。これに後はJaccardとHammingを覚えとけばよい。

bigdata

statistics

analytics

advancedanalytics

machinelearning
リンク
クラスタリングとクラス分類って違うらしい - Stargazing && Temporary Escapism ~インプット馬鹿への道~
概要卒業研究の題目について担当の先生に相談した際にハッと気付かされた。題目を「評価要因に着目した評価情報分類」で考えています。と切り出し研究の内容について紹介した。レビュー集合を用意(Amazon.co.jp, kakaku.com) ↓ レビュー文から評価表現辞書を用いた評価要因を抽出するパターンを考案・実装・適用 ↓ 評価要因の抽出 ↓ 抽出した結果をtf-idf法を用いてベクトル化し、レビュー集合をクラスタリング ↓ レビュー集合を直接クラスタリングしたものと比較 ↓ 今回の提案手法を用いると、評価軸ごとにレビュー集合を分類できることを検証するという内容で相談メールを送信したところ、先生から返答をしてもらった、以下が先生の返答の一部の抜粋。「分類」と「クラスタリング」のどっち？「評判情報分類」で終わってよいのか？衝撃的だった。えっ！？分類とクラスリングって意味違うの？？？
teddy-g 2015/12/17
英語で言うとClusteringとClassificationで明らかに違うんだけど、日本語だと通じづらい。コレ系は日本語訳が分かりにくいのも問題だなあ。尤度とか。素性とか。正則化とか。

statistics

analytics

bigdata

advancedanalytics

machinelearning
リンク
意思決定コストを削減する予測分析ソリューション--コラム集
予測モデル開発の進め方建築業の現場では、顧客の希望と予算を確認し、設計を行い、施工し、引き渡されます。弊社が本業とするシステム開発も、このような工程を踏む仕事ということで、よく建築業に例えられることがあります。その際、両者に共通することは、開発規模が大きくなればなるほど（犬小屋から超高層ビルへ）、後工程からの手戻りがないように工程をマネージメントできるかどうが、プロジェクト成功の成否を決定付けるということです。予測モデルの開発においても、同じことが言えます。目的・ゴールがあいまいな状態で、闇雲にデータを解析ソフトに投入して結果をみて試行錯誤するのは、木を見て森を見ない、局所最適は実現できても、全体最適に寄与しないというような危険が常に背中合わせであることを肝に銘じる必要があろうかと思います。さて、予測モデルの開発工程を大きく４つに分けると (1) 経営目標と課題認識に基づく分
teddy-g 2015/12/11
カテゴリー変数の扱い方について。(2)も合わせて読むとよい。結局行列にするしかないって話だよなあ

bigdata

advancedanalytics

analytics

machinelearning

statistics
リンク
How to select a machine learning algorithm - Azure Machine Learning
If you're wondering which machine learning algorithm to use, the answer depends primarily on two aspects of your data science scenario: What do you want to do with your data? Specifically, what's the business question you want to answer by learning from your past data? What are the requirements of your data science scenario? What are the features, accuracy, training time, linearity, and parameters
teddy-g 2015/12/11
どの機械学習を選べばいいの？っていうチュートリアル。cheat sheetと合わせて読むと分かりやすい。初心者にもわかりやすいと思うんだけど、これでもハードル高いんだろな…。

advancedanalytics

analytics

bigdata

microsoft

azure

machinelearning
リンク
カルマンフィルタのアドテクへの応用（理論編） - アドファイブ日記（ミラー版）
カルマンフィルタという数理手法がロケットの姿勢制御等で良く使われています。これをアドテクに応用できそうに思うのでシェアしてみます。カルマンフィルタと関連手法（知ってる人は飛ばして次へ）カルマンフィルタは一言でいうと「連続値の隠れ変数についてのモデルが既知でそれが線形で不定性をガウスノイズでくくれるような問題」に適用可能な手法です。データサイエンティスト的な手法分類としては、線形じゃなくて非線形だったら粒子フィルタというのを使いますが、粒子フィルタはサンプリングといって乱数でシミュレートしてあたりをつけるみたいな方法なのに対して、カルマンフィルタは次の推定値を式一発でビシッと出してくれる（そういうのを「閉形式で解析的に求まっている」みたいな言い方をします）ので線形モデルで近似できそうならば線形モデルを使うことの利点はかなりあります。隠れ状態が連続値でなく離散値だったら隠れマルコフモデ
teddy-g 2015/12/10
カルマンフィルタを広告に適用するというのは興味深いけど、指向性がそもそも低いというか誤差が大きいように思う

bigdata

analytics

advancedanalytics
リンク
行列の固有値・固有ベクトルの定義と具体的な計算方法 | 高校数学の美しい物語
Axundefined=λxundefinedA\overrightarrow{x}=\lambda \overrightarrow{x}Ax=λx が成立するとき xundefined\overrightarrow{x}x を AAA の固有ベクトル(英：eigenvector)，λ\lambdaλ を AAA の固有値(英：eigenvalue)と言う。ただし，AAA は正方行列，xundefined\overrightarrow{x}x は 0undefined\overrightarrow{0}0 でないベクトル，λ\lambdaλ はスカラー。
teddy-g 2015/12/07
Eigenvector & Eigenvalueの説明。オイゲンの綴りはEugenだから別物。

math

bigdata

analysis

advancedanalytics

topology
リンク
はじめてのパターン認識 9章（前半） - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 部分空間法機械学習を行うために、マシーンに食わせるデータを準備します。その際にデータの次元数（大きさ）が小さい方がより学習に効果的なので、 $d$次元特徴ベクトル空間を重要な情報をもつ$r(≤d)$次元空間に縮小します。 9章では、教師なし学習次元削除手法の主成分分析、特異値分解、部分空間法、カーネル主成分分析、カーネル部分空間法について取り上げています。部分空間法、カーネル主成分分析、カーネル部分空間法は難しいので後半に分けます。なお、はじめてのパターン認識第４章確率モデルと識別関数　前半（観測データの線形変換）の話
teddy-g 2015/12/03
色々読んだがここの特異値分解の説明が一番わかりやすい気がする。

bigdata

advancedanalytics

analytics

statistics

math
リンク
カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（前編） - ALBERT Engineer Blog
はじめに当ブログでは Apache Spark プロジェクトの機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器今回のエントリでは MLlib の協調フィルタリングについて書きます。アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。少し長くなるので前・後編に分かれます。以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング
teddy-g 2015/12/02
Matrix Factorizationって日本語では行列因子分解って言うのか。具体的かつ詳しいのでわかりやすい。

bigdata

analytics

advancedanalytics

pca
リンク
Matrix Factorizationとは - Qiita
Machine Learning Advent Calendarです。普段はGunosyという会社で推薦システムを作ってますはじめに推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。本記事ではこの手法を紹介していきます。協調フィルタリングまず協調フィルタリングについておさらいしましょう。あるサービスで3人のユーザが５つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。
teddy-g 2015/12/02
次元縮減の手法のひとつ、Matrix Factorizationについて。協調フィルタリングと相性がいいそうな。

bigdata

advancedanalytics

analytics
リンク
ロトカ・ヴォルテラの捕食式 - もうカツ丼はいいよな
捕食者と被食者の個体数は捕食を通じて互いに影響しており、時に双方の個体数が共振動することがある。例えば、カナダのカンジキウサギ(被食者)とカナダオオヤマネコ(捕食者)の個体数は、約10年の周期で共振動している。野外では気象条件などの影響を排除し切れないが、室内の実験系においても共振動は確認されているらしい。個体数の共振動という現象は、理論的にはロトカ・ヴォルテラの捕食式を用いることで確認できる。ロトカ・ヴォルテラの捕食式では以下の仮定をしている。まず、捕食者、被食者がそれぞれ単独で存在していて、捕食-被食の関係が存在しない時、捕食される心配のない被食者は世代ごとにrの割合で個体数を増やし、獲物を得られない捕食者は世代ごといqの割合で死亡すると仮定する。被食者の個体数をN、捕食者の個体数をPとするとと表現できる。次に、単位時間あたりに捕食される被食者の数について、その数は捕食者が多
teddy-g 2015/12/01
Predator-Prey Modelというやつでぐるぐるループするデータ。普通の分析手法ではこの手のループを処理するのは難しい。

math

topology

TDA

bigdata

advancedanalytics

analytics
リンク
1 2 3 4 次のページ

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

はてなブックマーク

タグ

関連タグで絞り込む (44)

advancedanalyticsに関するteddy-gのブックマーク (69)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第4週）

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.