アンサンブル学習とは?バギング、ブースティング、ブースティングを図で解説

スポンサーリンク
アンサンブル学習とは?バギング、ブースティング、ブースティングを図で解説基礎知識
この記事を読んで分かること
  • アンサンブル学習とは何か
  • バギングとは何か
  • ブースティングとは何か
  • スタッキングとは何か

 

 

一つの学習モデルだけでは良い精度を出すのは難しい時にアンサンブル学習はよく使われます。

3人寄れば文殊の知恵のように、複数の弱いモデルを組合わせることで高い精度を出すという考え方です。

 

アンサンブル学習は、分析コンペでもよく使われる効果的な手法となっています。

 

アンサンブル学習の種類

アンサンブル学習の手法は大きく3種類に分けることができます。

アンサンブル学習の手法
  • バギング
  • ブースティング
  • スタッキング

それぞれの手法について解説していきます。

 

バギング

バギングとは、

複数のモデルを並列に組み合わせて、多数決をとる手法

です。

 

バギングの説明

バギングでは、学習データから複数のサンプルデータを作り、各サンプルデータを元にモデルを作成していきます。

たくさん作ったモデルにそれぞれ推論させた結果を多数決して、最終的な出力結果となります。

 

サンプルデータの作成

サンプルデータを作成するときには、データの抽出(ブートストラップ法)特徴量の選択の2段階でサンプルデータを作成します。

ブートストラップ法は、学習データからランダムにデータを抽出して、サンプルデータを作成する手法です。

ブートストラップ法では、前のサンプルで1度使ったデータを間引くことはしないので、同じデータを再利用することを許容します。

 

ブートストラップ法

 

ブートストラップ法で抽出したデータに対して特徴量をランダムに取捨選択することで、多様性のあるサンプルデータを作成することが可能です。

 

バギングのメリット・デメリット

バギングの特徴は以下となります。

 
メリット
  • 簡単に実装できる
  • ある程度高い精度が見込める
  • 並列に学習を実施できる
 
デメリット
  • サンプルデータに偏りが出ることがある

 

ブースティング

ブースティングとは、

モデルを直列に組み合わせて、間違えた部分を集中的に学習する手法

です。

 

ブースティングとは?

ブースティングでは、前の学習モデルが間違えた部分を補うようにモデルを作っていきます。

まず1つ目のモデルは学習データを通常通り学習していきます。

次に、2つ目のモデルは1つ目のモデルが間違ったデータを重要視して学習していきます。

3つ目のモデルは今までのモデル(1つ目と2つ目)が間違ったデータを重要視して学習するといったように、連続的に学習していくことで、より精度を向上させていくことができる手法です。

 

ブースティングには、データ重みづけの方法によって様々な手法があり、代表的なものはアダブースト勾配ブースティングといったものになります。

 

ブースティングのメリット・デメリット

ブースティングの特徴は以下となります。

 
メリット
  • 高い精度が見込める
  • 学習データが同一なので、データの偏りがない
 
デメリット
  • 複数モデルを同時に学習できないため時間がかかる
  • 同じデータで何度も学習するため、過学習が起こりやすい

 

スタッキング

スタッキングとは、

複数のモデルを積み重ね、前のモデルの出力を特徴量として学習する手法

です。

 

スタッキングとは

スタッキングでは、学習データに対して様々なモデルを作り、その出力結果を入力として更にモデルを作ります

分かり易く2段構成を例として出しましたが、3段以上の構成にすることも可能です。

精度を上げるには学習用モデルに様々なアルゴリズムを使う必要があるので、機械学習に詳しくないと使うのが難しい手法になります。

データ分析コンペでもよく使われる手法になります。

 

スタッキングのメリット・デメリット

スタッキングの特徴は以下となります。

メリット
  • 様々なモデルで多角的に学習するので、精度が上がる可能性が見込める
 
デメリット
  • 複数のモデルを作るため手間がかかる
  • 結果の因果関係がブラックボックスになる
  • 計算コストが大きい

 

まとめ

アンサンブル学習とは、複数のモデルを組み合わせて機械学習の予測精度を高める手法でした。

アンサンブル学習は、バギング・ブースティング・スタッキングの3種類に分けられます。

バギングでは、モデルを並列に並べて学習して多数決を用います。

ブースティングでは、モデルを直列にして精度改善をしていきます。

スタッキングでは、他のモデルの出力を新たな特徴量として学習していきます。

 

アンサンブル学習は高い精度が出やすいので、使ってみてください。

 

参考文献

アンサンブル学習とは?バギングとブースティングとスタッキングの違い|スタビジ
当サイト【スタビジ】の本記事では、アンサンブル学習についてまとめていきます!アンサンブル学習とは機械学習を学ぶ上で非常に重要な考えであり、いくつかのモデルを組み合わせて汎化能力を上げるもの。有名なランダムフォレストやXgboostなどもアンサンブル学習によって生み出されているんです!
アンサンブル学習とは?仕組みやアルゴリズムを解説!バギング、ブースティング、スタッキングの違いも紹介| ITフリーランスエンジニア案件ならA-STAR(エースター)
​機械学習において、「アンサンブル学習」という言葉を一度くらいは目にしたことがある人は少なくないのではないでしょうか。実はこの考えは機械学習をしていく...

コメント

  1. 播磨っち より:

    ダイセルイノベーションパークの首席技師の久保田邦親博士(工学)材料物理数学再武装はとても面白いよ。

  2. グリーン経済 より:

    SLD-MAGICの開発者ね。うちはパワーエレクトロニクス関係のソレノイド電磁石のコア材に使ってますね。SUS440Cよりも生産性がいいので。

  3. ラマン分光関係 より:

    プロテリアルで島根大学の客員教授だった方の開発した特殊鋼ですね。なにやら水ビジネス関係のスラストベアリングがどうだとかいう話を聞きましたが。

  4. デジタルフロント より:

    エンジンのフリクションに関係する部分でも使われているようです。ピストンリングだとか。

  5. ナックスタック より:

    トライボフィルム理論はコミュニケーションツールとして面白い話ですね。

  6. ボールオンディスク より:

    CCSCモデルですね。ラマン分光法を使うとプラントメンテナンスなんかに役立つそうですよ。

  7. 品質工学関係 より:

    ボールオンディスクのバラツキ抑える秘訣、混ぜ物なしのパラフィン油の精密潤滑はなるほどと思いました。こういう方が経営トップだと話が早いんだが。

  8. ストライベック より:

    グリーン経済成長における先端産業のDXプラットフォームとして、テクノロジー投資の新たな対象として脚光を浴びつつありますね。

  9. マルテンサイト・トライボロジー より:

    ハガレンハガレンとうるさいが、トライボフィルムがハガレンのは当たり前だよな。

  10. サイエンス・コンセンサス より:

    トライボフィルムにレジリエンス性があるのは化学反応だからでしょ?その力の根源は夏の太陽により成長するグリーン。有機化合物。潤滑油。

  11. DXコア技術 より:

    だからといって固体物質が何でもいいとはかぎらない。マルテンサイトが多いが、非鉄系のバビットメタルなんかもある。ドライ系では潤滑油の代わりに樹脂がある。そこを統一的にやれないかということだ。

  12. エキソエレクトロン より:

    バイオマス製鉄ってできないのかな。

  13. 工具鋼物流 より:

    ビッグモーターの件は一段落かな。

タイトルとURLをコピーしました