パーセプトロンとは?図解で分かりやすく解説!!

主成分分析(PCA)とは？図解で分かりやすく解説

【Ubuntu】nvidia-driverのインストール方法をわかり易く解説

【Ubuntu】蓋を閉じてもノートPCをスリープにしない方法

kNN(k-Nearest Neighbor method)とは?k近傍法を分かりやすく解説!!

全結合層とは?DeepLearningの基本的なモデルを解説

GBDT(勾配ブースティング木)とは？図解で分かりやすく説明

ランダムフォレスト(Random forest)とは?機械学習モデルを分かりやすく解説!!

決定木とは？不純度の計算も分かりやすく解説

訓練データと検証データとテストデータの違い!!機械学習におけるデータセットの分割を解説

【線形代数】特異値分解とは?例題付きで分かりやすく解説!!

k-means法とは？図解で分かりやすく解説!!

転置畳み込みは(逆畳み込み)とは?画像生成に使われる手法を分かりやすく解説

勾配降下法とは?分かりやすく図解で解説

ソフトマックス関数(softmax関数)とは?機械学習の視点で分かりやすく解説!!

カーネル法(Kernel method)とは？次元を変えて分かりやすくするテクニック!!

【TensorFlow】GPUが認識されているか確認する方法

バイアス・バリアンスとは?図解で分かりやすく数式まで徹底解説!!

機械学習手法の選び方!!教師ありモデルの実践的チャート付

スポンサーリンク

基礎知識

2021.10.27

この記事を読んで分かること

機械学習手法の選択の観点
機械学習手法の実践的選択方法

機械学習の手法には様々なものがありますが、初学習者にはどの手法を使えばよいか分からないと思います。

状況に応じて臨機応変に選ぶというのが正しいのですが、それだと元も子もないのである程度の指針をまとめました。

目次

モデル選択の観点
チートシート
より実践的な機械学習手法の選択方法
まとめ
参考文献

モデル選択の観点

機械学習モデルは以下の観点で選択していきます。

精度
計算速度
使いやすさ
多様性

精度

これが重要なことは自明ですね。

精度の高い予測を行うことがデータ分析の目的なので、機械学習モデルの選択で最優先するポイントです。

計算速度

機械学習では様々なパラメータや特徴量を変えて試行錯誤をするため、計算速度も重要なポイントです。

1回のモデル作成に時間がかかりすぎるとチューニングが難しいため、採用しづらいモデルとなります。

使いやすさ

特徴量の作成や欠損値の修正などの前処理が単純になると、リークさせてしまうなどの人為的ミスも減ります。

また、判定基準が人間にも分かりやすいことも重要です。

モデルの出力がどうしてそうなったのか説明できると、人間の直感と合っているかなどの観点で評価することでおかしなモデルに気づくことができます。

多様性

アンサンブル学習をする前提の話となりますが、他のモデルと違う観点で判断するモデルは有用となります。

たとえ単体のモデルの精度が悪かったとしても、アンサンブルでの精度向上には寄与できるからです。

例えば、晴れの日の予測精度は悪いが、雨の日の予測精度が高いようなモデルならば、雨の日の予測部分でアンサンブルに貢献できるということですね。

チートシート

機械学習手法を選択するための指針もすでにいくつか存在しているので紹介していきます。

scikit-learn

出典元：scikit-learn公式サイト

Azure

出典元：microsoft公式サイト

Sas

出典元：sas公式サイト

共通して以下のことが読み取れました。

正確なモデルを作る場合は、ランダムフォレストやニューラルネットワーク、勾配ブースティング木を使用する
高速なモデルには線形モデルを使用する

より実践的な機械学習手法の選択方法

実際の解析を行うときには何をすればよいのか、より具体的にまとめました。

今回はテーブルデータの分析をする場合の機械学習手法の選択方法を紹介します。

データ分析における機械学習モデルの選択

ステップ1
GBDT
ステップ2
ニューラルネット
ステップ3
線形モデル
10万以上の大量のデータがあったり、過学習しやすい場合
ステップ4
アンサンブル学習
ｋ近傍法、ランダムフォレスト、RGF、FFMなど

とりあえず、GBDTとニューラルネットを使ってみるのが良いかと思います。

2021年現在では、GBDTもしくはニューラルネットのどちらかが比較的精度の出しやすい手法となっています。

100万以上の大量のデータがあったり、過学習しやすくGBDTやニューラルネットで精度が出ないときには、線形モデルも有効な手法となってきます。

それでも精度が足りない場合には、他のモデルを使いアンサンブル学習をしていくのが一般的です。

機械学習の代表的な手法の1つであるサポートベクターマシン(SVM)は、精度や計算速度の問題で実用されることが少なくなっています。

まとめ

機械学習の手法の選択方法を解説していきました。

選択の観点には4つあり、精度・計算速度・使いやすさ・多様性を意識する必要があります。

データ解析をする際には、GBDTとニューラルネットのモデルをまずは作成し、他のモデルも追加してアンサンブル学習をしていけばそれなりの結果を得られると思います。

もっと高い精度を出すためには、課題に応じたモデルの選択が必要になります。

参考文献

Kaggleで勝つデータ分析の技術

created by Rinker

コメント

タイトルとURLをコピーしました