【書評】Kaggleで勝つデータ分析の技術

スポンサーリンク
【書評】Kaggleで勝つデータ分析の技術AIの書籍
「Kaggleで勝つデータ分析の技術」の評価
  • データ分析コンペではどんなことをするのか?という疑問を入門者目線で丁寧に解説してくれています。
  • 必要な知識をピンポイントに取り上げているので、コンペに挑戦する最短の道を示してくれています。
  • コンペで行うフローなど正解がないが多くの入門者が困ることに対し、実体験を元にした筆者独自の解答を出してくれています。

 

Kaggleに挑戦するために必要な知識を綺麗にまとめてくれている本です。

著書自身もKagglerで、実体験を元に見つけた手法を惜しげもなく解説してくれています。

こちらの本の感想を書いていきます。

どんな人におすすめか

  • 機械学習を一通り学び、実践してみたい人
  • データ分析コンペに挑戦したいエンジニア
  • Kaggleのスコアをもっと伸ばしたいと思っている人

データ分析コンペの上級者が執筆している、Kaggleの入門書という位置づけです。

 

データ分析コンペならではの知識も1から親切に説明があるので、コンペが初めての人でも安心して読み進めることができます。

データ分析コンペとは何か?から始まり、コンペでは具体的に何をすればよいのかがすごく丁寧に記載されています。

 

ただし、事前知識として機械学習の基礎的な内容を身につけておいたほうが良いと思います。

 

本の構成

 

目次

第1章 分析コンペとは?
第2章 タスクと評価指標
第3章 特徴量の作成
第4章 モデルの作成
第5章 モデルの評価
第6章 モデルのチューニング
第7章 アンサンブル

 

前半は分析コンペとは何か?どんな評価方法なのかといった、競技のルールを説明する部分となります。

中盤以降で、課題への取り組み方やより精度を上げる方法を解説し、競技の戦い方や勝つ方法を説明しています。

 

著書がkagglerのため、実体験に基づく解説をしているのでしっかりとした根拠が示されていて信頼できる内容です。

 

感想

kaggleがどんなものなのか分かる

kaggleとは何なのか?個人競技なのか?始めたいけどどうすればよいのか?などの基礎的な内容から丁寧に解説してくれています。

kaggleに参加するメリットや順位の決め方(Public Leaderboard, Private Leaderboard)といった駆け引きの面白さも理解でき、kaggleに挑戦してみようという気持ちになります。

 

また、実際にどんな問題があるのか、評価の指標はどんなものがあるのかも説明していて、機械学習で世の中のどんな課題が解決できるのかを学ぶことができます。

そのため、読み物としても優れていて実務に沿った機械学習全般の知識を得ることができます。

 

kaggleでの定跡や分析フローを知ることができる

とりあえず初手としてGBDTを試してみるなど、kaggle経験者が行う基本的な解析フローについて知ることができます。

こういった情報はどこかで解説しているわけでもなく、やっていると身につくことなのですが、それを言語化してくれているのは非常にありがたいです。

どんなものでも対応できる技法は存在しないので、この書籍の通りやれば全てうまくいくといったわけではありませんが、最初のうちはある程度手順があると手も動かせるので非常に役に立ちました。

独学で初めてデータ分析コンペに挑戦する場合、解析結果を提出するというスタートラインにすら立てない状況に陥りがちですが、それを解決してくれます。

 

基礎的な技術も細かく解説もしてくれているのですが、決して初級者だけに向けた書籍ではありません

kaggle経験者がよりスコアを伸ばすために、上位のプレーヤーがどんな工夫をしているのか分かりやすく説明しています。

例えば、Public Leaderbpardへの過剰な適合を避けるためにバリデーションデータの分割方法をどう工夫するか、使える学習データを増やして精度を上げるなど、とても勉強になる内容がたくさん含まれています。

また、トップクラスの人でも苦労している部分も分かり、分析コンペの肝となる部分が分かるようになってきます。

 

機械学習の理論部分まで網羅している

経験に基づいてこのモデルが精度が良いという情報だけでなく、きちんと機械学習手法のアルゴリズムなどの理論部分の説明もされています。

そのため、ただ何となくそれっぽい分析ができるのではなく、きちんと何をやっているのか理解できるようになります。

本当に良いスコアを出そうとしたら、アルゴリズムを知っていないとチューニングも正しくできないので、当然なのですが、付け焼刃の知識を身につける本ではありませんでした。

 

ただ、理論部分がメインの書籍ではないので、若干内容が薄いことは否めません。

そのため、機械学習手法についてもっと勉強したい場合は、他の書籍を読むことが必須となります。

 

書籍の情報

 
出版社技術評論社
著者門脇大輔、阪田隆司、保坂桂佑、平松雄司
発売日2019年10月22日
定価3,280円(税別)
ISBN-104297108437
判型B5・424ページ

 

コメント

タイトルとURLをコピーしました