もともとKaggle(データ分析の競技プログラミング)に挑戦してみたいと考えていたところ、翔泳社ブックアンバサダーで表題の書をプレゼントしてもらいました。感想をまとめようと思います。

https://amzn.to/2NIWXi9

本書の特徴

 本書はデータ分析の初学者向けの解説本です。読むにあたりPythonの基本的なプログラミングスキルは必要です。Kaggleには初心者向けのチュートリアルとして「Titanicコンペ」や「House Pricesコンペ」がありますが、これらのチュートリアルを題材にして、分析方法や、結果の考察、精度の磨き方を学びながら、Kaggleに挑戦することができます。

感想などなど

 Kaggleは2010年にAnthony GoldboomとBen Hamnerによってスタートしたデータ分析のコンペティションプラットフォームです。創業者のAnthony Goldboom氏は機械学習の重要性や位置づけについてTEDで短いプレゼンをされています。

 そんなKaggleに対して、本書ではまず、Kaggleの始め方、ルール、ランクについて、丁寧に解説があります。いざ入門しようする方は、確実にスタートできますね。Kaggleは邦訳サイトが無い分とても助かります。またデータ分析に利用する分析環境も、Windows、Mac、Notebooks(Kaggle上の環境)のそれぞれについてセットアップ手順を示しています。

 実際のコンペの挑戦は「Titanicコンペ」を題材にしています。こちらも丁寧で初心者にとっては助かる。下記の流れで解説を進めていきます。

  1. コンペの解説
  2. データの取得方法
  3. データ分析の準備、データの概要の把握、データの可視化
    • 探索的データ解析によるデータを把握する手段をステップ・バイ・ステップで解説。データ分析に関する基礎はもっと理論的に抑える必要があるのでしょうが、スタートしてみたい人にとっては手取り足取り進めてくれてとても勉強になる。よくある初心者の落とし穴で、データ把握を飛ばし、いきなりモデルに食べさせるってことをついついやっちゃうんですよねぇ。
  4. 前処理、特徴量の抽出、モデリング
    • LightGBM(勾配ブースティング決定木の実装方法の一つ)を利用して分析。LightGBMはKaggleでは良く利用される手法とのこと。本当は機械学習に関する知識(過学習や、学習データ・検証データの分離法、ハイパーパラメータのチューニング法など)が必要ですが、そこはあっさり解説。他書に頼るのがよさそうですね。(私のおすすめはこれ→AIエンジニアを目指す人のための機械学習入門
  5. Kaggleへ結果を提出
  6. その他の分析視点

同様に「House Pricesコンペ」も著者と一緒に進めていくことになります。

 本書の後半は、Kaggle Masterへのインタビュー、Kaggle Days Tokyo 2019というコミュニティイベント、専業Kaggler(!?)の一年半と、Kaggleを取り巻く日本の環境について解説があります。自分ももう少しKaggleと仲良くなれたらコミュニティに参加してみたいです。

おわりに

 本書は、Kaggleを始めてみようと思う初心者に向けたとても丁寧な本でした。私が思うに網羅的にテクニックが使われているため、深掘りしたい場合、それぞれ他書・他の情報源に進んでいくのが良いでしょう。その点からすると参考文献があっさりなことがちょっと残念でした。もう少し追いやすいように紐づけするか、参考文献ごとの一言解説があると嬉しかったなぁ。

 さて、、、今年こそは私もKaggleやろう、コンペに挑戦しよう!