takecian

Diary

11 Dec 2019

kaggle を始めた

AtCoderをやってたんだけど子どもの寝る時間が20時過ぎることがあったり(それまで晩ご飯食べられない)でコンテストに出るのが大変な時期になってる。

そこでリアルタイムにコンテストに出るのは当分諦めて後から問題だけやってみることにした。

他に時間の縛りが緩くてできるものないかなということで kaggle をやってみることにした。

Kaggleで勝つデータ分析の技術っていう本を買って読み進めてるところ。

kaggle はデータ分析のテクニックとそれを使って学習したモデルを使って、未知のデータの予想精度を競うものらしい。

チュートリアル問題として「タイタニックの生存者予測っていうお題がある。

データとして名前、性別、年齢、どこから乗ったか、何人で乗ったか、などの属性と「その人が生存したかどうか」が与えられる。 与えられたデータを使って学習した後に、別のデータを与えられて、「そのデータの人が生存したかどうか」を予想する。

昔やった「Chainer で競馬予想をしてみる」と同じようなこと(もっと高度だけど)をやるっぽい。

結構面白そう、と思って本を読みながら勉強してるんだけど、

  • データ解析のための知識(カテゴリ変数をどう扱うか、とか)
  • データ解析のための技術(pandas とかグラフにする方法とか)
  • 機械学習ライブラリの使い方(deep learning に限らず)
    • そもそも機械学習ライブラリのアルゴリズムの理解も

とか分からないことが大量に出てきた(競プロだと pandas とか使わないし仕事だとちょっとしたスクリプトくらいしか Python で書かない)

というわけで追加で前処理大全 も買ってみた。

ちなみに kaggle も AtCoder みたいにランクがある。 https://www.kaggle.com/progression Novice -> Contributer -> Expert -> Master -> GrandMaster の順。

初期設定とか一通りやると Contributer になれて、今ここ。

まず Expert を目指してみようと思う。