はじめに
社内でもくもく会の第三回・第四回を開催してみました。
今まではハンズオンのような内容をやっていたのですが、 今回は完全に自分のやりたい課題を持ってきて「もくもく」しました。
自分はKaggleをやりました。
Kaggleとは
第四回では「リクルートレストラン客数予想チャレンジ 」
をやってみました。
大切だと感じたこと
- データの前処理
完全に整備されているデータばかりではない世の中なので、欠損しているデータもあります。 その欠損している部分に対して、何を当てはめるかが結構重要なようです。 チュートリアルの中では、全データの中央値や一番出現頻度の高いものを欠損値に当てはめていましたが、結構センスを問われるところになるんじゃないかなって思いました。 各値の出現回数を取得して、全体の個数から導き出される出現率をもとに、欠損値へ当てはめてみるとか…いろいろやり方はありそうです。
- 扱いづらそうな値はどんどん置き換える
簡単なところだと性別ですよね。
["Sex"][test["Sex"] == "male"] = 0 test["Sex"][test["Sex"] == "female"] = 1
maleとfemaleを0と1に置き換えてます。文字列よりもゼロイチのほうが絶対に扱いやすい! 前の「データの前処理」と同じですけど、こういう細かいところも重要だと思いました。
- 目的変数と説明変数をいじってみる
一通り、チュートリアル通りに実行したあと、 目的変数と説明変数を足したり引いたりしたらスコアが上にも下にも大きく変わりました。 実際のデータ分析でも自分の思ったとおりにやっていい方向に行くことはまず無いとおもったので、 試行錯誤しまくるってところですかね。 実際のコンペティションだと提出回数もランキング付で重要になりそうなので、難しいですが…
- jupyter notebookが使えるようになる
たくさん使うと慣れてきました。
まとめ
今回は社内もくもく会でKaggleのタイタニックとリクルートレストラン客数予想チャレンジを使ってみました。
ちょこちょことコードを書く機会が増えて嬉しいです。 頑張ります。