次の例では、Kaggleというデータ分析コンペのサイトで公開されているデータセットを使って、CNNで分類をする。
Kaggleのアカウント登録
Kaggleのサイトからアカウントを登録する。SNSのアカウントを使っても良いし、メールアドレスから登録してもOK。
今回はメールアドレスからアカウントを作成してみた。 Usernameはユーザ名、Display NameはKaggleのサイト上での表示名になる。なお、Display Nameは登録後にも変更できるけど、Usernameは変更できないので注意。
送られてきたメールのリンクをクリックして、メールアドレスを確認すれば登録完了。
ざっとコンペの内容を見てみると、コンテストという体裁を取った、企業からのデータマイニング案件の外注サイトのようにも感じる。
その他にも、データサイエンスと機械学習の学習コンテンツなどもあるようだ。
データのダウンロード
今回の例では、"Dogs vs. Cats"というデータセットを用いる。
"Download" をクリックしてデータをダウンロードする。このとき、初回ダウンロード時のみ、携帯電話のSMSを使った認証をする必要がある。 その後、"train.zip"と"test1.zip"の両方をダウンロードしておこう。(合計で800MBくらいあるので少し時間がかかる)
ダウンロードしたzipファイルを展開すると、いぬぬこ画像がたくさん展開される。
本日はここまで。次回からはこのデータをディープラーニングを使って分類していく。