Titanicコンペは入門用コンペ

アカウント作成後にKaggleからメールが送られてきており、Titanicコンペへの参加を薦められます。 Titanicコンペは、タイタニック号の乗客のうち誰が生き延びたかを予測するコンペです。期限のない「入門用コンペ」です。

f:id:predora005:20200920120458j:plain

[1] コンペに参加する

[1-1] Titanicコンペのページを開く

メールの[Check out the Titanic Machine Learning Competition]をクリックし、Titanicコンペのページを開きます。

f:id:predora005:20200920120530j:plain

[Join Competition]をクリックすると、ルールを読むように勧められます。

f:id:predora005:20200920120556j:plain

[1-2] ルール

ルールを日本語訳したものを表にしました。チームを組むのはOK、チーム外で非公開に協力することはNG、提出物は1日に10個まで、というKaggleの中ではオーソドックスなルールのようです。入門用コンペなので期限は無しとなっています。

見出し	内容
参加者ごとに1つのアカウント	複数のアカウントからKaggleにサインアップできないため、複数のアカウントから送信することはできません。
チーム外のプライベート共有はありません	チーム外でコードやデータを個人的に共有することは許可されていません。フォーラムのすべての参加者が利用できるようになっている場合、コードを共有しても構いません。
チーム合併	チームの合併は許可されており、チームリーダーが実行できます。統合するには、統合チームの合計提出件数が、統合日時点で許可されている最大数以下でなければなりません。許可される最大数は、1日あたりの提出数に競争が行われた日数を掛けたものです。
チームの制限	チームの最大サイズはありません。
提出制限	1日に最大10個のエントリを送信できます。審査のために最大5つの最終提出物を選択できます。
競技タイムライン	開始日：2012年9月28日午後9時13分UTC 合併期限：なし応募締め切り：なし終了日：なしこれは、機械学習の開始を支援することを目的とした楽しいコンテストです。Titanicデータセットはインターネットで公開されていますが、回答を検索すると全体の目的に反します。真剣に、それをしないでください。

[1-3] 参加完了

ルールを確認し[I Understand And Accept]を押せば参加完了です。 [Join Competition]が[Submit Predictions]に替わっています。

f:id:predora005:20200920120834j:plain

[2] チュートリアルを参考に進める

公式の動画でも、Alexis Cook’s Titanic Tutorialを見るように勧めているので、まずはTutorialを参考に進めてみることにします。

f:id:predora005:20200920120855j:plain

[2-1] 概要を確認する

[Overview]タブで概要を確認します。タイタニック号でどの乗客が生き延びたかを予測することが目的だと分かりました。

競争は単純です。機械学習を使用して、どの乗客がタイタニック号の難破船を生き延びたかを予測するモデルを作成します。

タイタニック号の沈没は、歴史上最も悪名高い難破船の1つです。 1912年4月15日、処女航海中に、広く考えられている「沈められない」RMS タイタニック号は、氷山と衝突した後、沈没しました。残念ながら、乗船する全員に十分な救命艇がなかったため、2224人の乗客と乗組員のうち1502人が死亡しました。生き残るためには運の要素がいくつかありましたが、一部のグループは他のグループよりも生き残る可能性が高いようです。この課題では、「どのような人々が生き残る可能性が高かった」という質問に答える予測モデルを構築するよう求めます。乗客データ（名前、年齢、性別、社会経済クラスなど）を使用します。

[2-2] データを確認する

[Data]タブで概要を確認します。

f:id:predora005:20200920120933j:plain

[2-2-1] 入力データ

学習用データの「train.csv」、テスト用データの「test.csv」の2つが入力データであることが分かります。

[2-2-2] 提出ファイルのサンプル

Kaggleでは提出ファイルのサンプルも用意されており、Titanicコンペでは「gender_submission.csv 」が該当します。自分の予測結果を提出する際は、サンプルと同じフォーマットで提出します。

[2-2-3] 入力パラメータ

10パラメータについて説明が書かれています。

f:id:predora005:20200920121036j:plain

説明の必要なパラメータについては「Variable Notes」に詳細が書かれています。

f:id:predora005:20200920121052j:plain

pclass：社会経済的地位
sibsp：家族関係　- Sibling：兄、妹、義兄、義姉妹　- Spouse：夫、妻（愛人と婚約者は無視された）
parch：家族関係　- Parent：母、父　- Child：娘、息子、義理の娘、義理の息子　- 一部の子供は乳母と一緒に旅行したので、彼らはparch = 0でした。

のようです。私は英語が得意ではないので、Google翻訳の力を借りて進めました。