どこにでもいる30代SEの学習ブログ

主にプログラミング関連の学習内容。読んだ本の感想や株式投資についても書いてます。

男女の失業率で独立性検定をやってみる

2020年 労働力調査:e-Stat 政府統計の窓口」によれば、日本の失業率は「2.8%」です。

性別でみると男性が「3.0%」、女性が「2.5%」で差があります。今回はこの差が統計的に有意なもの(性別が失業率に影響するか)か検定しました。

仮説を立てる

帰無仮説を「失業率と性別は独立(無関係)」とします。なので、対立仮説は「失業率と性別は独立では無い(関係がある)」となります。

有意水準は5%とします。有意水準とは、誤って帰無仮説を棄却する確率です。この場合、帰無仮説「失業率と性別は独立(無関係)」を誤って棄却する確率が5%ということです。

クロス集計表

まずは、調査結果を表にまとめます。割合(失業率)ではなく、失業者・非失業者数を表にします。

f:id:predora005:20210613195025p:plain

理論度数表

「性別による失業率の差は無い」と仮定した場合の理論値を算出します。性別による差が無ければ、割合(失業率)は男女で同じになるはずです。

理論値は以下の式で求めます。

一例を示すと次の通りです。fi, fjは対応する行・列の合計値、nは全体の合計です。

f:id:predora005:20210613203001p:plain

他も同様に計算を行うと以下の表ができます。

f:id:predora005:20210613195315p:plain

相対誤差

続いて、相対誤差を表にします。相対誤差は以下の式で求めます。

一例を示すと次の通りです。fi・fj/nは理論値のため、既に求めた理論値を使います。

f:id:predora005:20210613203533p:plain

他も同様に計算を行うと以下の表ができます。

f:id:predora005:20210613200157p:plain

相対誤差の合計(表の右下)である「16389.945」がカイ二乗になります。

f:id:predora005:20210613203956p:plain

この値と、有意水準5%のカイ二乗値とを比較して、帰無仮説が棄却されるか/されないかが決まります。

カイ二乗

クロス集計表は2x2です。自由度は(行数-1)x(列数-1)なので、今回の自由度は1となります。

有意水準5%、自由度1のカイ二乗値は「3.841」です。ExcelやNumbersでは「CHIINV」関数で求めることができます。

結論は?

「16389.9 > 3.841」なので、帰無仮説「失業率と性別は独立(無関係)」は棄却されます。

つまり「失業率と性別とは関係がある」と言えます。

考えてみれば、当然の結果と言えます。男女それぞれ約3,000万人ほど集計して0.5%(約15万人分)差があるので、性別による影響があると想定できます。

女性の失業率が低い理由

結論わかりませんが、一般的には「女性の方が非正規でも良し(やむ無し)とする」という理由が挙げられています。

私は、夫婦のうち奥さんが共働きを断念するケースが多いからでもあると考えています。日本の失業者・労働力人口の定義では、就業を諦めた人を含みません。

労働力人口】5歳以上の人口のうち,「就業者」と「完全失業者」を合わせたもの
【完全失業者】次の3つの条件を満たす者
1. 仕事がなくて調査週間中に少しも仕事をしなかった(就業者ではない。)。
2. 仕事があればすぐ就くことができる。
3. 調査週間中に,仕事を探す活動や事業を始める準備をしていた(過去の求職活動の結果を待っている場合を含む。)。
引用元:統計局ホームページ/労働力調査 用語の解説

共働きしたいけど不景気や家庭の事情で、奥さんが就業を断念するケースが多いのではないかと。そもそも、お子さんがいながら共働きする家庭はいつもすごいなと思います。

終わりに

身近なデータで独立性検定をやってみました。そんなに難しいことはやっていないのですが、慣れていないと思った以上に大変なものでした。

出典

アイキャッチMediamodifierによるPixabayからの画像

参考文献