男女の失業率で独立性検定をやってみる
「2020年 労働力調査:e-Stat 政府統計の窓口」によれば、日本の失業率は「2.8%」です。
性別でみると男性が「3.0%」、女性が「2.5%」で差があります。今回はこの差が統計的に有意なもの(性別が失業率に影響するか)か検定しました。
仮説を立てる
帰無仮説を「失業率と性別は独立(無関係)」とします。なので、対立仮説は「失業率と性別は独立では無い(関係がある)」となります。
有意水準は5%とします。有意水準とは、誤って帰無仮説を棄却する確率です。この場合、帰無仮説「失業率と性別は独立(無関係)」を誤って棄却する確率が5%ということです。
クロス集計表
まずは、調査結果を表にまとめます。割合(失業率)ではなく、失業者・非失業者数を表にします。
理論度数表
「性別による失業率の差は無い」と仮定した場合の理論値を算出します。性別による差が無ければ、割合(失業率)は男女で同じになるはずです。
理論値は以下の式で求めます。
一例を示すと次の通りです。fi, fjは対応する行・列の合計値、nは全体の合計です。
他も同様に計算を行うと以下の表ができます。
相対誤差
続いて、相対誤差を表にします。相対誤差は以下の式で求めます。
一例を示すと次の通りです。fi・fj/nは理論値のため、既に求めた理論値を使います。
他も同様に計算を行うと以下の表ができます。
相対誤差の合計(表の右下)である「16389.945」がカイ二乗値になります。
この値と、有意水準5%のカイ二乗値とを比較して、帰無仮説が棄却されるか/されないかが決まります。
カイ二乗値
クロス集計表は2x2です。自由度は(行数-1)x(列数-1)なので、今回の自由度は1となります。
有意水準5%、自由度1のカイ二乗値は「3.841」です。ExcelやNumbersでは「CHIINV」関数で求めることができます。
結論は?
「16389.9 > 3.841」なので、帰無仮説「失業率と性別は独立(無関係)」は棄却されます。
つまり「失業率と性別とは関係がある」と言えます。
考えてみれば、当然の結果と言えます。男女それぞれ約3,000万人ほど集計して0.5%(約15万人分)差があるので、性別による影響があると想定できます。
女性の失業率が低い理由
結論わかりませんが、一般的には「女性の方が非正規でも良し(やむ無し)とする」という理由が挙げられています。
私は、夫婦のうち奥さんが共働きを断念するケースが多いからでもあると考えています。日本の失業者・労働力人口の定義では、就業を諦めた人を含みません。
【労働力人口】5歳以上の人口のうち,「就業者」と「完全失業者」を合わせたもの
【完全失業者】次の3つの条件を満たす者
1. 仕事がなくて調査週間中に少しも仕事をしなかった(就業者ではない。)。
2. 仕事があればすぐ就くことができる。
3. 調査週間中に,仕事を探す活動や事業を始める準備をしていた(過去の求職活動の結果を待っている場合を含む。)。
引用元:統計局ホームページ/労働力調査 用語の解説
共働きしたいけど不景気や家庭の事情で、奥さんが就業を断念するケースが多いのではないかと。そもそも、お子さんがいながら共働きする家庭はいつもすごいなと思います。
終わりに
身近なデータで独立性検定をやってみました。そんなに難しいことはやっていないのですが、慣れていないと思った以上に大変なものでした。
出典
アイキャッチはMediamodifierによるPixabayからの画像