はじめに

1. データ

次のコードを実行して,従業員の賃金に関するサンプルデータをテージフレームとしてインポートしてください.

gd_data <- readr::read_csv("https://glassdoor.box.com/shared/static/beukjzgrsu35fqe59f7502hruribd5tt.csv")

変数の定義は変数名やカテゴリ名から読み取れる通りです.ただし,basePaybonusの単位はドルとします.

2. データクリーニング

2.1 女性ダミー(5pts)

genderという変数から,女性ダミー変数(female)をデータフレームに追加してください.

2.2 character型をfactor型に変換(5pts)

その他のカテゴリ変数を回帰分析で用いられるように,factor型に変換してください.

2.3 従属変数の作成(5pts)

basePaybonusの合計の対数を取ったものを,lsalaryとしてデータフレームに追加してください.

3. 要約統計量 (5pts)

各変数の要約統計量をテーブルにまとめなさい.何か特徴があれば指摘しなさい.

4. 賃金ジェンダーギャップの推定(5pts)

賃金のジェンダーギャップを回帰分析によって推定してください.誤差項の均一分散を仮定して構いません.

4.1

次の5つのモデルをOLSにより推定して,比較しやすいようそれらの推定結果をテーブルにまとめてください.

(1). \(\log(salary) = \beta_0 + \beta_1 female + u\)

(2). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + u\)

(3). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + u\)

(4). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + \sum_{dept}\beta_{dept}deptDummies + u\)

(5). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + \sum_{dept}\beta_{dept}deptDummies + \sum_{job}\beta_{job}jobDummies + u\)

4.2 (5pts)

(1)のモデルの推定結果を解釈してください.

4.3 (5pts)

(2)のモデルの推定結果を解釈してください.

4.4 (5pts)

(3)のモデルの推定結果を解釈してください.

4.5 (5pts)

(4)のモデルの推定結果を解釈してください.

4.6 (5pts)

(5)のモデルの推定結果を解釈してください.

4.7 (5pts)

(1)から(5)のモデルの推定結果について,\(female\)の係数はどのような挙動を見せていますか?その挙動について,考えられる理由を説明してください.

4.8 (5pts)

考えられる内生性について論じてください.