次のコードを実行して,従業員の賃金に関するサンプルデータをテージフレームとしてインポートしてください.
gd_data <- readr::read_csv("https://glassdoor.box.com/shared/static/beukjzgrsu35fqe59f7502hruribd5tt.csv")
変数の定義は変数名やカテゴリ名から読み取れる通りです.ただし,basePay
とbonus
の単位はドルとします.
gender
という変数から,女性ダミー変数(female
)をデータフレームに追加してください.
その他のカテゴリ変数を回帰分析で用いられるように,factor型に変換してください.
basePay
とbonus
の合計の対数を取ったものを,lsalary
としてデータフレームに追加してください.
各変数の要約統計量をテーブルにまとめなさい.何か特徴があれば指摘しなさい.
賃金のジェンダーギャップを回帰分析によって推定してください.誤差項の均一分散を仮定して構いません.
次の5つのモデルをOLSにより推定して,比較しやすいようそれらの推定結果をテーブルにまとめてください.
(1). \(\log(salary) = \beta_0 + \beta_1 female + u\)
(2). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + u\)
(3). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + u\)
(4). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + \sum_{dept}\beta_{dept}deptDummies + u\)
(5). \(\log(salary) = \beta_0 + \beta_1 female + \beta_2 age + \sum_{educ}\beta_{educ} educDummies + \sum_{dept}\beta_{dept}deptDummies + \sum_{job}\beta_{job}jobDummies + u\)
(1)のモデルの推定結果を解釈してください.
(2)のモデルの推定結果を解釈してください.
(3)のモデルの推定結果を解釈してください.
(4)のモデルの推定結果を解釈してください.
(5)のモデルの推定結果を解釈してください.
(1)から(5)のモデルの推定結果について,\(female\)の係数はどのような挙動を見せていますか?その挙動について,考えられる理由を説明してください.
考えられる内生性について論じてください.