【予測結果まとめ】ボストンの住宅価格 (Boston housing prices corrected)
どうもhinomarucです。ずっとやらないといけないと思っていたことですが、今までPythonで機械学習で作成したボストンの住宅価格の予測モデルの結果をまとめました。
結果のまとめ
精度の良さ | 指標 | 単回帰 | 重回帰 | 多項式回帰 (n=2) | ニューラルネット | サポートベクター回帰 | Random Forest | XGboost |
---|---|---|---|---|---|---|---|---|
1に近いほどいい | adjusted_r2(train) | 0.55 | 0.68 | 0.81 | 0.60 | 0.63 | 0.98 | 0.98 |
1に近いほどいい | adjusted_r2(test) | 0.55 | 0.70 | 0.60 | 0.59 | 0.63 | 0.85 | 0.88 |
低いほどいい | 平均誤差率(test) | 0.21 | 0.18 | 0.18 | 0.25 | 0.17 | 0.12 | 0.11 |
低いほどいい | MAE(test) | 4.65 | 3.54 | 3.10 | 4.35 | 3.76 | 2.39 | 2.24 |
低いほどいい | MedianAE(test) | 3.51 | 2.49 | 2.36 | 3.69 | 2.36 | 1.66 | 1.64 |
低いほどいい | RMSE(test) | 6.57 | 5.26 | 5.00 | 5.90 | 5.84 | 3.51 | 3.13 |
1.253に近いほどいい | RMSE(test) / MAE(test) | 1.41 | 1.48 | 1.61 | 1.36 | 1.55 | 1.47 | 1.40 |
精度の良さ | 指標 | XGboost (Grid Search) | Voting Regressor 1.GradientBoostingRegressor 2.RandomForestRegressor 3.LinearRegression |
Voting Regressor 1.XGBRegressor 2.RandomForestRegressor 3.LinearRegression |
---|---|---|---|---|
1に近いほどいい | adjusted_r2(train) | 1.00 | 0.89 | 0.94 |
1に近いほどいい | adjusted_r2(test) | 0.90 | 0.82 | 0.87 |
低いほどいい | 平均誤差率(test) | 0.10 | 0.13 | 0.11 |
低いほどいい | MAE(test) | 2.07 | 2.79 | 2.23 |
低いほどいい | MedianAE(test) | 1.51 | 1.91 | 1.52 |
低いほどいい | RMSE(test) | 2.89 | 3.91 | 3.27 |
1.253に近いほどいい | RMSE(test) / MAE(test) | 1.39 | 1.40 | 1.47 |
精度の良さ | 指標 | アンサンブル学習 1. 重回帰 2. 多項式回帰 3. XGboost |
アンサンブル学習 1. 重回帰 2. 多項式回帰 |
---|---|---|---|
1に近いほどいい | adjusted_r2(train) | 0.87 | 0.76 |
1に近いほどいい | adjusted_r2(test) | 0.84 | 0.77 |
低いほどいい | 平均誤差率(test) | 0.12 | 0.14 |
低いほどいい | MAE(test) | 2.44 | 2.89 |
低いほどいい | MedianAE(test) | 1.87 | 1.95 |
低いほどいい | RMSE(test) | 3.65 | 4.40 |
1.253に近いほどいい | RMSE(test) / MAE(test) | 1.50 | 1.52 |
結果は、XGBoost (grid search)が一番良かったですね。訓練データに対する調整済みR2の値が1でテストデータに対する調整済みR2の値が0.9なので若干オーバーフィット気味ですが中々の精度です。
最適なパラメータを追求していけば、もっと精度があがりそうな気がします。