为什么回归问题用 MSE？

作者： Matrix.小泽直树

来源： https://zhuanlan.zhihu.com/p/463812174

最近在看李沐的实用机器学习课程，讲到regression问题的loss的时候有弹幕问：“为什么要平方？”

如果是几年前学生问我这个问题，我会回答：“因为做回归的时候的我们的残差有正有负，取个平方求和以后可以很简单的衡量模型的好坏。同时因为平方后容易求导数，比取绝对值还要分情况讨论好用。”

但是经过了几年的科研以后，我觉得这样的回答太过于经验性了，一定会有什么更有道理的解释，于是在知乎上搜了搜。

《CC思SS：回归模型中的代价函数应该用MSE还是MAE[1]》这篇文章中提到MSE对于偏差比较大的数据惩罚得比较多，但是会被outlier影响，同时MSE的优化目标是平均值，而MAE的优化目标是中位数。即如果我们的数据集足够大，对于同一个x会有多个y，MSE的目标是尽可能让我们的预测值接近这些y的平均值。同时这篇文章还提到在做gradient descent的时候，MSE的梯度可以在越接近最小值的地方越平缓，这样不容易步子扯大了。而MAE的梯度一直不变，得手动调整learning rate。

《在回归问题中，为何对MSE损失的最小化等效于最大似然估计？[2]》而这个问题里有人提到“根据中心极限定理，误差服从正态分布，此时使得样本似然函数最大等价于使得MSE最小。” 这段话引起了我的兴趣，在查阅了一些英文资料以后发现这是来自于花书的结论（Ian的《Deep Learning》）。

以下解释来源于花书（5.5）和[这篇博客][3]

要弄懂为什么回归问题要用MSE，首先要先明白什么是极大似然估计MLE（Maximum Likelihood Estimation）。

极大似然估计MLE

用一个一维的数据来讲解MLE的过程，假设我们有一组数据，我们假设它服从正态分布，我们的目的是：找到一组正态分布的均值和方差，使得在这套正态分布的均值方差下，我们观测到这批数据的概率最大。

手上的数据

关于这组数据，我们先胡乱地猜测一下它符合的正态分布如下：

胡乱猜测的正态分布

对于这个正态分布，我们可以计算每个点出现的概率：。其中和是这个正态分布的均值和方差，是第条数据，我们把每条数据出现的概率相乘，得到了“在这套正态分布的均值方差下，我们观测到这批数据的概率”。

同样的，我们可以猜测另一种正态分布：

另一种猜测的正态分布

同样的，我们可以计算“在这套正态分布的均值方差下，我们观测到这批数据的概率”。

最后，我们在这群待选的均值和方差中，选出那个能使我们观测到这批数据的概率最大的均值和方差。也就是我们在做

回归问题

现在我们再看回归问题，对于回归问题来说，我们的目标不是去找一个x的正态分布了。对于一个回归问题，我们以最简单的线性回归举例。对于一个回归问题，我们的目标是，其中和是模型的参数，而是噪声，我们假设噪声符合正态分布。

那么我们的其实也可以看成符合正态分布（并不是严谨的写法），其中其实就是模型的预测值，也就是说。

正态分布的probability density function是，带入得到。

那么也就是说，如果我们想最大化我们观测到的的情况的话，我们应该最大化上面这个pdf的连乘结果。注意到这个值由一个常数乘上一个的次方项，优化的时候常数项可以忽略。

于是我们的目标变成了，这里出现了连乘，又出现了的次方项，很正常的想到取log，于是变成了，忽略常数项，稍微整理一下得到。

于是我们就证明了，我们在做线性回归的时候，我们如果假设我们的噪声符合高斯分布，那么我们的目标函数就是MSE。

总结

很多时候，一些基础知识可能会影响你对一个模型结果表现的理解，如果对这种基础知识没有概念的话，深度学习就变成了瞎调模型瞎调参数了。[另一篇博客][4]就提到了，在做super resolution的时候，如果用MSE，做出来的图片会非常的模糊，就是因为MSE是基于高斯分布假设，最后的结果会尽可能地靠近高斯分布最高的地方，使得结果不会太sharp。以后还是得适时提高深度学习的理论基础。

参考资料

REFERENCE

[1] CC思SS：回归模型中的代价函数应该用MSE还是MAE
https://zhuanlan.zhihu.com/p/45790146
[2] 在回归问题中，为何对MSE损失的最小化等效于最大似然估计？
https://www.zhihu.com/question/426901520 [3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806 [4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b

为什么回归问题用 MSE？

外交发言频繁使用“甩锅”，真的合适吗？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

随着利物浦4-2掀翻热刺，产生了三大不可思议，两个不争事实！

严查郭楠三裁判！为何半决赛执裁辽粤战，实行双标判罚？

女子用导航实景走山路大喊：这是路吗你就让我走

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

太可怕！悬崖边上“堵人”了？大量游客被挂半山腰：脚下是万丈深渊，动弹不得…救援费用曝光，网友炸锅→

中超-申花4-0浙江阿马杜马莱莱路易斯2球

中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

家长第一次去给孩子铺床才发现孩子睡厕所边2个月

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖

民政部：全面开展最低生活保障边缘家庭认定工作

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

中柬两军将举行“金龙-2024”联合演习

抢七大战米切尔39+9骑士逆转4-3魔术！班凯罗38+16

为什么回归问题用 MSE？

外交发言频繁使用“甩锅”，真的合适吗？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

随着利物浦4-2掀翻热刺，产生了三大不可思议，两个不争事实！

严查郭楠三裁判！为何半决赛执裁辽粤战，实行双标判罚？

女子用导航实景走山路 大喊：这是路吗 你就让我走

决赛3比1力克印尼 国羽男队时隔6年重新捧起汤姆斯杯

太可怕！悬崖边上“堵人”了？大量游客被挂半山腰：脚下是万丈深渊，动弹不得…救援费用曝光，网友炸锅→

中超-申花4-0浙江 阿马杜马莱莱路易斯2球

中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

家长第一次去给孩子铺床 才发现孩子睡厕所边2个月

俄军用中国制"高尔夫球车"运士兵 不料遭密集火力覆盖

民政部：全面开展最低生活保障边缘家庭认定工作

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

中柬两军将举行“金龙-2024”联合演习

抢七大战米切尔39+9骑士逆转4-3魔术！班凯罗38+16

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

女子用导航实景走山路大喊：这是路吗你就让我走

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

中超-申花4-0浙江阿马杜马莱莱路易斯2球

家长第一次去给孩子铺床才发现孩子睡厕所边2个月

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖