大家好,我是章北海。

最近阿里巴巴全球数学竞赛非常火热,咱们就别参与那个不可能有结果讨论了,认真看个题。

打开网易新闻 查看更多图片

我们就只看决赛阶段应用于计算数学问题 2 的第一个证明,跟深度学习有点关系。

发了朋友圈后有圈友说要不要尝试挑战一下,我是数学小白,不过借助 GPT,或许真的可以试试。

下面的答案完全由 GPT 生成,用尽了 2 次 GPT-4o 的免费额度和 N 种提问方式才获得。

就证明过程,我还咨询了一位参赛的数学博士,他认为思路、得分没问题。

打开网易新闻 查看更多图片

看答案之前顺便分享一下经验:
0、角色扮演,让其假装成善于解题的数学家
1、不要直接图片提问,可以让 GPT 先把文字抽取出来
2、抽取的文字、公式有瑕疵需要手动修改,用 markdown 格式
3、题目翻译成英文提问,中间需要追问或修改也用英文提问
4、证明过程很长,看起来有错误的步骤可以中断,让其从指定位置重新开始
5、上下文过长后影响 GPT“智商”,可以重开窗口,从头再来
6、已确认无误的步骤可以当成自己的成果,加入到 prompt,让其继续
7、整个过程,很难一蹴而就,需要耐心
8、最后审视并汇总证明过程,翻译成中文返回答案

证明过程 第一步:计算损失函数的梯度

损失函数可以重写为:

对 求梯度:

第二步:线性化假设

在 附近进行线性化假设,我们有 。因此,

第三步:用 表示梯度

可以简化为:

第四步:梯度下降更新

给定梯度下降更新规则:

代入损失函数梯度的表达式:

第五步:误差动态

定义误差向量 。则更新规则变为:

简化为:

第六步:稳定性条件

为了确保稳定性,我们需要矩阵 的谱半径(最大绝对特征值)小于等于 1。这意味着:

第七步:特征值分析

矩阵 的特征值为 ,其中 是 的特征值。为了稳定,我们需要:

这给出了每个 的范围:

简化为:

给定 ,我们得到:

这是确保梯度下降局部稳定所需的稳定性条件。

第八步:损失函数界限

现在,我们需要计算 的上下界。由于 ,我们可以将损失函数写为:

第九步:上下界

设 和 分别为 的最小和最大特征值。

二次型 的界限为:

因此,损失函数的界限为:

考虑到 和假设 ,损失函数的上界为:

对于下界,假设 为正:

结论

在给定条件下,如果 ,梯度下降是局部稳定的。

损失函数 的上下界为: