大家好,我是章北海。
最近阿里巴巴全球数学竞赛非常火热,咱们就别参与那个不可能有结果讨论了,认真看个题。
![](https://static.ws.126.net/163/frontend/images/2022/empty.png)
我们就只看决赛阶段应用于计算数学问题 2 的第一个证明,跟深度学习有点关系。
发了朋友圈后有圈友说要不要尝试挑战一下,我是数学小白,不过借助 GPT,或许真的可以试试。
下面的答案完全由 GPT 生成,用尽了 2 次 GPT-4o 的免费额度和 N 种提问方式才获得。
就证明过程,我还咨询了一位参赛的数学博士,他认为思路、得分没问题。
![](https://static.ws.126.net/163/frontend/images/2022/empty.png)
看答案之前顺便分享一下经验:
0、角色扮演,让其假装成善于解题的数学家
1、不要直接图片提问,可以让 GPT 先把文字抽取出来
2、抽取的文字、公式有瑕疵需要手动修改,用 markdown 格式
3、题目翻译成英文提问,中间需要追问或修改也用英文提问
4、证明过程很长,看起来有错误的步骤可以中断,让其从指定位置重新开始
5、上下文过长后影响 GPT“智商”,可以重开窗口,从头再来
6、已确认无误的步骤可以当成自己的成果,加入到 prompt,让其继续
7、整个过程,很难一蹴而就,需要耐心
8、最后审视并汇总证明过程,翻译成中文返回答案
证明过程 第一步:计算损失函数的梯度
损失函数可以重写为:
对 求梯度:
第二步:线性化假设
在 附近进行线性化假设,我们有 。因此,
第三步:用 表示梯度
可以简化为:
第四步:梯度下降更新
给定梯度下降更新规则:
代入损失函数梯度的表达式:
第五步:误差动态
定义误差向量 。则更新规则变为:
简化为:
第六步:稳定性条件
为了确保稳定性,我们需要矩阵 的谱半径(最大绝对特征值)小于等于 1。这意味着:
第七步:特征值分析
矩阵 的特征值为 ,其中 是 的特征值。为了稳定,我们需要:
这给出了每个 的范围:
简化为:
给定 ,我们得到:
这是确保梯度下降局部稳定所需的稳定性条件。
第八步:损失函数界限
现在,我们需要计算 的上下界。由于 ,我们可以将损失函数写为:
第九步:上下界
设 和 分别为 的最小和最大特征值。
二次型 的界限为:
因此,损失函数的界限为:
考虑到 和假设 ,损失函数的上界为:
对于下界,假设 为正:
结论
在给定条件下,如果 ,梯度下降是局部稳定的。
损失函数 的上下界为: