那些网站做任务能赚钱,低价高端网站设计,品牌网站官网,wordpress国内优化 墙以下是个人理解#xff0c;希望进行讨论求解。
练习
1. 如果我们将权重初始化为零#xff0c;会发生什么。算法仍然有效吗#xff1f; 根据SGD算法公式如上#xff0c;第一次迭代的值可知w只与b相关#xff0c;而对于b的迭代更新#xff0c;只是与b的初始值相关#x…以下是个人理解希望进行讨论求解。
练习
1. 如果我们将权重初始化为零会发生什么。算法仍然有效吗 根据SGD算法公式如上第一次迭代的值可知w只与b相关而对于b的迭代更新只是与b的初始值相关x没有参与迭代的计算过程中不能够达到收敛的目的。 进行运行可以如下结果
2. 假设试图为电压和电流的关系建立一个模型。自动微分可以用来学习模型的参数吗?
显而易见可行因为 URII和U的关系是线性关系。
3. 能基于普朗克定律使用光谱能量密度来确定物体的温度吗
能基于普朗克定律使用光谱能量密度如下 推导公式最后如下可得其u与T之间是线性关系是正比情况所以可以利用SGD的方法通过数据进行拟合。 4. 计算二阶导数时可能会遇到什么问题这些问题可以如何解决
显而易见存在一阶导数光滑但是二阶导数曲线不光滑的情况类似于一阶导数驻点突变问题。利用阈值判断停止计算或者调整学习率等参考上一章的答案。以上是我能够想到的问题。显然不是足够所以动用一下gpt帮忙
5. 为什么在squared_loss函数中需要使用reshape函数
要将真实值y的形状转换为和预测值y_hat的形状相同。根据函数矩阵计算可知x是102大小w是21得出的y_hat是101但是y是110所以需要转置。
6. 尝试使用不同的学习率观察损失函数值下降的快慢。
学习率0.01的时候 学习率0.02的时候 可知道收敛速度不同收敛精度不同
7. 如果样本个数不能被批量大小整除data_iter函数的行为会有什么变化
修改代码batch_size设置为11进行运行发现可运行说明了最后一个batch直接被运算抛弃了不参与计算。