Loading...
为什么要正则化? 在探讨这个问题之前,我们需要先引入欠拟合和过拟合的概念。 左侧:欠拟合,high bias, $error_{train} \gg error_{dev}$ 右侧:过拟合,high variance, $error_{train} \rightarrow 0\%$ 在过拟合的时候我们需要引入正则化,来避免过拟合。 这里介绍两种正则化方式: 权重衰减 (weight ...
Softmax 运算 softmax 运算用于将实数序列映射为和为一的概率序列,换句话说,softmax 运算用于将实数值规格化,使其和为一,映射成一个合理的概率分布。 下面是 softmax 的定义: Reference https://zh-v2.d2l.ai/chapter_linear-networks/softmax-regression-concise.html https:...