D2L 3.4 Softmax Regression

假设现在有3个未规范化的预测(Logit)：$o_1,o_2和o_3$ $o_1=x_1w_{11}+x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1$ $o_2=x_1w_{21}+x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2$ $o_1=x_1w_{31}+x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3$

3.4.3 全连接层的参数开销
#

对于任何具有d个输入和q个输出的全连接层[[3.1_LinearRegression#Fully-Connected Layer 全连接层]]，其参数开销为$O(dq)$，但可以通过超参数减少到$O(\frac{dq}{n})$

我们希望模型的输出$\hat y_j$可以视为属于类$j$的概率，然后选择具有最大输出值的类别$argmaxx_jy_j$作为我们的预测，例如$\hat y_1,\hat y_2$和$\hat y_3$分别为$\hat y={0.1,0.8,0.1}$那么我们的预测变为独热编码的$y={0,1,0}$，即为鸡

社会科学家邓肯·卢斯于1959年在选择模型（choice model）的理论基础上发明的softmax函数
softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质
为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负
为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。如下式$$\hat y=softmax(o)，其中\hat y_j=\frac{exp(o_j)}{\sum_kexp(o_k)}=\frac{e^j}{\sum_ke^k}$$
这里，对于所有的j总有$0\leq\hat y_j\leq1$，因此$\hat y$可以视为一个正确的概率分布
尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型（linear model）。

softmax函数给出了一个向量$\hat y$，我们可以将其视为“对给定任意输入x的每个类的条件概率
通过计算softmax的对数似然，可以推导出他的损失函数
假设现在有一个数据集 ${X,Y}$，其具有n个样本，其中索引i的样本由特征向量$x^{(i)}$和独热标签向量$y^{(i)}$组成，可以将估计值与实际值进行比较$$P(Y|X)=\prod^n_{i=1}P(y^{(i)}|x^{(i)})$$
根据[[3.1_LinearRegression#Likehood 似然]]，已知最大化$P(Y|X)，相当于最小化负对数似然 $$P(Y|X)=\sum^n_{i=1}-logP(y^{(i)}|x^{(i)})=\sum^n_{i=1}l(y^{(i)},\hat y^{(i)})$$
其中对于任何标签y和预测模型$\hat y$，损失函数为$$l(y,\hat y)=-\sum^{q}_{j=1}y_j\log \hat y_j$$
这个[[3.1_LinearRegression#Loss Function 损失函数]]并没有介绍过，他的名字为Cross-entropy Loss交叉熵损失，将在后面介绍到

数值稳定性： 在概率模型中，可能会有大量的乘法运算，这可能导致数值下溢或溢出问题，尤其是当概率很小的时候。通过取对数，可以将乘法运算转换为加法运算，从而提高计算的稳定性。
对数函数的导数相对于原函数来说更简单，这使得梯度的计算更加高效。特别是在梯度下降等优化算法中，简化的导数计算可以显著减少计算量。
对数函数的特性使得推导和分析变得更加简单，因为它可以将乘法转换为加法，并且有很多性质，例如对数函数的导数比原函数更容易处理

由于softmax和相关的损失函数很常见，因此我们需要更好地理解它的计算方式
将3.4.3带入Cross-entropy Loss Function中，得到 $$\begin{align}l(y,\hat y)=-\sum^{q}{j=1}y_j\log \frac{e^{o_j}}{{\sum^{q}{k=1}e^{o_k}}} \=-\sum_{j=1}^{q}y_j[\ln e^{o_j}-\ln \sum^q_{k=1}e^{o_k}] \=\sum^q_{j=1}y_j\log\sum^q_{k=1}e^{o_k}-\sum^q_{j=1}y_jo_j \=\log \sum^q_{k=1}e^{o_k}-\sum^q_{j=1}y_jo_j\end{align}$$