D2L 3.1 Linear Regression

由于平方误差函数中的二次方项，会导致估计值和观测值之间较大的差异造成更大的损失。
为了度量模型在整个数据集上的质量，我们需要计算训练集上的样本损失均值 $$L(w,b)= \frac{1}{n}\Sigma^n_{i=1}l^{(i)}(w,b)=\frac{1}{n}\Sigma^n_{i=1}\frac{1}{2}(w^Tx^{(i)}+b-y^{(i)})^2$$
总的来说训练模型就是为了找到一组参数$w^,b^$，其 $$w^,b^=argmin~L(w,b)$$

3.1.1.3 解析式
#

线性回归是一个很简单的优化问题，与大部分模型不同，其解可以用一个公式简单的表达出来，这类解便称为Analytical Solution 解析解

3.1.1.4 随机梯度下降
#

即使在无法得到解析解的情况下，我们可以有效的训练模型

Gradient Descent 梯度下降
#

最简单的方法就是计算Cost Function关于模型参数的导数（梯度）
但由于每次操作前都需要遍历整个数据集，导致执行速度非常之慢
所以通常会在每次更新时候抽取一小批样本，即为Minibatch Stochastic Gradient Descent 小批量随机梯度下降

SGD
#

Minibatch Stochastic Gradient Descent 小批量随机梯度下降
每次迭代中，我们首先随机抽样一个小批量B，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。最后，我们将梯度乘以一个预先确定的正数，并从当前参数的值中减掉 $$(w,b)\leftarrow(w,b)-\frac{\eta}{|B|}\Sigma_{i\in B}\partial_{w,b}l^{(i)}(w,b)$$
初始化模型参数的值
从数据集中随机抽取小批量样本在负梯度方向上更新参数，并一直迭代
$\eta$表示Learning Rate 学习率
B表示Batch Size 批量大小

Hyperparameter 超参数
#

这些可以调整但不在训练过程中更新的参数称为超参数
Hyperparameter Tuning为调整Hyperparameter的过程
而训练迭代结果是在独立的验证数据集（validation dataset）上评估得到的

收敛
#

Linear Regression只会让预测值无限接近于实际值而却不能在有限的步数内非常精确地达到最小值

Generalization 泛化
#

寻找到一组合适的Hyperparameter纵然困难，但更加困难的是找到一组参数，这组参数能够在我们从未见过的数据上实现较低的损失，这一挑战被称为Generalization 泛化

3.1.1.5 用模型进行预测
#

需要指出的是，Deep Learning对于实际值的接近更多是一种Prediction预测而非Inference推断

3.1.2 矢量化加速
#

为了同时处理整个小批量的样本，同时防止在python中编写开销高昂的for循环

矢量化性能测试
#

实例化两个全为1的10000维向量，采取两种处理方式，Python的for循环和对+的调用

###初始化两个Tensor
n = 10000
a = torch.ones([n])
b = torch.ones([n])

###用for循环完成一次
c = torch.zeros(n)
timer = Timer()
for i in range(n):
    c[i] = a[i] + b[i]
f'{timer.stop():.5f} sec'

###用线性代数完成矢量化运算
timer.start()
d = a + b
f'{timer.stop():.5f} sec'

得到的结果为 0.167sec 和0.00042 sec

3.1.3 正态分布与平方损失
#

接下来，我们通过对噪声分布的假设来解读平方损失目标函数

正态分布
#

[[Normal Distribution 正态分布]]

均方误差损失函数
#

均方损失可以用于线性回归的一个原因是：我们假设了观测中包含噪声，其中噪声服从正态分布，如下 $$y=w^Tx+b+\epsilon$$
$\epsilon$代表了噪声

Likehood 似然
#

[[Likehood 似然]]
通过给定的x观测到特定y的似然（likelihood） $$p(y|x)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{1}{2\sigma^2}(y-w^Tx-b)^2)$$
对于似然函数$L(\theta|data)=P(data|\theta)= \Pi^N_{i=1}P(x_i|\theta)$
已知x的正态分布密度函数，也就是x（$\theta$取每个值的概率）
要求得给定x（$\theta$）（其不固定，但遵循正态分布）观测到特点y的似然，得到公式 $L(x|y)=P(y|x)$
已知$p(y|x)=\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{1}{2\sigma^2}(y-w^Tx-b)^2)$
由于$P(y|x)=\Pi^N_{i=1}P(y^{(i)}|x^{(i)})$（由x的参数条件下观测到y的可能性为独立的N个子事件的乘积）
根据[[Maximum Likehood Estimation 极大似然估计]]，参数w和b的最优值是使整个数据集的[[Likehood 似然]]最大的值
但又因为乘积最大化问题十分复杂，并且由于历史遗留问题，优化常说的不是最大化，而是最小化
所以我们需要通过最小化对数似然$-logP(y|x)$，由此可以得到的数学公式为 $$-logP(y|x)=\sum\limits^n_{i=1}\frac{1}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y^{(i)}-w^Tx^{(i)}-b)^2$$
推导如下
$-logP(y|x)=-log\sum\limits^n_{i=1}\frac{1}{\sqrt{2\pi \sigma^2}}exp(-\frac{1}{2\sigma^2}(y-w^Tx-b)^2)$
$=-log\sum\limits^n_{i=1}\frac{1}{\sqrt{2\pi \sigma^2}}e^{(-\frac{1}{2\sigma^2}(y-w^Tx-b)^2)}$ $=-log(\sum\limits^n_{i=1}\frac{1}{\sqrt{2\pi \sigma^2}})+\frac{1}{2\sigma^2}(y-w^Tx-b)^2$ $=-log\sum\limits^n_{i=1}(2\pi\sigma^2)^{-\frac{1}{2}}+\frac{1}{2\sigma^2}(y-w^Tx-b)^2$ = $\sum\limits^n_{i=1}\frac{1}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y-w^Tx-b)^2$
现在我们只需要假设�是某个固定常数就可以忽略第一项$\sum\limits^n_{i=1}\frac{1}{2}log(2\pi\sigma^2)$，因为第一项不依赖于w和b
对于第二项，除了常数$\frac{1}{\sigma^2}$外，其余部分与[[#平方误差函数]]是一样的

平方误差函数
#

$$l^{(i)}(w,b)=\frac{1}{2}(\hat{y}^{(i)}-y^{(i)})^2$$

幸运的是，上面式子的解并不依赖于$\sigma$
因此，在高斯噪声的假设下，最小化均方误差等价于对线性模型的极大似然估计

3.1.4 从线性回归到深度网络
#

到目前，我只谈论了线性模型，而神经网络涵盖了更为丰富的模型，并且我们也可以用描述神经网络的方式来描述线性模型，从而把线性模型看作一个神经网络。可以用“层”符号来重写这个模型

3.1.4.1 神经网络图
#

制图表可以可视化模型中正在发生的事情，但该图只显示了链接模式，而不包含权重和偏置的值
在上图中，输入为$x_1,\dots x_d$，可知输入层的Feature Dimensionality 输入数（或称为特征维度）为d
网络的输出层为$o_1$，因此输出层的输出数为1
需要注意的是，输入值都是已经给定的，并且只有一个_计算_神经元。由于模型重点在发生计算的地方，所以通常我们在计算层数时不考虑输入层。

Fully-Connected Layer 全连接层
#

对于线性回归，每个输入都与每个输出（在本例中只有一个输出）相连，我们将这种变换称为全连接层（Fully-connected layer）或称为稠密层（dense layer）。

3.1.4.2 生物学
#

即使观察真实的神经元，但当今大多数深度学习的研究几乎没有直接从神经科学中获得灵感
我们援引斯图尔特·罗素和彼得·诺维格在他们的经典人工智能教科书 Artificial Intelligence:A Modern Approach (Russell and Norvig, 2016) 中所说的：虽然飞机可能受到鸟类的启发，但几个世纪以来，鸟类学并不是航空创新的主要驱动力。同样地，如今在深度学习中的灵感同样或更多地来自数学、统计学和计算机科学。

D2L - This article is part of a series.

Part : D2L 5.4 Custom Layer

Part : D2L 5.3 Deferred Initialization

Part : D2L 5.2 Parameter Management

Part : D2 5.1 Layer & Block

Part : D2L 4.1 Multilayer Perceptron

Part : D2L 4.2 Example of MLP

Part 1: D2L 5. Deep Learning Computation

Part 1: Linear Regression

Part 1: Chapter 3. Linear Neural Network

Part 1: Chapter 4. Multilayer Perceptron

Part 1: Dive Into Deep Learning