ML笔记(Lecture1&2)

Lectured by HUNG-YI LEE (李宏毅) Recorded by Yusheng zhao（yszhao0717@gmail.com）

李宏毅ML2021速记_Lecture 1 & 2: Intro to ML/DLLecture 1: 机器学习/深度学习基本概念简介机器学习基本概念简介深度学习基本概念简介Step 1：unknown parameters的引入Step 2：确定loss函数Step 3：Optimization对模型做更多的变形：Lecture 2：机器学习任务攻略——如何训练好我们的神经网络:-）1.从 loss on training data 着手1.1Model Bias1.2优化问题（Optimization Issue）寻找loss陷入局部最优解2.从 loss on testinging data 着手2.1 overfitting 过拟合Cross Validation 交叉验证2.2 mismatchLecture 2*：如何训练好类神经网络When gradient is small: Local Minimum and Saddle PointTips For training：BATCH and MOMENTUM关于BATCH关于Momentum总结一下上两节所学：Tips for Training: Adaptive Learning Rate:Batch Normalization（Quick Introduction）Lecture 2**：分类（Classification）BRIEF版

李宏毅ML2021速记_Lecture 1 & 2: Intro to ML/DL

Lecture 1: 机器学习/深度学习基本概念简介

机器学习基本概念简介

$\approx$ Looking for Function——机器学习就是让机器（程序）具备找一个函数的能力。

Different types of Funtions：

Regression（回归）——连续。最终得到标量（scalar）
Classification（分类）——离散。得到一个选择（options/classes）
除此两大任务外，还有Structured Learning：让机器不仅学会分类或者实现预测任务，而且可以创造特定的“有结构”的物体，譬如文章、图像等。

机器学习如何找到这个函数？（三个步骤）

step 1：Function with Unknown Parameters：
$y = b + wx_1$ ，该假设方程是基于domain knowledge（领域知识）各种定义：
- Model：带有未知的参数(Parameters)的函数（function）。
- $x_1$ feature $w$ weight $b$ 是bias，后两个未知参数基于数据(data)学习得到。
step 2：Define Loss from Training Data：
- $L(b,w)$
- Loss的值体现了函数的一组参数的设定的优劣
- Label $\hat{y}$ $e_i = |y - \hat{y}|,i = 1,2,..,n$ Loss $L = \frac{1}{N}\sum_n^{i=1}e_i$ $e$ $e = (y-\hat{y})^2$ ，即Mean Square Error：MSE。
  $e$ 取决于我们的需求以及对于task的理解。
- $w,b$ ）通过计算Loss值画出等高线图：Error Surface
- $y$ $\hat{y}$ 都是概率==>Cross-entropy：交叉熵，通常用于分类任务
- loss函数自定义设定，如果有必要的话，loss函数可以output负值
step 3：Optimization
- $w^*,b^* = arg\space \underset{w,b}{min}L$
- $w,b$ $L$ 最小）,通常采用梯度下降法（Gradient Descent $w-Loss(L)$ $L(w)$
  - 随机 $w_0$
  - $\Large \frac{\part L}{\part w}|_{w=w_0}$ $w$ $\eta$ $Loss$ $w$ $\eta$ $Loss$ $\eta$ $\eta$ $w_1 \leftarrow w_0 - \eta \large \frac{\part L}{\part w}|_{w=w_0}$
    $\eta$ : learning rate学习率，属于hyper parameters：超参数，自己设定，决定更新速率。
  - $w$
    “假”问题：囿于局部最优解local minimal，忽略了实际的最优解global minima（不过并非梯度下降法的真正痛点）
- $w^*,b^* = arg\space \underset{w,b}{min}L$
  $(- \eta \large \frac{\part L}{\part w},- \eta \large \frac{\part L}{\part b})$ $\eta$ 为学习率
  总结来说，基本步骤如下

以上三步是机器学习最为基本的框架。基于此，还需要理解任务，摸索数据变化规律==>修改模型（model）

深度学习基本概念简介

线性模型（Linear Model）过于简单，无论参数组合如何可能总是无法完全拟合任务的Model，这里说明Linear Model具有severe limitation，这种局限被称之为Model Bias。于是我们需要更为复杂的函数。

这里类似于使用阶跃函数的组合red curve $All\space Piecewise\space Linear\space Curves = constant$ (常数项) +

$Beyond\space Piecewise\space Linear\space Curves$ （这也是我们常见的一般函数的曲线），我们使用许多多不一样的小线段去“逼近”连续的这条曲线：

为了表示这样一个蓝色的函数（小线段）（被称之Hard Sigmoid），这里用一个常见的指数函数来逼近——Sigmoid Function

y = c \large \frac{1}{1 + e^{-(b+wx_1)}}= c·sigmoid(b+wx_1)

$w,b,c$ ，一组参数组合可以得到不同逼近的小线段👇

这个引入超级棒！！由上易知，一个连续的复杂的函数曲线可以被分解成许多离散的小线段（Hard Sigmoid）和一个常数项的线性相加，然后每个小线段被一个三参数的Sigmoid Function所逼近。下图的函数曲线可以表示为一个含有10个未知参数的mode：

从而，可以产生一个从简单->复杂、单一->多元的函数模式。新的模型包含更多的特征。

y=b+wx_1 \Rightarrow y = b + \underset{i}{\sum}c_i sigmoid(b_i+w_ix_1)

由（2）式，考虑到多特征因素，进一步扩展得

y = b + \underset{j}{\sum}w_jx_j \Rightarrow y = b + \underset{i}{\sum}c_i sigmoid(b_i+\underset{j}{\sum}w_{ij}x_1)

$i$ $i^{th}$ $Sigmoid$ $x_j$ $w_j$ 表示对应特征权值。

$sigmoid$ $sigmoid$ $sigmoid \space function$ ）以及输出的一个方程组（矩阵/向量相乘表示），这里基本上可以视为一个具有三个神经元的全连接的一层神经网络。

[r_1,r_2,r_3]^T = [b_1,b_2,b_3]^T + \begin{bmatrix}w_{11},w_{12},w_{13}\\w_{21},w_{22},w_{23}\\w_{31},w_{32},w_{33} \end{bmatrix}·[x_1,x_2,x_3]^T

总之，

r = \mathbb {b} +w·x

$r$ $a$ ，这里

a = \sigma(r)

由(5)、(6)得

\space由 a= \sigma(\mathbb{b} + w·x) \\\Rightarrow y = b + [c_1,c_2,c_3]·\sigma(\mathbb{b} + w·x)

$\sigma$ $\mathbb{b}$ $b$ $y$ 也是数值（标量）。

Step 1：unknown parameters的引入

$\mathbb{x}$ $\mathbb{c}、\mathbb{b}、W、b$ $\theta_1 = [c_1,b_1,w_{11},w_{12},w_{13},b]^T$

$\mathbb{\theta}$ $\theta_1$ $\theta$ 内。

$sigmoid$ 函数个数）自己决定，其本身个数数值也为超参数之一。

Step 2：确定loss函数

$L(\mathbb{\theta})$
loss衡量一组参数值表示模型效果优劣

同以上介绍的步骤无区别。

Step 3：Optimization

$\mathbb{\theta}=[\theta_1,\theta_2,\theta_3...]^T$

$\mathbb{\theta}^0$ gradient $\large\mathbb{\mathcal{g}}=[\frac{\partial L}{\partial \theta_1}_{|\mathbb{\theta}=\mathbb{\theta}^0},\frac{\partial L}{\partial \theta_2}_{|\mathbb{\theta}=\mathbb{\theta}^0},...]^T$ $\mathbb{\mathcal{g}}=\nabla L(\mathbb{\theta}^0)$ 向量长度=参数个数。
$\eta$ 当然是学习率啦)
$\mathbb{\theta}=[\theta_1^1,\theta_2^1,...]^T \leftarrow \mathbb{\theta}=[\theta_1^0,\theta_2^0,...]^T - [\textcolor{red}\eta\frac{\partial L}{\partial \theta_1}_{|\mathbb{\theta}=\mathbb{\theta}^0},\textcolor{red}\eta\frac{\partial L}{\partial \theta_2}_{|\mathbb{\theta}=\mathbb{\theta}^0},...]^T \\ \mathbb{\theta}^1 \leftarrow \mathbb{\theta}^0 - \textcolor{red}\eta \mathbb{\mathcal{g}}$
$\mathbb{\theta}^2 \leftarrow \mathbb{\theta}^1 - \textcolor{red}\eta \mathbb{\mathcal{g}},\mathbb{\theta}^3 \leftarrow \mathbb{\theta}^2 - \textcolor{red}\eta \mathbb{\mathcal{g}},...$ ，直到找到不想做或者梯度最后是zero vector（后者不太可能）。

$N$ 分成若干Batch批量 $B_1,B_2,...$ $L^1,L^2,...$

把所有batch算过一次，称之为一个epoch：1 epoch = see all the batches once。以上即为批量梯度下降。注意区别：一次update指的是每次更新一次参数，而把所有的Batch看过一遍则是epoch。

另外，Batch Size大小也是一个超参数。

对模型做更多的变形：

$Sigmoid \rightarrow ReLU$ Rectified Linear Unit（ReLU） $c·max(0,b+wx_1)$ $ReLU$ Hard Sigmoid $Sigmoid$ $ReLU$ 都是激活函数（Activation Function）。

$\rightarrow$ 深度学习（Deep Learning）。这里的层数也是个超参数，层数越多，参数越多。

同一层好多个激活函数（Neruon）就是一个hidden layer，多个hidden layer组成了Neural Network。这一整套技术就是deep learning。

之后的神经网络层数越来越多（AlexNet、GoogLeNet等等）那么为何是深度学习而不是宽（肥）度学习的缘由。另外，随着层数变多，发生overfitting（过拟合）的现象。这些是我们之后课程要讨论的问题。

Lecture 2：机器学习任务攻略——如何训练好我们的神经网络:-）

$\Large \Rightarrow$ $\Large \Rightarrow$ Testing data

1.从 loss on training data 着手

1.1Model Bias

模型过于简单或者与实际相差过多，无论如何迭代，loss值无法降低。需要让模型更加flexible。一定范围内，层数越多模型越有弹性。

1.2优化问题（Optimization Issue）

寻找loss陷入局部最优解

关于两者的比较和判断，介绍了文章Population imbalance in the extended Fermi-Hubbard model当两个网络A、B，A在B的基础上有更多的层数，但是在任务上A的loss要比B大，这说明A网络的Optimization没有做好。

从对比中，我们可以获得更确切的认知；我们可以从较为浅的model开始着手；如果更深的网络并没有得到更小的loss，那么该网络有optimization issue

当我们在training data上得到良好的loss，我们就可以着手在testing data上降低loss

2.从 loss on testinging data 着手

2.1 overfitting 过拟合

增加training data（作业里不行）
Data Augmentation，根据自己对任务的理解，人为创造出一些新的数据。例如：图像识别训练中可以把训练图片左右翻转，裁剪获得新的训练数据
给予模型一定限制，使其不那么flexible
- 更少的参数
- 更少的features
- Early stopping、Regularization、Dropout（Lecture 4）

Bias-Complexity Trade-off：模型复杂的程度（或曰模型的弹性）——function比较多，随着复杂度增加，training的loss越来越小，然而testing的loss是一个凹状的曲线（先小后大）。

机器学习比赛（例如Kaggle）分为两个Leaderboard：public和private（A、B榜），在两个测试集上的分数的差别过大在于model不够鲁棒。换言之，在公用数据集上达到较高的准确率，不见得在落地使用上能完全实现其测试的level（骗骗麻瓜的商业蜜口）。
每日限制上传次数主要是为了防止各位水模型不断test公用数据集刷分数（无意义~~）

Cross Validation 交叉验证

把training data分成两半：training data和validation data。如何分呢？可以随机分；另外，可以用N-折交叉验证（N-fold Cross Validation）

2.2 mismatch

Mismatch表示训练数据和测试数据的分布（distributions）不一致。

也可以认为是一种overfitting。通常在预定的机器学习任务中不会出现。

（HW11针对这个问题）

Lecture 2*：如何训练好类神经网络

When gradient is small: Local Minimum and Saddle Point

如果Optimization失败了...——随着不断update而training loss不再下降，你不满意其较小值；或者一开始update时loss下降不下去

Why？——很有可能update到一个地方（critical point），gradient微分后参数为0（或相当接近0）

这个点可能是local minima或是saddle point（鞍点）

那么，如何知道这个点（critical point）是上述两种的哪一种？（数学上分析如下）

Tayler Series Approximation
$L(\theta)$ $\theta \approx \theta'$ 时，以下可以约为成立：
$L(\theta) \approx L(\theta')+(\theta-\theta')^Tg+\frac{1}{2}(\theta-\theta')^TH(\theta-\theta')$
梯度Gradient $g$ $\theta$ $\theta'$ $g =\nabla L(\theta') ,g_i = \Large \frac{\partial L(\theta')}{\partial \theta_i}$
Hessian $H$ $H_{ij}=\Large \frac{\partial ^2}{\partial \theta_i \partial \theta_j}\small L(\theta')$ $L$ 的二次微分（海塞矩阵）
Hessian
$g$ $(\theta-\theta')=v$ $v$ $v^THv>0$ $L(\theta)>L(\theta')$ ，说明是Local minima，等价于 $H$ 是一个称之为positive definite的矩阵（其所有特征值[eigenvaluelocal minima $v$ $v^THv<0$ $L(\theta)<L(\theta')$ ，说明是Local maxima，等价于 $H$ 是一个称之为negative definite的矩阵（其所有特征值[eigenvaluelocal maxima $v$ $v^THv>0$ $v^THv<0$ ，说明是saddle point。等价于矩阵有着 $H$ 的特征值有正有负。

$H$ $H$ 可以告诉我们参数更新的方向）

$\mathbb{u}$ $H$ $\lambda$ $\mathbb{u}$ $\Large \Rightarrow$ $\mathbb{u}^TH\mathbb{u} = \mathbb{u}^T(\lambda\mathbb{u}) =\lambda||\mathbb{u}||^2$ $(*)$
$\lambda<0$ $(*)<0$ $\Large \Rightarrow$ $L(\theta)<L(\theta')$ $\theta-\theta'=\mathbb{u}$ $\theta = \theta'+\mathbb{u}$ $L$ 就会变小。
如上，需要计算二次微分，计算量较大，所以之后会有计算量更小的方法。

之后，老师讲了三体里的一个故事（魔术师，君士坦丁堡），淦。。。引入了在高维空间提供参数学习的视角。参数越多，error surface维度越来越高。当在一个相当的维度下做训练任务时，如果update下去loss不再下降，大概率是卡在了saddle point上，local minima并没有如此常见。

Tips For training：BATCH and MOMENTUM

关于BATCH

epoch $\rightarrow$ Shuffle after each epoch，即在每一次epoch开始之前都会分一次batch，导致每次epoch的batches都不完全一样。Batch大小的设置可以分成两种情况。

Small Batch v.s. Large Batch，假设总数为N=20：

两者都很极端，左边就看一遍，蓄力太长；而右边，看一个就蓄力一次，频繁瞬发，方向不定，乱枪打鸟。

算力的进步带来并行计算的能力增强①在如上条件下，epoch较大的batch的训练速度可以更快（反直觉）。②而小一点的batch的Optimization的结果会更好。（可能的解释：loss function是略有差异的，即使update到了critical point，不容易陷入局部最优解）；③在两者batch上train的效果相近，而test结果相差很大（大batch较差），说明发生overfitting。小的batch的泛化性更好些。

Batch size是我们要决定的超参数。如何确定两者平衡（鱼与熊掌）呢？（提供以下阅读资料可供学习参考）

关于Momentum

update时有一个“动量”或惯性，使得接近critical point时，不陷入其中，可以继续update。（不一定会被卡住）

一般的Gradient Descent，回顾Lecture 1
Gradient Descent + Momentum
每次移动：不只往gradient反方向移动，同时加上前一步移动的方向，从而调整构成我们的参数。
$m^i$ $\{g^0,g^1,...,g^{i-1}\}$ 的加权和。

总结一下上两节所学：

critical points表明该处梯度为0
critical point可能是saddle point或是local minima：取决于Hessian matrix；通过Hessian matrix的特征向量我们可以在梯度为0的点重新更新方向；另外，local minima可能并不常见
Smaller batch size以及momentum可以帮助逃开critical points。

Tips for Training: Adaptive Learning Rate:

$\neq$ Small Gradient。以下图为例，update后并没有卡在critical point，而是在两个等高位置“反复横跳”，gradient任然很大，而loss无法下降。

一般的gradient descent的方法下，在到达critical point之前train就停止了。所以在实做中出现的问题往往不应该怪罪critical point。

由于Learning Rate(LR:学习率)决定每次update的步伐大小，以下图error surface为例（目标local minima即是图中橘色小叉叉）learning rate过大，train时一直在两边震荡，loss下降不下去；当learing rate较小时，在梯度较小的地带，无法得到有效update（走不过去了...）

以上说明学习率（Learning Rate）不能够one-size-fits-all。应该是，学习率应当为每个参数客质化。——Different parameters need different learning rate

$\theta^{t+1}_i\leftarrow\theta^t_i-\eta g^t_i,g^t_i=\frac{\partial L}{\partial \theta_i}|_{\theta=\theta^t}$ $\theta^{t+1}_i \leftarrow \theta^t_i - \large \frac{\eta}{\sigma^t_i}g^t_i$ $\eta$ $\Large\frac{\eta}{\sigma^t_i}$ $\sigma^t_i$ $\sigma$ $\sigma$ ，以上便是parameter dependent的learning rate。

Root Mean Square： $\sigma$ $\theta^{t+1}_i \leftarrow \theta^t_i - \large \frac{\eta}{\sigma^t_i}g^t_i$ $\sigma$

$t=0$ $\theta^{1}_i \leftarrow \theta^0_i - \large \frac{\eta}{\sigma^0_i}$ $g^0_i$ $\sigma^0_i = \sqrt{(g^0_i)^2} = |g^0_i|$
$t=1$ $\theta^{2}_i \leftarrow \theta^1_i - \large \frac{\eta}{\sigma^1_i}$ $g^1_i$ $\sigma^1_i = \sqrt{\frac{1}{2}[(g^0_i)^2+(g^1_i)^2]}$
$\sigma^t_i = \sqrt{\frac{1}{t+1}[(g^0_i)^2+(g^1_i)^2+...+(g^{t-1}_i)^2+(g^t_i)^2]}$

Adagrad $\theta^{t+1}_i \leftarrow \theta^t_i - \large \frac{\eta}{\sigma^t_i}g^t_i$ $\sigma^t_i=\sqrt{\frac{1}{t+1}\sum\limits_{t=0}^{t}(g^t_i)^2}$

Deep Learning 最优化方法之AdaGrad - 知乎 (zhihu.com)

$\sigma$ $\sigma$ $\sigma$ 快速增大而LR随之快速趋于0

另外，对于具体问题下就算对于同一个参数，同一个更新方向，LR也被期望可以动态调整——RMSProp算法，来自Hinton在Coursera的授课（没有论文可引）

$t=0$ $\theta^{1}_i \leftarrow \theta^0_i - \large \frac{\eta}{\sigma^0_i}$ $g^0_i$ $\sigma^0_i = \sqrt{(g^0_i)^2} = |g^0_i|$
$t=1$ $\theta^{2}_i \leftarrow \theta^1_i - \large \frac{\eta}{\sigma^1_i}$ $g^1_i$ $\sigma^1_i = \sqrt{\alpha(\sigma^0_i)^2+(1-\alpha)(g^1_i)^2},0<\alpha<1$
$\theta^{t+1}_i \leftarrow \theta^t_i - \large \frac{\eta}{\sigma^t_i}g^t_i$ $\sigma^t_i = \sqrt{\alpha(\sigma^{t-1}_i)^2+(1-\alpha)(g^t_i)^2},0<\alpha<1$

$\alpha$ $\sigma$ 的影响

目前，我们最常用的动态调整LR的算法就是Adam：RMSProp + Momentum推荐阅读录入ICLR2015的Adam文献。相关算法已经写入pytorch里了（调包叭xdm）

事实上在实际操作时，LR并不像我们预期那样很顺利的到达local minima，而是在梯度较小的地段发生向左右两边“井喷”的现象（原因没怎么听懂），因此做出以下优化：

Learning Rate Scheduling $\eta^t$

Learning Rate Decay $\theta^{t+1}_i \leftarrow \theta^t_i - \large \frac{\eta^t}{\sigma^t_i}g^t_i$ $\eta$ $\sigma$ 一同变化
Warm Up “黑科技”——总的来说：LR先变大后变小（至于要变到多大以及变化的速率[超参数]也是需要调的）DeepLearning远古时期的文章就有Warm Up了，例如Residual Network【这篇文章LR初始设0.01之后设0.1】、以及Transformer
$\sigma$ 在Adagrad或是Adam中表现出的主要是统计意义，所以在初始时期其相关统计的数据不够多时，先让其不要过于远离初始点，探索获取更多的情报——到后期累计的数据比较多，所以可以LR大一些。RAdam有相关更深入的讨论。

LR优化方法的总结

$\sigma$ $m_i^t$ 还考虑到了梯度的方向.。总的来说，momentum表达了历史运动的惯性，而RMS则致力于将梯度下降趋于平缓。

这节主要探讨了在Error Surface坑坑洼洼状态下，如何达成有效优化。下一节则讲授如何优化Error Surface（解决问题的源头？？）,使其平滑。

Batch Normalization（Quick Introduction）

$==\Rightarrow$ 找到一个满意的Error Sureface

$x$ 取值变化很大，所以导致斜率变化”多端“，反差很大，于是使用固定的LR训练效果很差，上一节探讨了如何用优化：动态调整LR。这里介绍下调整range的方法：

Feature Normalization： $x^1,x^2,x^3,...,x^r,...,x^R$ ：所有训练集的Fearure Vector
平均 $m_i$ 标准差(standard deviation $\sigma_i$ 标准化（Standardization） $\tilde{x}^r_i \leftarrow \Large \frac{x^r_i-m_i}{\sigma_i}$ 。好处：同一个dimension上平均值为0，方差为1。在deeplearning里，（小tip）我们可以对特征行做Normalization（即Standardization），这个操作在激活函数前或后都可以，实战上差别不大。
Feature Normalization导致独立输入的初始input相互关联起来，即后面的输出和前面的所有input都有关系（因为input共同决定均值和方差）。有一条弹幕：batch内部每隔sample互相关，batch和batch之间相互独立。
实战中，考虑到GPU的实际内存，我们一般在一个batch上做Feature Normalization，所以这招也叫Batch Normalization。当然这会导致batch之间的异质性。
$\tilde{x}^i = \gamma \odot \tilde{x}^i+\beta$ $\gamma$ $\beta$ $\mu$ $\sigma$ 拿出来做moving average。
Batch Normalization用在CNN上，训练速度会变快。
这是一个serendipitous（机缘巧合的）discovery
Layer Normalization
Instance Normalization
Group Normalization
Weight Normalization
Spectrum Normalization

Lecture 2**：分类（Classification）BRIEF版

$x \Rightarrow$ model $\Rightarrow y \Leftarrow \Rightarrow \hat{y}$
Classification：奇妙的方法---把分类当作回归

Class as one-hot vector，举例：每个类作为一个 one-hot vector

$y' = softmax(y)$ $softmax$ $y$ $[0,1]$ 里，其原理原因自行探讨。

softmax $sigmoid$ $softmax$ $sigmoid$ 的扩展，可以用在三个及以上class的情形。

Loss of Classification $L = \frac{1}{N}\sum\limits_{i}e_n$ ，以下介绍了MSE和交叉熵
这里交叉熵（Cross-entropy）更优，交叉熵最小（Minimizing cross-entropy）等价于最大似然（Maximizing likelihood）
交叉熵和softmax在使用时通常绑定在一起（pytorch的设计如此）
相比于MSE，cross-entropy更被常使用在分类任务上，以下从Optimization的角度的解释👇
$e$ 可能是MSE或cross-entropy。
两者的任务都是从左上角一路到右下角，但是在MSE上，loss很大的地方非常平坦（梯度小），很容易被stuck走不下去；而cross-entropy则相比起来好很多。