第一周 机器学习基本概念

https://www.coursera.org/learn/machine-learning/home/week/1

介绍

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

分类

根据训练数据是否已经有正确的输出,可将机器学习分为 Supervised Learning 和 Unsupervised Learning。

在监督学习中,根据输出结果是否具有连续性,可将学习任务分为 Regression 和 Classification

在无监督学习中,典型的任务是聚类。还有一些非聚类任务,比如分离人声和背景音乐。

举例线性回归说明基本概念

课程中用 $x^{(i)}$ 代表第 i 个样本,用 $y^{(i)}$ 代表第 i 个样本的 lable。用 $h(x)$ 来表示 $X \to Y$ 的映射,也称 hypothesis,以单变量来说,则有$h_{\theta}(x)=\theta_0+\theta_1x$

cost function

代价函数用$J$表示,单个样本的误差即 loss function 是 $(h_{\theta}(x^{(i)})-y^{(i)})^2$(这里以最小二乘法举例),则总体误差

代价函数就是

cost function 的意义

即训练过程中,模型参数 $\theta_0,\theta_1$ 的变化与模型产生的偏差的映射。

每次选择一组参数 $\theta_0,\theta_1$ 则可以计算一个 $J(\theta_0,\theta_1)$,在三维空间(因为参数只有2个)中绘制这个函数


则最低点$\theta_0,\theta_1$,具有最小损失m即为最佳拟合参数。对应的 contour 图

梯度下降

Gradient Descent,梯度下降是 Parameter Learning 的一种方法。

setup:

  • cost function: $J(\theta_0,\theta_1)$
  • want : $\arg\min_{\theta_0,\theta_1}J(\theta_0,\theta_1)$

outline:

  • start with some $\theta_0,\theta_1$
  • Keep changing $\theta_0,\theta_1$ to reduce $J(\theta_0,\theta_1)$ until we hopefully end up at a minimum.

过程如下图


从另一个起始值开始将会到另一个局部最优解

Gradient Descent algorithm

for j = (0,1)

求导之后

为什么梯度下降能够逼近最低点?

Learning rate

$\alpha$ 被称为学习速率,如果 $\alpha$ 太小则学习速度慢(收敛慢),如果$\alpha$太大,则也有可能无法收敛

如果起始点恰好在局部最优解的位置,则梯度下降,参数不会被更新,因为 $\theta=\theta-\alpha*0$。

迭代过程中是否需要修正$\alpha$ ?

下面的动画显示了学习过程中,梯度下降时,拟合度的变化(动态图编辑模式下查看)


- - - - - - - - End Thank For Your Reading - - - - - - - -
0%