关于吴恩达机器学习的笔记
第一节
机器学习的概述
例子
数据挖掘
如搜索引擎,医疗记录和生物工程等等
无法人工编程的项目
自动驾驶,字迹识别,自然语言理解NLP和计算机视觉CV
个人定制推荐
第二节
定义机器学习
Arthur Samuel’s Definition
Fleid of study that gives computer the ability to learn without being explicitly programmed.
Tom Mitchell
Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experence E.
example
对于某个垃圾邮件过滤系统, 分类出有无用的邮件是T,学习你对邮件的标记是E, 而被分类出的邮件的数量为P。
机器学习的分类
监督学习supervised
人教会计算机做某事
无监督学习unsupervised
让机器自己学习
其他一些词
强化学习Reinforcement learning
推荐系统recommender systems
第三节
举例:房价预测
给出数据集,用函数拟合数据分布。问题在于用什么模型拟合数据。
监督学习定义
we gave the algorithm a data set in which the “right answers” were given, That is, we gave it a data set of houses, in which for every example in this data set, we told it what is the right price, the task of the algorithm is to prodeve more of these tight answers.
回归问题Regressin problem
Predict 连续值continuous values output.
另一例子:预测肿瘤
分类问题classification problem
trying to predict a 离散值discrete valued output.
不止一个feature/attrubite
无穷量特征
举例:支持向量机算法the support Vector Machine
第四节
无监督学习定义
给出大量的数据集要求它找出数据的类型结构。
聚类算法cluster algorithm
举例:谷歌新闻
搜索新闻并自动分簇
应用
组织大型计算机集群
社交网络分析
细分市场
天文数据分析
鸡尾酒会
两个人说话,由两个不同位置的麦克风录音。(即声音分离)。
[W,s,v] = svd(((repmat(sum(x.x,1),size(x,1),1).x)*x’);
工具和环境
Octave
2.1模型描述
(数据集)训练集
m = 训练样本数量
x‘s = 输入的变量或特征
y‘s = 输出或目标变量
(x,y) 为一个输出样本
$(x^{(i)}, y^{(i)})$ 表示第i个样本
过程
向学习函数learning algorithm提供训练集training set,由学习函数输出假设函数h hypothesis,h is a func make x map from x to y.
how do we represent h?
$$ h_θ(x) = θ_0 + θ_1x $$
the univariate linear regressoin 单变量线性回归
2.2代价函数-数学定义
$θ_i$: the Parameter of the model 模型参数
some diffierent models
Goal: 找到一个使得$ \frac {1}{2m} \sum_{i=1}^m(h_θ(x^{i})-y)^2 $ 最小的参数
the cost function
$ \mathtt{J} \left( θ_0,θ_1x \right) = \frac {1}{2m} \sum_{i=1}^m {\left( h_θ \left( x^{i} \right ) -y \right)} ^2 $
代价函数 also recognized as squre error cost function.
2.3-4代价函数-应用
the graph of two funtion(hypothesis && cost)
以下为$θ_0 = 0$的情况
h(x)的自变量是给定θ后x的函数,J(θ)是参数θ的函数
以下为不等于0的情况
由于是两个参数,所以代价函数使用等高线contour figure表示
2.5梯度下降Gredient descent
Outline
1、Start with some initial value
2、Keep changing to reduce cost func until it end up at a minimum
如何工作
个人理解:任意选定一个起始点,决定一个最佳下降的方向迈出一步,然后从新起点出发,循环上述过程,直到收敛到局部最低点。
数学描述
repeat until convergence{
$θ_j := θ_0 - α\frac{∂}{∂θ_j}J\left(θ_0,θ_1\right) \left(for \; j = 0 \; and \; j = 1 \; \right)$
}
α is called the learning rate 学习率
Correct: Simultaneous update 同时更新
2.6梯度下降知识点总结
$ \frac{∂}{∂θ_j}J\left(θ_0,θ_1\right) $ 就是代价函数在θ点上的斜率。更新的理论如图:
在上面的图像中,斜率为正数,α一定为正数,故θ向左移动。
在下面的图像中,斜率为负数,α为正数,故θ向右移动。两侧都在往最低点收敛。
如果α太大时,梯度下降速度较慢,反之则较快。
当达到局部最低点时,斜率为0,θ保持。由导数项和学习率共同控制下降幅度。
2.7线性回归的梯度下降
注意右式是求导之后的结果,将假设函数h(x)展开之后会更好理解。
$ θ_0 := θ_0 - \alpha \frac{1}{m} \sum_{i=1}^m{\left(h_θ\left(x^{i}\right)-y\right)}^2 $
$ θ_0 := θ_0 - \alpha \frac{1}{m} \sum_{i=1}^m{\left(h_θ\left(x^{i}\right)-y\right)}^2 \dot x^{\left(i\right)}$
线性回归梯度下降结果是一个凸函数convex function.只有一个全局最优解。
“Batch” Gradient Descent指每一次梯度下降都使用了所有了训练集。
BB一句,线性回归方程在概率论有参数估计的方法,老师也说在大数据集中梯度下降才有更好的表现。