Deep Learning 1!

Jan 18, 2018


前奏

于 2018年1月18日 开始探索深度学习,这一系列将是在《深度学习》探索途中的 私密 笔记记录

定义

层次 化 的 概念 让 计算机 构建 较 简单 的 概念 来 学习 复杂 概念。 如果 绘制 出 表示 这些 概念 如何 建立 在 彼此 之上 的 一幅 图, 我们将 得到 一张‘ 深’( 层次 很多) 的 图。 由此, 我们 称 这种 方法 为 AI 深度 学习( deep learning)

AI 系统 需要 具备 自己 获取 知识 的 能力, 即从 原始 数据 中 提取 模式 的 能力。 这种 能力 称为 机器 学习( machine learning)

深度 学习( deep learning) 通过 其他 较 简单 的 表示 来 表达 复杂 表示, 解决 了 表示 学习 中的 核心 问题

深度 学习 是 通向 人工智能 的 途径 之一

深度 学习 是一 种 特定 类型 的 机器 学习, 具有 强大 的 能力 和 灵活性, 它将 大千世界 表示 为 嵌套 的 层次 概念 体系( 由 较 简单 概念 间的 联系 定义 复杂 概念、 从 一般 抽象 概括 到 高级 抽象 表示)

AI 包含 机器学习

机器学习 包含 表示学习

表示学习 包含 深度学习

数学符号

数和数组 描述
a 标量(整数或实数)
a 向量
A 矩阵
A 张量
In n行n列的单位矩阵
I 维度蕴含于上下文的矩阵
e(i) 标准基向量 [0,...,0,1,0,...,0] ,其中索引 i 处值为 1
diag(a) 对角方阵,其中对角元素由 a 指定
a 标量随机变量
a 向量随机变量
A 矩阵随机变量
集合和图 描述
\(\Bbb {A}\) 集合
\(\Bbb {R}\) 实数集
{0,1} 包含0和1的集合
{0,1,…,n} 包含0和n以及之间的所有整数的集合
[a,b] 包含 a 和 b 的实数区间
(a,b] 不包含 a 但包含 b 的实数区间
\(\Bbb {A}\) \ \(\Bbb {B}\) 差集,即元素包含于 \(\Bbb {A}\) 但不包含于 \(\Bbb {B}\)
ς
Paς(Xi) 图 ς 中 xi 的父节点
索引 描述
ai 向量 a 的第 i 个元素, 其中索引从 1 开始
a-i 除了第 i 个元素,a 的所有元素
Ai,j 矩阵 A 的 i,j 元素
Ai,: 矩阵 A 的第 i 行
A:,i 矩阵 A 的第 i 列
Ai,j,k 三维张量 A 的 (i,j,k) 元素
A:,:,i 三维张量的 二维切片
ai 随机向量 a 的第 i 个元素
线性代数中的操作 描述
AT 矩阵 A 的转置
A+ 矩阵 A 的 Moore-Penose 伪逆
A⊙B AB 的逐元素乘积(Hadamard乘积)
det(A) A 的行列式
微积分 描述
\(\frac{dy}{dx}\) y 关于 x 的导数
\(\frac{∂y}{∂x}\) y 关于 x 的偏导
xy y 关于 x 的梯度
Xy y 关于 X 的矩阵导数
Xy y 关于 X 求导后的张量
\(\frac{∂ƒ}{∂x}\) ƒ: \(\Bbb {R}\)n → \(\Bbb {R}\)m 的Jacobian矩阵 J ∈ \(\Bbb {R}\)m x n
x2ƒ(x) or H(ƒ)(x) f 在 x 处的 Hessian 矩阵
∫f(x) dx x 整个域上的定积分
\(\Bbb {S}\)f(x) dx 集合 \(\Bbb {S}\) 上关于 x 的定积分
概率和信息论 描述
a⊥b a和b相互独立的随机变量
a⊥b|c 给定 c 后条件独立
P(a) 离散变量上的概率分布
p(a) 连续变量上(或变量类型未指定时)的概率分布
a~P 具有分布 P 的随机变量a
\(\Bbb {E}\)x~P[ƒ(x)] or \(\Bbb {E}\)ƒ(x) f(x) 关于 P(x)的期望
Var(f(x)) f(x) 在分布 P(x) 下的方差
Cov(f(x), g(x)) f(x) 和 g(x) 在分布 P(x) 的协方差
H(x) 随机变量的x的香浓熵
DKL(P||Q) P 和 Q 的 KL 散度
\(\mathcal {N}\)(x; μ, ∑ ) 均值为 μ, 协方差为 ∑, x 上的高斯分布
函数 描述
ƒ : \(\Bbb {A}\) → \(\Bbb {B}\) 定义域为 \(\Bbb {A}\),值域为 \(\Bbb {B}\) 的函数 f
fºg f 和 g 的组合
f(x;θ) 由 θ 参数变化,关于 x 的函数(有时为了简化而忽略了 θ 记为 f(x))
log x x 的自然对数 
σ(x) Logistic sigmoid, \(\frac{1}{1 + exp(-x)}\)
ζ(x) Softplus, log(1+exp(x))
||x||p x 的 Lp 范数
||x|| x 的 L2 范数
x+ x 的正数部分,即 max(0, x)
1condition 如果条件为真则为1,否则为0
数据集和分布 描述
Pdata 数据生成分布
\(\widehat {P}\)train 由训练集定义的分布
\(\Bbb {X}\) 训练样本的集合
x(i) 数据集的第 i 个样本(输入)
y(i)y(i) 监督学习中与 x(i) 关联的目标
X m x n 矩阵, 其中 Xi,: 为输入样本 x(i)