前奏
于 2018年1月18日 开始探索深度学习,这一系列将是在《深度学习》探索途中的 私密 笔记记录
定义
层次 化 的 概念 让 计算机 构建 较 简单 的 概念 来 学习 复杂 概念。 如果 绘制 出 表示 这些 概念 如何 建立 在 彼此 之上 的 一幅 图, 我们将 得到 一张‘ 深’( 层次 很多) 的 图。 由此, 我们 称 这种 方法 为 AI 深度 学习( deep learning)
AI 系统 需要 具备 自己 获取 知识 的 能力, 即从 原始 数据 中 提取 模式 的 能力。 这种 能力 称为 机器 学习( machine learning)
深度 学习( deep learning) 通过 其他 较 简单 的 表示 来 表达 复杂 表示, 解决 了 表示 学习 中的 核心 问题
深度 学习 是 通向 人工智能 的 途径 之一
深度 学习 是一 种 特定 类型 的 机器 学习, 具有 强大 的 能力 和 灵活性, 它将 大千世界 表示 为 嵌套 的 层次 概念 体系( 由 较 简单 概念 间的 联系 定义 复杂 概念、 从 一般 抽象 概括 到 高级 抽象 表示)
AI
包含 机器学习
机器学习
包含 表示学习
表示学习
包含 深度学习
数学符号
数和数组 | 描述 |
---|---|
a | 标量(整数或实数) |
a | 向量 |
A | 矩阵 |
A | 张量 |
In | n行n列的单位矩阵 |
I | 维度蕴含于上下文的矩阵 |
e(i) | 标准基向量 [0,...,0,1,0,...,0] ,其中索引 i 处值为 1 |
diag(a) | 对角方阵,其中对角元素由 a 指定 |
a | 标量随机变量 |
a | 向量随机变量 |
A | 矩阵随机变量 |
集合和图 | 描述 |
---|---|
\(\Bbb {A}\) | 集合 |
\(\Bbb {R}\) | 实数集 |
{0,1} | 包含0和1的集合 |
{0,1,…,n} | 包含0和n以及之间的所有整数的集合 |
[a,b] |
包含 a 和 b 的实数区间 |
(a,b] |
不包含 a 但包含 b 的实数区间 |
\(\Bbb {A}\) \ \(\Bbb {B}\) | 差集,即元素包含于 \(\Bbb {A}\) 但不包含于 \(\Bbb {B}\) |
ς | 图 |
Paς(Xi) | 图 ς 中 xi 的父节点 |
索引 | 描述 |
---|---|
ai | 向量 a 的第 i 个元素, 其中索引从 1 开始 |
a-i | 除了第 i 个元素,a 的所有元素 |
Ai,j | 矩阵 A 的 i,j 元素 |
Ai,: | 矩阵 A 的第 i 行 |
A:,i | 矩阵 A 的第 i 列 |
Ai,j,k | 三维张量 A 的 (i,j,k) 元素 |
A:,:,i | 三维张量的 二维切片 |
ai | 随机向量 a 的第 i 个元素 |
线性代数中的操作 | 描述 |
---|---|
AT | 矩阵 A 的转置 |
A+ | 矩阵 A 的 Moore-Penose 伪逆 |
A⊙B | A 和 B 的逐元素乘积(Hadamard乘积) |
det(A) | A 的行列式 |
微积分 | 描述 |
---|---|
\(\frac{dy}{dx}\) | y 关于 x 的导数 |
\(\frac{∂y}{∂x}\) | y 关于 x 的偏导 |
∇xy | y 关于 x 的梯度 |
∇Xy | y 关于 X 的矩阵导数 |
∇Xy | y 关于 X 求导后的张量 |
\(\frac{∂ƒ}{∂x}\) | ƒ: \(\Bbb {R}\)n → \(\Bbb {R}\)m 的Jacobian矩阵 J ∈ \(\Bbb {R}\)m x n |
∂x2ƒ(x) or H(ƒ)(x) | f 在 x 处的 Hessian 矩阵 |
∫f(x) dx | x 整个域上的定积分 |
∫\(\Bbb {S}\)f(x) dx | 集合 \(\Bbb {S}\) 上关于 x 的定积分 |
概率和信息论 | 描述 |
---|---|
a⊥b | a和b相互独立的随机变量 |
a⊥b|c | 给定 c 后条件独立 |
P(a) | 离散变量上的概率分布 |
p(a) | 连续变量上(或变量类型未指定时)的概率分布 |
a~P | 具有分布 P 的随机变量a |
\(\Bbb {E}\)x~P[ƒ(x)] or \(\Bbb {E}\)ƒ(x) | f(x) 关于 P(x)的期望 |
Var(f(x)) | f(x) 在分布 P(x) 下的方差 |
Cov(f(x), g(x)) | f(x) 和 g(x) 在分布 P(x) 的协方差 |
H(x) | 随机变量的x的香浓熵 |
DKL(P||Q) | P 和 Q 的 KL 散度 |
\(\mathcal {N}\)(x; μ, ∑ ) | 均值为 μ, 协方差为 ∑, x 上的高斯分布 |
函数 | 描述 |
---|---|
ƒ : \(\Bbb {A}\) → \(\Bbb {B}\) | 定义域为 \(\Bbb {A}\),值域为 \(\Bbb {B}\) 的函数 f |
fºg | f 和 g 的组合 |
f(x;θ) | 由 θ 参数变化,关于 x 的函数(有时为了简化而忽略了 θ 记为 f(x)) |
log x | x 的自然对数 |
σ(x) | Logistic sigmoid, \(\frac{1}{1 + exp(-x)}\) |
ζ(x) | Softplus, log(1+exp(x)) |
||x||p | x 的 Lp 范数 |
||x|| | x 的 L2 范数 |
x+ | x 的正数部分,即 max(0, x) |
1condition | 如果条件为真则为1,否则为0 |
数据集和分布 | 描述 |
---|---|
Pdata | 数据生成分布 |
\(\widehat {P}\)train | 由训练集定义的分布 |
\(\Bbb {X}\) | 训练样本的集合 |
x(i) | 数据集的第 i 个样本(输入) |
y(i) 或 y(i) | 监督学习中与 x(i) 关联的目标 |
X | m x n 矩阵, 其中 Xi,: 为输入样本 x(i) |