DeepMind Works 2020 Notes

无标签

机器学习

发布日期: 2020-03-09

作者: Martin

文章字数: 1.3k

阅读时长: 5 分

阅读次数:

1.Self-Distillation Amplifies Regularization in Hilbert Space

H Mobahi, Mehrdad Farajtabar, et al. arXiv 2020
DEEP LEARNING

THEORY & FOUNDATIONS

知识蒸馏（Knowledge distillation）

知识蒸馏将知识从一个复杂的机器学习模型迁移到另一个紧凑的机器学习模型,而一般紧凑的模型在性能上会有一些降低。

从头学习一个新模型就是从有限的数据中近似一个未知的函数。如果让新模型近似原模型，因为原模型的函数是已知的，我们可以使用很多非训练集内的伪数据来训练新模型，这显然要更可行。

为了达到更好的预测，原始训练模型时通常会使用过参数化的网络或者使用集成学习方法。知识蒸馏可以得到性能相近（输出的概率分布充分接近）但体积小得多的模型。

总体来说知识蒸馏是一个简单而有效的模型压缩/训练方法。这大体上是因为原模型的softmax提供了比one-hot标签更多的监督信号

自蒸馏（self-distillation）

当新模型的结构和之前完全相同时，被称作自蒸馏。一般来说这样子得到的模型都会比原始的模型泛化性能更好（过拟合的程度更低）。

该文对这种现象进行了细致的理论分析（发生了什么，为何有效）。

主要结论：几轮self-distillation会通过逐渐限制代表解的基函数的数量，这往往会减少过度拟合（次数过多会导致欠拟合，影响性能）。

希尔伯特空间

希尔伯特空间就是完备的内积空间

在数学分析中，完备空间又称完备度量空间或称柯西空间（Cauchy space）。如果一个度量空间中的所有柯西序列都收敛在该空间中的一点，则称该空间为完备空间。

在数学中，度量空间是个具有距离函数的集合，该距离函数定义集合内所有元素间之距离。此距离函数被称为集合上的度量。度量空间中最符合人们对于现实直观理解的是三维欧几里得空间（Euclidean space）。

这里的“距离”是一个抽象概念，不仅仅指两点间的直线距离，还包括向量距离、函数距离、曲面距离等。

在数学中，柯西序列、柯西列、柯西数列或基本列是指这样一个数列，它的元素随着序数的增加而愈发靠近。任何收敛数列必然是柯西列，任何柯西列必然是有界序列。

内积空间指的是添加了一个“运算方法”（或称“结构”）的向量空间（或称为“线性空间”，两者同义），这个新添加的运算方法即“内积（Inner product）”又称“标量积（Scalar product）”或称“点积（Dot product）”。内积将一对向量与一个纯量连接起来，允许我们严格地谈论向量的“夹角”和“长度”，并进一步谈论向量的正交性。

希尔伯特空间（Hilbert space）是有限维欧几里得空间（Euclidean space）的一个推广，使之不局限于实数的情形和有限的维数，但又不失完备性（不像一般的非欧几里得空间那样破坏了完备性）