DeepMind Works 2020 Notes

1.Self-Distillation Amplifies Regularization in Hilbert Space

  • H Mobahi, Mehrdad Farajtabar, et al. arXiv 2020

  • DEEP LEARNING

    THEORY & FOUNDATIONS

知识蒸馏(Knowledge distillation)

知识蒸馏将知识从一个复杂的机器学习模型迁移到另一个紧凑的机器学习模型,而一般紧凑的模型在性能上会有一些降低。

从头学习一个新模型就是从有限的数据中近似一个未知的函数。如果让新模型近似原模型,因为原模型的函数是已知的,我们可以使用很多非训练集内的伪数据来训练新模型,这显然要更可行。

为了达到更好的预测,原始训练模型时通常会使用过参数化的网络或者使用集成学习方法。知识蒸馏可以得到性能相近(输出的概率分布充分接近)但体积小得多的模型。

总体来说知识蒸馏是一个简单而有效的模型压缩/训练方法。这大体上是因为原模型的softmax提供了比one-hot标签更多的监督信号

自蒸馏(self-distillation)

当新模型的结构和之前完全相同时,被称作自蒸馏。一般来说这样子得到的模型都会比原始的模型泛化性能更好(过拟合的程度更低)。

该文对这种现象进行了细致的理论分析(发生了什么,为何有效)。

主要结论:几轮self-distillation会通过逐渐限制代表解的基函数的数量,这往往会减少过度拟合(次数过多会导致欠拟合,影响性能)。

希尔伯特空间

  • 希尔伯特空间就是完备的内积空间

  • 在数学分析中,完备空间又称完备度量空间或称柯西空间(Cauchy space)。如果一个度量空间中的所有柯西序列都收敛在该空间中的一点,则称该空间为完备空间。

  • 在数学中,度量空间是个具有距离函数的集合,该距离函数定义集合内所有元素间之距离。此距离函数被称为集合上的度量。度量空间中最符合人们对于现实直观理解的是三维欧几里得空间(Euclidean space)。

  • 这里的“距离”是一个抽象概念,不仅仅指两点间的直线距离,还包括向量距离、函数距离、曲面距离等。

  • 在数学中,柯西序列、柯西列、柯西数列或基本列是指这样一个数列,它的元素随着序数的增加而愈发靠近。任何收敛数列必然是柯西列,任何柯西列必然是有界序列。

  • 内积空间指的是添加了一个“运算方法”(或称“结构”)的向量空间(或称为“线性空间”,两者同义),这个新添加的运算方法即“内积(Inner product)”又称“标量积(Scalar product)”或称“点积(Dot product)”。内积将一对向量与一个纯量连接起来,允许我们严格地谈论向量的“夹角”和“长度”,并进一步谈论向量的正交性。

  • 希尔伯特空间(Hilbert space)是有限维欧几里得空间(Euclidean space)的一个推广,使之不局限于实数的情形和有限的维数,但又不失完备性(不像一般的非欧几里得空间那样破坏了完备性)

2.Social Diversity and Social Preferences in Mixed-Motive Reinforcement Learning

  • Kevin McKee, Ian Gemp, et al. arXiv 2020

  • REINFORCEMENT LEARNING

    NEUROSCIENCE

A

3.Targeted free energy estimation via learned mappings

  • Peter Wirnsberger, Andy Ballard, et al. arXiv 2020

4.Static and Dynamic Values of Computation in MCTS

  • Eren Sezener, P Dayan, arXiv 2020
  • REINFORCEMENT LEARNING

5.On Contrastive Learning for Likelihood-free Inference

  • C Durkan, I Murray, et al. arXiv 2020
  • UNSUPERVISED LEARNING & GENERATIVE MODELS

6.Causally Correct Partial Models for Reinforcement Learning

  • Danilo Rezende, Ivo Danihelka, et al. arXiv 2020

  • UNSUPERVISED LEARNING & GENERATIVE MODELS

    THEORY & FOUNDATIONS

7.Provably efficient reconstruction of policy networks

  • B Mazoure, T Doan, et al. arXiv 2020

8.Normalizing Flows on Tori and Spheres

  • Danilo Jimenez Rezende, George Papamakarios, et al. arXiv 2020

  • UNSUPERVISED LEARNING & GENERATIVE MODELS

    THEORY & FOUNDATIONS

9.Locally-Adaptive Nonparametric Online Learning

  • Ilja Kuzborskij, N Cesa-Bianchi, arXiv 2020
  • THEORY & FOUNDATIONS

10.MEMO: A Deep Network for Flexible Combination of Episodic Memories

  • Andrea Banino, Adrià Puigdomènech, et al. arXiv 2020
  • DEEP LEARNING

11.Learning Robust and Multilingual Speech Representations

  • Kazuya Kawakami, L Wang, et al. arXiv 2020

  • DEEP LEARNING

    UNSUPERVISED LEARNING & GENERATIVE MODELS

12.Silly rules improve the capacity of agents to learn stable enforcement and compliance behaviors

  • Raphael Koster, D Hadfield-Menell, et al. arXiv 2020

13.Q-Learning in enormous action spaces via amortized approximate maximization

  • Tom Van de Wiele, David Warde-Farley, et al. arXiv 2020

14.The Incentives that Shape Behaviour

  • R Carey, Eric Langlois, et al. arXiv 2020

  • SAFETY

    THEORY & FOUNDATIONS

15.Smooth markets: A basic mechanism for organizing gradient-based learners

  • David Balduzzi, Wojciech Marian Czarnecki, et al. arXiv 2020
  • THEORY & FOUNDATIONS

16.Sideways: Depth-Parallel Training of Video Models

  • Mateusz Malinowski, Grzegorz Swirszcz, et al. arXiv 2020

  • DEEP LEARNING

    NEUROSCIENCE

17.A distributional code for value in dopamine-based reinforcement learning

  • Will Dabney, Zeb Kurth-Nelson, et al. Nature 2020

  • NEUROSCIENCE

    REINFORCEMENT LEARNING

18.AlphaFold: Improved protein structure prediction using potentials from deep learning

  • Andrew Senior, Richard Evans, et al. Nature 2020
  • DEEP LEARNING

19.Artificial Intelligence, Values and Alignment

  • Iason Gabriel, arXiv 2020
  • SAFETY

20.Making Sense of Reinforcement Learning and Probabilistic Inference

  • Brendan O’Donoghue, Ian Osband, et al. ICLR 2020

  • REINFORCEMENT LEARNING

    THEORY & FOUNDATIONS

21.A Deep Neural Network’s Loss Surface Contains Every Low-dimensional Pattern

  • Wojciech Marian Czarnecki, Simon Osindero, et al. arXiv 2020

  • THEORY & FOUNDATIONS

    DEEP LEARNING

22.Continuous-Discrete Reinforcement Learning for Hybrid Control in Robotics

  • Michael Neunert, Abbas Abdolmaleki, et al. CoRL 2020

23.International evaluation of an AI system for breast cancer screening

  • Scott Mayer McKinney, Marcin T. Sieniek, et al. Nature 2020
  • DEEP LEARNING

24. Options of Interest: Temporal Abstraction with Interest Functions

  • K Khetarpal, M Klissarov, et al. AAAI 2020

   转载规则


《DeepMind Works 2020 Notes》 Martin 采用 知识共享署名 4.0 国际许可协议 进行许可。
 本篇
DeepMind Works 2020 Notes DeepMind Works 2020 Notes
1.Self-Distillation Amplifies Regularization in Hilbert Space H Mobahi, Mehrdad Farajtabar, et al. arXiv 2020 DEEP LEAR
2020-03-09
下一篇 
Codeforces-Solutions Codeforces-Solutions
Educational Codeforces Round 80C - Two Arrays(组合数学、动态规划)题意:给定n,m,利用1~n之间的数(可重复)来组成长度为m的数组a,b,要求数组a非递减,数组b非递增,且a数组的数小于等于b
2020-01-16
  目录