发布网友 发布时间:2023-05-25 20:55
共1个回答
热心网友 时间:2024-11-15 20:32
-paper1: Matching Networks for One Shot Learning (谷歌DeepMind的一篇论文)
-paper2: DATA AUGMENTATION GENERATIVE ADVERSARIAL NET
-paper3: MetaGAN: An Adversarial Approach to Few-Shot Learning (NIPS2018)
附上我觉得总结的不错的一篇链接
Matching Networks基于小样本学习归类,使得训练好的模型不需要经过调整也可以用在对训练过程中未出现过的类别进行归类。
Contribution:one-shot learning within the set-to-set framework
Simplest form of model:
其中, 来自support set 可以看作一个attention kernel。
该模型用函数可表示为 ,用概率可表示为 。For a given input unseen example ,our predicted output class would be .其中P为parametric neural network。
其中f,g是两个嵌入对编码函数,如figure1所示。
(内部结构没太看懂,得对LSTM结构有深入对了解才行,这里是宏观上理解)
Full Context Embeddings f
Figure1的意思大致为:从源域学习好的manifold可以用于实现和有效地改进匹配网络的few-shot目标域。通过DAGAN可以增加匹配网络和相关模型中的数据(从DAGAN生成的每个类的最相关的比较点来实现)这涉及切线距离的概念。DAGAN以学习到流形之间的距离为目标关键。
Figure2的意思大致介绍了data shift的概念:协变量移位对多个域之间的变化情况。(对于one shot学习,类分布有一个极端的变化——两个分布没有共同支持。因此需要假设类条件分布具有一些共性,信息才可以从源域转换到one-shot目标域,生成新的数据。)
介绍了典型的数据增强技术的思想:在数据类间转换去挖掘其中的已知不变性。引出DAGAN的思想就差不多是在不同的源域训练GAN,从而学得更大的不变空间模型。训练出来的DAGAN不依赖于类本身,能捕获跨类转换,将数据点移动到相同类的其他点。
Transfer Learning and Dataset Shift:The term dataset shift (Storkey, 2009) generalises the concept of covariate shift (讲了协变量转移的概念)
Data Augmentation:Almost all cases of data augmentation are from a priori known invariance.(先验已知不变性)
这里要强调向D提供原始数据的重要性,防止GAN简单地对当前数据点进行自动编码。
G:a combination of a UNet and ResNet (UResNet)
网上搜不到对这篇文章的分析,就我个人理解整篇文章偏理论,提出了把GAN应用到元学习领域。文章借用元学习训练的方式,整体来看很像半监督学习GAN。
通过对抗训练的方式使得鉴别器 learn sharper decision boundary.
Problem:Adapt to new tasks within a few numbers of steps and scarce data.
Solve:MetaLearning:Train a adaptation strategy to a distribution of similar tasks, trying to extract transferable patterns useful for many tasks.
目前小样本学习方法建议阅读 当小样本遇上机器学习 fewshot learning
目前许多few-shot learning models考虑如何用少量样本进行监督学习,而本文MetaGAN框架将监督和半监督学习结合,通过对抗学习的方式使用G生成的假数据学习到更清晰的决策边界,for both sample-level and task-level。
关于sharper decision boundary的理解可以参考文中的这张图:
Few-Shot Learning Def
Increase the dimension of the classifier output from N to N + 1, to model the probability that input data is fake.(通过给classifier增加一个额外的输出,这就是我说的其实想法类似于 semi-supervised GANs)
最后作者分析了MetaGAN work的原因。直观的理解就是那幅图,当然作者没有那么随意,用了许多数学知识来证明,于我而言晦涩难懂,这里就不班门弄斧了。