难负例多模态:对比学习Hard Negative Samples论文小结

发布网友发布时间：2024-10-02 15:43

共1个回答

热心网友时间：2024-11-06 05:01

Hard negative samples

在对比学习中，硬负样本具有与锚样本不同的标签，但具有非常接近的嵌入特征。它们是优化模型性能的关键。

ICLR 2021: Contrastive Learning with Hard Negative Samples

文章探讨了硬负样本的两种主要原则。为了实现这一目标，文章提出了一种硬采样方法。该方法旨在设计一个分布q，用于从与锚样本x相关的负样本中采样。分布q依赖于嵌入函数f和锚样本x，具体定义如下：

[公式] 其中 [公式] 是非负的“集中参数”， [公式] 是 [公式] 的先验分布。指数项是未归一化的von Mises–Fisher分布，其平均方向为 f(x) ，集中参数为 [公式] 。这个设计基于两个原则：内积大的点被偏好，等价于具有小平方欧几里得距离的点。

文章进一步利用PU-learning思想，将负样本分布拆分为来自同一标签的分布和来自不同标签的分布，以解决原则1的问题。通过引入margin hyperparameter，结合硬负样本的采样，文章设计了一个hardness-biased objective，与对比损失相加作为最终的损失函数。

AAAI 2023: Structure-CLIP

文章首先从caption中提取Scene Graph Knowledge (SGK)，通过关键字替换生成硬负样本。接着，计算硬负样本与真实caption之间的距离，结合margin hyperparameter，设计损失函数 [公式]。这个损失函数与原始对比损失相加，形成新的对比学习损失函数。

文章通过SGK获取知识三元组，并通过transformer提取知识嵌入添加到文本嵌入中，形成合成文本嵌入进行对比学习。在整个过程中，仅训练提取知识嵌入的transformer。

CVPR 2023: Filtering, Distillation, and Hard Negatives

文章提出了一种名为Distilled and Hard-negative Training (DiHT)的方法，包括三个主要贡献：复杂性、动作和文本（CAT）过滤、概念提炼和多模态对齐。

首先，通过构建快速规则解析器过滤复杂的caption，以匹配训练分布和任务需求。然后，文章使用文本识别器过滤图像，专注于高级语义（对象、属性）而非文本识别，以避免在下游任务上的性能下降。

文章还采用概念提炼方法，从caption中提取对象和属性作为伪标签，并使用这些伪标签进行训练。最后，文章采用与ICLR 2021: CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES中的重要性采样策略类似的方法，通过在batch内对样本进行加权，实现in-batch难样本挖掘和两个蒸馏损失的结合。

ICASSP 2023: On Negative Sampling for Contrastive Audio-Text Retrieval

文章提出了一种模型无关的双编码器框架进行对比音频-文本检索任务。在缺乏音频-文本数据集的情况下，文章将对应的音频-文本对视为正例对，其余情况视为负例。文章使用点积或余弦相似度作为衡量标准，并使用triplet损失进行对比学习。

文章提出了八种负样本采样策略，包括基本负样本和基于得分的负样本采样等。

Nature Communications: Towards artificial general intelligence via a multimodal foundation model

文章采用了类似MOCO的方法，通过动量编码器维护不同小批量样本的大队列。动量编码器在更新时应用动量公式以平滑更新权重。文章的主要思想是在mini-batch中进行样本、对应的pair和负样本的对比学习，对image->text和text->image都执行了这一操作。

文章还提到了一个前作“Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training”，在对比学习时，前作仅在文本与对应图像+其余负样本之间训练，而image->text则相反。

难负例 多模态:对比学习Hard Negative Samples论文小结

难负例多模态:对比学习Hard Negative Samples论文小结