发布网友 发布时间:2024-10-02 15:43
共1个回答
热心网友 时间:2024-11-06 05:01
Hard negative samples
在对比学习中,硬负样本具有与锚样本不同的标签,但具有非常接近的嵌入特征。它们是优化模型性能的关键。
ICLR 2021: Contrastive Learning with Hard Negative Samples
文章探讨了硬负样本的两种主要原则。为了实现这一目标,文章提出了一种硬采样方法。该方法旨在设计一个分布q,用于从与锚样本x相关的负样本中采样。分布q依赖于嵌入函数f和锚样本x,具体定义如下:
[公式] 其中 [公式] 是非负的“集中参数”, [公式] 是 [公式] 的先验分布。指数项是未归一化的von Mises–Fisher分布,其平均方向为 f(x) ,集中参数为 [公式] 。这个设计基于两个原则:内积大的点被偏好,等价于具有小平方欧几里得距离的点。
文章进一步利用PU-learning思想,将负样本分布拆分为来自同一标签的分布和来自不同标签的分布,以解决原则1的问题。通过引入margin hyperparameter,结合硬负样本的采样,文章设计了一个hardness-biased objective,与对比损失相加作为最终的损失函数。
AAAI 2023: Structure-CLIP
文章首先从caption中提取Scene Graph Knowledge (SGK),通过关键字替换生成硬负样本。接着,计算硬负样本与真实caption之间的距离,结合margin hyperparameter,设计损失函数 [公式]。这个损失函数与原始对比损失相加,形成新的对比学习损失函数。
文章通过SGK获取知识三元组,并通过transformer提取知识嵌入添加到文本嵌入中,形成合成文本嵌入进行对比学习。在整个过程中,仅训练提取知识嵌入的transformer。
CVPR 2023: Filtering, Distillation, and Hard Negatives
文章提出了一种名为Distilled and Hard-negative Training (DiHT)的方法,包括三个主要贡献:复杂性、动作和文本(CAT)过滤、概念提炼和多模态对齐。
首先,通过构建快速规则解析器过滤复杂的caption,以匹配训练分布和任务需求。然后,文章使用文本识别器过滤图像,专注于高级语义(对象、属性)而非文本识别,以避免在下游任务上的性能下降。
文章还采用概念提炼方法,从caption中提取对象和属性作为伪标签,并使用这些伪标签进行训练。最后,文章采用与ICLR 2021: CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES中的重要性采样策略类似的方法,通过在batch内对样本进行加权,实现in-batch难样本挖掘和两个蒸馏损失的结合。
ICASSP 2023: On Negative Sampling for Contrastive Audio-Text Retrieval
文章提出了一种模型无关的双编码器框架进行对比音频-文本检索任务。在缺乏音频-文本数据集的情况下,文章将对应的音频-文本对视为正例对,其余情况视为负例。文章使用点积或余弦相似度作为衡量标准,并使用triplet损失进行对比学习。
文章提出了八种负样本采样策略,包括基本负样本和基于得分的负样本采样等。
Nature Communications: Towards artificial general intelligence via a multimodal foundation model
文章采用了类似MOCO的方法,通过动量编码器维护不同小批量样本的大队列。动量编码器在更新时应用动量公式以平滑更新权重。文章的主要思想是在mini-batch中进行样本、对应的pair和负样本的对比学习,对image->text和text->image都执行了这一操作。
文章还提到了一个前作“Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training”,在对比学习时,前作仅在文本与对应图像+其余负样本之间训练,而image->text则相反。