问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

难负例 多模态:对比学习Hard Negative Samples论文小结

发布网友 发布时间:2024-10-02 15:43

我来回答

1个回答

热心网友 时间:2024-11-06 05:01

Hard negative samples

在对比学习中,硬负样本具有与锚样本不同的标签,但具有非常接近的嵌入特征。它们是优化模型性能的关键。

ICLR 2021: Contrastive Learning with Hard Negative Samples

文章探讨了硬负样本的两种主要原则。为了实现这一目标,文章提出了一种硬采样方法。该方法旨在设计一个分布q,用于从与锚样本x相关的负样本中采样。分布q依赖于嵌入函数f和锚样本x,具体定义如下:

[公式] 其中 [公式] 是非负的“集中参数”, [公式] 是 [公式] 的先验分布。指数项是未归一化的von Mises–Fisher分布,其平均方向为 f(x) ,集中参数为 [公式] 。这个设计基于两个原则:内积大的点被偏好,等价于具有小平方欧几里得距离的点。

文章进一步利用PU-learning思想,将负样本分布拆分为来自同一标签的分布和来自不同标签的分布,以解决原则1的问题。通过引入margin hyperparameter,结合硬负样本的采样,文章设计了一个hardness-biased objective,与对比损失相加作为最终的损失函数。

AAAI 2023: Structure-CLIP

文章首先从caption中提取Scene Graph Knowledge (SGK),通过关键字替换生成硬负样本。接着,计算硬负样本与真实caption之间的距离,结合margin hyperparameter,设计损失函数 [公式]。这个损失函数与原始对比损失相加,形成新的对比学习损失函数。

文章通过SGK获取知识三元组,并通过transformer提取知识嵌入添加到文本嵌入中,形成合成文本嵌入进行对比学习。在整个过程中,仅训练提取知识嵌入的transformer。

CVPR 2023: Filtering, Distillation, and Hard Negatives

文章提出了一种名为Distilled and Hard-negative Training (DiHT)的方法,包括三个主要贡献:复杂性、动作和文本(CAT)过滤、概念提炼和多模态对齐。

首先,通过构建快速规则解析器过滤复杂的caption,以匹配训练分布和任务需求。然后,文章使用文本识别器过滤图像,专注于高级语义(对象、属性)而非文本识别,以避免在下游任务上的性能下降。

文章还采用概念提炼方法,从caption中提取对象和属性作为伪标签,并使用这些伪标签进行训练。最后,文章采用与ICLR 2021: CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES中的重要性采样策略类似的方法,通过在batch内对样本进行加权,实现in-batch难样本挖掘和两个蒸馏损失的结合。

ICASSP 2023: On Negative Sampling for Contrastive Audio-Text Retrieval

文章提出了一种模型无关的双编码器框架进行对比音频-文本检索任务。在缺乏音频-文本数据集的情况下,文章将对应的音频-文本对视为正例对,其余情况视为负例。文章使用点积或余弦相似度作为衡量标准,并使用triplet损失进行对比学习。

文章提出了八种负样本采样策略,包括基本负样本和基于得分的负样本采样等。

Nature Communications: Towards artificial general intelligence via a multimodal foundation model

文章采用了类似MOCO的方法,通过动量编码器维护不同小批量样本的大队列。动量编码器在更新时应用动量公式以平滑更新权重。文章的主要思想是在mini-batch中进行样本、对应的pair和负样本的对比学习,对image->text和text->image都执行了这一操作。

文章还提到了一个前作“Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training”,在对比学习时,前作仅在文本与对应图像+其余负样本之间训练,而image->text则相反。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
宁波社保卡办理需要什么材料 宁波社保卡如何申领 有什么高性价比的隔离霜可以推荐? 防晒效果好的隔离霜有哪些值得入手? 下雨天经常爬在房子墙上的那种软体动物,不是蜗牛没壳的,可以在墙上把身... 原来是美男啊里面插曲、主题曲都有哪些? 请问下各位大虾,我在外地用外地农行卡网上转账到本地邮政卡星期六转账的... 为什么用支付宝买东西明明我余额足够,付款时却说我余额不足?2个... 萍乡烛式过滤器品牌 衡水烛式过滤器品牌推荐 淘宝旺铺智能版有必要买吗?有哪些优势? 【对比学习】初识对比学习 请问淘宝专业版和基础版哪个好一些?好像专业版功能多一点。。我现在是... 对比学习串烧(李沐大神视频学习笔记) 对比学习contrastive learning 【MoCo v3】An Empirical Study of Training Self-Supervised Vision T... 上海柏格仕厨卫有限公司怎么样? 佳纳克金属制品(上海)有限公司怎么样? 上海毅特维光学电器科技有限公司怎么样? 2018北京十大旅游景点推荐 北京旅游景点排行榜 上海简通激光科技有限公司怎么样? 洞薛路651弄到金沙江支路200号 qq盗号者知道我身份证号就老是申诉我的QQ我该怎么办?才能让他不能申诉... 水星 极速300兆三天线 宽带无线路由器穿墙技术怎么样 身份证号泄露了,qq账号是不是就可以被别人无限次的申诉重置密码?要怎 ... ...的qq上,叫他取消掉他不肯。怎么样才能在不知道他账号密码的... 300兆水星路由器的管理员的密码是多少?谁知道呀!恢复出厂设置,以后还是... 300兆水星路由得管理员密码是多少 新鲜的桂圆有什么功效 ...书写堆叠样式的公差函数 上偏差为+0.02 下偏差为0,注意0前面不要... 万字长文谈图像中的无监督学习(Moco、Simclr、BYOL、SimSiam、SwAV、MAE... 盘点! 一文梳理2020年大热的对比学习模型 ...人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!_百度知... 写龙眼是什么意思? 龙眼有什么药用价值? 凯迪拉克CT6钥匙远程启动 有什么好吃的龙眼品种推荐? 凯迪拉克CT6 Plug-in有没有远程启动功能 篮球裁判鸣哨的"四不一可"指的什么 桂圆有什么功效和作用 吃桂圆有哪些好处 如何在excel表格中查找指定数值返回的下一个值 怎么查询iphone在哪里实时位置 桂圆的营养价值及营养成分 452中的5表示什么意思? 微信零钱被划扣了这是执行局有几个人协商好的 瑗垮畨浜ゅぇ闄勮繎(瑗垮畨甯备篃琛�)鍝�噷鑳藉悆鍒伴厌閰垮浑... 研究生可以转户口到学校吗 我梦到好多鱼在鱼缸里养着特别大,其中有一条大红鲤鱼身上还写着招财进... 梦见饺子让他人给踩了 张家界大峡谷张家界大峡谷买票须知