问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何度量两个词之间的语义相似度

发布网友 发布时间:2022-04-23 11:23

我来回答

2个回答

热心网友 时间:2023-10-12 06:30

  如何度量句子的语义相似度,很容易想到的是向量空间模型(VSM)和编辑距离的方法,比如A:“我爸是李刚”,B:“我儿子是李刚”,利用VSM方法A(我,爸,是,李刚)B(我,儿子,是,李刚),计算两个向量的夹角余弦值,不赘述;编辑距离就更好说了将“爸”,“儿子”分别替换掉,D(A,B)= replace_cost;

  这是两种相当呆的方法,属于baseline中的baseline,换两个例子看一下就知道A:“楼房如何建造?”,B:“高尔夫球怎么打?”,C:“房子怎么盖?”,如果用VSM算很明显由于B,C中有共同的词“怎么”,所以BC相似度高于AC;编辑距离同理;

  解决这种问题方法也不难,只要通过同义词词典对所有句子进行扩展,“如何”、“怎么”,“楼房”、“房子”都是同义词或者近义词,扩展后再算vsm或者edit distance对这一问题即可正解。这种方法一定程度上解决了召回率低的问题,但是扩展后引入噪声在所难免,尤其若原句中含有多义词时。例如:“打酱油”、“打毛衣”。在汉字中有些单字词表达了相当多的意义,在董振东先生的知网(hownet)中对这种类型汉字有很好的语义关系解释,通过hownet中词语到义元的树状结构可以对对词语粒度的形似度进行度量。

  问题到这里似乎得到了不错的解答,但实际中远远不够。VSM的方法把句子中的词语看做相互独立的特征,忽略了句子序列关系、位置关系对句子语义的影响;Edit Distance考虑了句子中词语顺序关系,但是这种关系是机械的置换、移动、删除、添加,实际中每个词语表达了不同的信息量,同样的词语在不同词语组合中包含的信息量或者说表达的语义信息大不相同。What about 句法分析,计算句法树的相似度?这个比前两种方法更靠谱些,因为句法树很好的描述了词语在句子中的地位。实际效果要待实验证实。

  对了,还有一种方法translation model,IBM在机器翻译领域的一大创举,需要有大量的语料库进行训练才能得到理想的翻译结果。当然包括中间词语对齐结果,如果能够利用web资源建立一个高质量的语料库对两两相似句对通过EM迭代词语对齐,由词语对齐生成句子相似度,这个。。想想还是不错的方法!

热心网友 时间:2023-10-12 06:30

作为自然语言理解的一项基础工作,词语语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等。 本文的核心内容是汉语词语语义相似度算法研究以及如何将其应用于跨语言信息检索(Cross-Language Information Retrieval, CLIR)领域。首先对语义相似度度量算法进行综述,然后重点描述基于HowNet的语义相似度度量算法,提出根据知识词典描述语言(Knowledge Dictionary Mark-up Language, KDML)的结构特性将词语语义相似度分为三部分进行计算,每部分采用最大匹配的算法,同时加入义原深度信息以区别对待不同信息含量的义原。较以往同类算法,其计算结果具有区分度,更加符合人的主观感觉。 本文尝试将所建立的汉语语义相似度度量模式应用于跨语言信息检索系统。跨语言信息检索结合传统文本信息检索技术和机器翻译技术,在多方面涉及到语义问题,是语义相似度良好的切入点。两者的结合主要体现在两方面:(1)将语义相似度度量应用于查询翻译,利用语义相似度对查询关键词进行消歧翻译,提高翻译质量;(2)将语义相似度应用于查询扩展,使扩展内容与原查询具有更高相关性,以提高检索的召回率和准确率。 本文提出相对客观的评价标准,如为单独衡量词义消歧的性能,而使用第三届词义消歧系统评价会议(The 3rd Evaluating Word Sense Disambiguation Systems, SENSEVAL-3)语料进行测试;为衡量应用语义相似度于跨语言检索后的性能,又使用第九届文本检索会议(The 9th Text Retrieval Conference, TREC-9) CLIR评价任务的查询集、语料库和结果集进行评估。这使得我们的实验结果相对公正客观,具有一定可比性。本文对原有英汉跨语言信息检索系统进行一定程度的改进,使得各种相关算法都可方便地在系统中进行集成,成为一个研究跨语言信息检索的实验平台,其系统的设计思想充分体现模块化和扩展性。 综上,本文通过综合分析主流的语义相似度算法,而提出一种新的基于HowNet的汉语语义相似度算法,并给出其在英汉跨语言信息检索中的尝试性应用,希望能给相关领域的研究者有所借鉴。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
房产证是房管局具体哪个部门在办理 电脑绿灯闪烁无法开机电脑主机绿灯一直亮但是开不开机没有反应_百度... 联想19寸显示器出现绿色一闪一闪 显示器绿灯闪烁,没图像 为什么我的联想显示器的指示灯总是闪烁??? 梦见一个小乞丐撒尿到头来的预兆 国服3.22战斗贼如何打出《高》DPS 国服3.22盗贼天赋,武器选择 魔兽世界3.22版本,战斗贼输出循环,请详细一点儿,谢谢,还有,红色宝石全部... 当老板需要具备哪些品质和能力 地理信息系统的语义学 语篇分析的语篇结构 编译器的组成及各部分的功能及作用 空间行走的游历者——《摩尔·弗兰德斯》中的摩尔女性形象解读 语义学和语用学有何区别 FAQ是啥意思? 科学精神的语义分析 “概念”一词是什么意思? 潜在语义分析的介绍 怎么进行一句话的语义结构分析? 语意分析技术可用于哪些问题进行研究? 语义分析与文本分析有什么区别,急急急!!! 地理信息语义分析与关系构建 怎么认识和理解“语义场”和“语义空间”? 空间数据语义分析是什么? 我要增高啊,不知道用那个叫“鍦特”的,是英国的。 有没有用,好犹豫啊。要是没有用就完了 鶄罧鍦饚什么意思 崽崽zepeto中文版制作衣服怎么填邮箱? 我的崽崽zepeto中文版安卓版为什么安装不了? zepto怎么进小城街道 计算机程序中,用高级语言编写的程序经编译后产生的程序叫什么? 将军翻身下马,立正高呼:“本将军奉命帅官兵欢迎大汗国使者!”改为转述句 sdms 806 直接求种子 葱花鸡蛋饼的制作方法的视频 葱花鸡蛋饼(一岁以上宝宝辅食)怎么做好吃 葱花鸡蛋饼(一岁以上宝宝辅食)怎么做好吃,葱花鸡蛋 葱花鸡蛋饼怎么做 鸡蛋饼的做法视频 简易葱花鸡蛋饼怎么做 葱花鸡蛋饼的做法大全,如何做葱花鸡蛋饼,怎样做 鸡蛋饼制作方法视频教程 葱花鸡蛋饼(糯米粉版)怎么做 葱花鸡蛋饼怎样做好吃 葱花鸡蛋饼的家常做法大全怎么做好 两岁宝宝鸡蛋饼怎么做 婴儿鸡蛋饼饼怎么做法 饿了才吃饭的危害 不按时吃饭,饿了才吃有哪些危害? 吃饭是不是一定要等到饿了才吃?这样是否对身体更好? 是饿了才吃还是三餐按时吃健康? 饿了就吃这样好吗?