问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

“关键词”提取都有哪些方案?

发布网友 发布时间:2022-04-23 15:17

我来回答

3个回答

热心网友 时间:2022-04-14 13:41

仅从词语角度分析,1.2句banana是重复出现的,3.4句kitten是重复出现的。但其实可以发现1.2句主要跟食物有关,3.4句主要跟动物有关,而food、animal两个词在四句话里均未出现,有没有可能判断出四句话中所包含的两个主题呢,或者当两篇文章共有的高频词很少,如一篇讲banana,一篇讲orange,是否可以判断两篇文章都包含food这个主题呢,如何生成主题、如何分析文章的主题,这就是topic-model所研究的内容。对文本进行LSA(*语义分析)。在直接对词频进行分析的研究中,可以认为通过词语来描述文章,即一层的传递关系。而topic-model则认为文章是由主题组成,文章中的词,是以一定概率从主题中选取的。不同的主题下,词语出现的概率分布是不同的。比如”鱼雷“一词,在”军事“主题下出现的概率远大于在”食品”主题下出现的概率。即topic-model认为文档和词语之间还有一层关系。首先假设每篇文章只有一个主题z,则对于文章中的词w,是根据在z主题下的概率分布p(w|z)生成的。则在已经选定主题的前提下,整篇文档产生的概率是而这种对每篇文章只有一个主题的假设显然是不合理的,事实上每篇文章可能有多个主题,即主题的选择也是服从某概率分布p(t)的因此根据LDA模型,所有变量的联合分布为表示topic下词的分布,表示文档下topic的分布。是第m个文档的单词总数。和表示词语和topic的概率分布先验参数。而学习LDA的过程,就是通过观察到的文档集合,学习的过程。

热心网友 时间:2022-04-14 14:59

TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了。对于中文而言,中文分词和词性标注的性能对关键词抽取的效果至关重要。较复杂的算法各自有些问题,如TopicModel,它的主要问题是抽取的关键词一般过于宽泛,不能较好反映文章主题。这在我的博士论文中有专门实验和论述;TextRank实际应用效果并不比TFIDF有明显优势,而且由于涉及网络构建和随机游走的迭代算法,效率极低。这些复杂算法集中想要解决的问题,是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法,我认为我们提出的基于SMT(统计机器翻译)的模型,可以较好地兼顾效率和效果。以上都是无监督算法,即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话,就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲,利用有监督模型的效果普遍要优于无监督模型,对关键词抽取来讲亦是如此。在Web2.0时代的社会标签推荐问题,就是典型的有监督的关键词推荐问题,也是典型的多分类、多标签的分类问题,有很多高效算法可以使用。看你主要提取什么文本的关键词,曾经在微博上试过TF-IDF,LDA和TextRank,感觉LDA在短文本上完全不靠谱,在文档级应用上应该可以(没试过,这方面的论文应该很多。

热心网友 时间:2022-04-14 16:34

讲两个灰常牛*的算法。这才是大数据好伐。能够识别一个query里面哪些是关键term,哪些是比较弱的term。假如来了一个query,那么我们要判断里面的哪个词是关键词,我们会给每一个term都打一个分(termweight),分高的就是关键词,分低的就是垃圾词。那么这个分怎么来打比较合理呢,下面讲两个算法,都是基于海量数据统计的(query数目大约60亿);上下文无关的weight算法一个term单独出现的频次越高,而且和其他term搭配出现的机会越少,那么我们可以肯定,这个term表达意图的能力越强,越重要。所以有公式:一看就知道是一个迭代的公式。初始化的时候,每一个query的所有term权重之和等于1,所以每一个term的权重就是1/m;m是当前query的term数目。上下文有关的weight算法。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
网上订酒店哪个网好 经常听了歌就使劲摇头,长期会对大脑有什么影响吗 携程有什么优点 吉娃娃幼犬多少钱一只吉娃娃犬多少钱一只黑龙江省那有卖 吉娃娃现在多少钱一只? 预防中风的小动作有哪些呢? 京巴,吉娃娃,这类小型宠物狗大概多少钱? 摇头时颈椎有响声 旅行社怎么和携程合作推广旅游线路 不是纯种的吉娃娃狗狗能卖多少钱呢 用蟹笼捉螃蟹要用什么饵?笼子扔到河中间还是河靠边的位置? 钓螃蟹用什么饵料? 现在抓螃蟹用什么方法好 抓螃蟹用什么诱饵 抓螃蟹用哪些工具? 如何写好过渡句? 急 给我10个过渡句 什么样的句子是过渡句 摘抄文中的过渡句。 有没有一些优美的过渡句 好的开头,结尾,过渡段摘抄 过渡句怎么写? 优美的句子过渡句、叙事段 微信添加好友之前的验证信息的内容还能看得到吗? 网络红人熙灏资料 际强壮注册过商标吗?还有哪些分类可以注册? 东平酒厂的品牌 哪些牌子壮阳酒效果好? 进口红酒asc正品是什么意思 茅台酒的飞天商标、五星商标、“圆形蓝底红顶moutai”商标,这三个商标的区别是什么? 如何进行中文新闻网页关键词抽取 如何抽取相同关键词文本? simhash中如何抽取文本关键字及权重 急问,C++关于关键词抽取特征的代码 如何对文本型数据进行抽样?如下图:从下面的文本数据中随机抽10个样本。 非常感谢! 什么是自动标引系统 PPT怎么制作抽关键词的啊? 写作中关键词的写法怎样写 常见百度关键词挖掘方法分别是什么请列举? 为什么有些导师会要求学生从科学论文中自动抽取关键词? 论文关键词怎么写 excel中 如何将含有关键词的单元格以及左右单元格的内容自动抽取出来 谢谢大家 什么是关键词? 如何巧抓重点词句理解课文内容 自然语言、描述性文本能够挖掘吗? 关键词论文格式 《塞尔达传说》剑之试炼必须一次过吗? 《塞尔达传说 荒野之息》剑之试炼一共多少层? 《塞尔达传说》剑之试炼一共多少层? 塞尔达传说 大师剑怎么获得