问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

自然语言处理的相关技术

发布网友 发布时间:2022-04-23 07:43

我来回答

1个回答

热心网友 时间:2022-06-17 20:59

数据稀疏与平滑技术
大规模数据统计方法与有限的训练语料之间必然产生数据稀疏问题,导致零概率问题,符合经典的zip'f定律。如IBM, Brown:366M英语语料训练trigram,在测试语料中,有14.7%的trigram和2.2%的bigram在训练语料中未出现。
数据稀疏问题定义:“The problem of data sparseness, alsoknown as the zero-frequency problem ariseswhen analyses contain configurations thatnever occurred in the training corpus. Then it isnot possible to estimate probabilities from observedfrequencies, and some other estimation schemethat can generalize (that configurations) from thetraining data has to be used. —— Dagan”。
人们为理论模型实用化而进行了众多尝试与努力,诞生了一系列经典的平滑技术,它们的基本思想是“降低已出现n-gram条件概率分布,以使未出现的n-gram条件概率分布非零”,且经数据平滑后一定保证概率和为1,详细如下: Add-one(Laplace) Smoothing 加一平滑法,又称拉普拉斯定律,其保证每个n-gram在训练语料中至少出现1次,以bigram为例,公式如图:

其中,V是所有bigram的个数。 Good-Turing Smoothing 其基本思想是利用频率的类别信息对频率进行平滑。调整出现频率为c的n-gram频率为c*:

直接的改进策略就是“对出现次数超过某个阈值的gram,不进行平滑,阈值一般取8~10”,其他方法请参见“Simple Good-Turing”。 InterpolationSmoothing 不管是Add-one,还是Good Turing平滑技术,对于未出现的n-gram都一视同仁,难免存在不合理(事件发生概率存在差别),所以这里再介绍一种线性插值平滑技术,其基本思想是将高阶模型和低阶模型作线性组合,利用低元n-gram模型对高元n-gram模型进行线性插值。因为在没有足够的数据对高元n-gram模型进行概率估计时,低元n-gram模型通常可以提供有用的信息。公式如下如右图1:

扩展方式(上下文相关)为如右图2:
λs可以通过EM算法来估计,具体步骤如下: 首先,确定三种数据:Training data、Held-out data和Test data; 然后,根据Training data构造初始的语言模型,并确定初始的λs(如均为1); 最后,基于EM算法迭代地优化λs,使得Held-out data概率(如下式)最大化。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
怎么描写小猫呢? 什么梦预示正缘要出现 壳外电场分布为什么与壳内电荷的位置无关啊 为什么带电球壳的内部场强处处为零? 电荷内或外感应球壳,球壳内部场强是否处处为零 win11回收站图标隐藏方法-win11回收站怎么隐藏 Windows 11回收站不见了怎么办_如何在Windows 11中恢复回收站图标 Win11回收站图标显示方法 win11显示回收站的方法_win11怎么显示回收站 华为荣耀5X评价,缺点,参数 深度学习之自然语言处理bert 30.词向量模型通俗解释 什么是N-gram语言模型 形容古人勤奋的文言文? 中国古代文人 深度网络可分为无序模型和顺序模型是基于什么划分的?哪个模型更适合用于自然语言处理? 有哪些和三月三有关的古人文章? 如何看待自然语言处理未来的走向? 古人中谥号中有“文”和“忠”的人都有谁?? 如何理解自然语言处理中的多模态 关于古代名人的文章 关于中国古人的描写文段,有文学性的,可以拿来就用的 自然语言处理 语言模型 有哪些 求几篇古人祭妻文(全文) 古人用文言文表达爱的句子有哪些? 手机怎么做串烧歌曲! 古人为什么要用文言文记事 古代名人谁的名字带文这个字 急求写古人的文章!要简短的! 有什么软件可以剪辑合成歌曲? 寻找美文 关于古人的 人工智能自然语言处理现在能做些什么? 自然语言处理为什么从规则转到统计的方法 一杯绿茶可以泡几次喝? 国内外在自然语言处理领域的研究热点和难点有哪些? 计算语言学和自然语言信息处理有什么区别 人的大脑是如何记忆东西的? 百分点的自然语言处理有什么优势啊? 如何能快速记忆 如何用蓝牙传照片? 怎样快速记忆想记住的东西? 自然语言处理教材?内容?方向? 华为手机可以通过蓝牙传照片吗 人的大脑是如何记忆东西的呢? 绿茶一般要泡几次,为什么? 绿茶一般喝几泡? 大脑有记忆功能,它是如何记住一些东西的呢? 绿茶功夫茶泡法可泡几泡?每泡时间在多少 安卓系统手机给苹果手机用蓝牙传照片,传得过来吗? 如何能快速记住东西,增强记忆力? 一般绿茶泡几次为宜?