文本的类型
发布网友
发布时间:2022-03-25 08:13
我来回答
共2个回答
懂视网
时间:2022-03-25 12:34
以计算机为例,文本类型有txt、doc(word及wps可打开)、hlp、wps(wPS软件可打开)、rtf(word及wps软件可打开)、htm(浏览器可打开、用写字板打开)、pdf。
文本文件是一种计算机文件,它是一种典型的顺序文件,其文件的逻辑结构又属于流式文件。特别的是,文本文件是指以ASCII码方式(也称文本方式)存储的文件,更确切地说,英文、数字等字符存储的是ASCII码,而汉字存储的是机内码。文本文件中除了存储文件有效字符信息(包括能用ASCII码字符表示的回车、换行等信息)外,不能存储其他任何信息。
文本文件在MIME标准中的类型为“text/plain”,此外,它通常还附加编码的信息。在Mac OS X出现前,当Resource fork指定某一个文件的类型为“TEXT”时,Mac OS就认为这个文件是文本文件。在Windows中,当一个文件的扩展名为“txt”时,系统就认为它是一个文本文件。此外,处于特殊的目的,有些文本文件使用其它的扩展名。例如,计算机的源代码也是文本文件,它们的后缀是用来指明它的程序语言的。
热心网友
时间:2022-03-25 09:42
一、文本分类简介
文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程,文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确类别(或主题)。
要想做文本分类,首先需要有带类别标签的文本集合,构成训练集,提取特征后再构建分类模型。自动化的文本分类应用广泛,不限于文本检索、垃圾邮件过滤、题材检测等,是文本挖掘最基础也是应用最广泛的技术。
二、文本分类步骤
STEP 1 : 数据预处理
去除文本噪声,比如网页源代码解析(常用到正则表达式)、编码转换等
STEP 2 : 中文分词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将一段话划分成一个个词。比如,‘我喜欢吃番茄和吃西瓜’可划分为‘我/ 喜欢/ 吃/ 番茄/ 和/ 吃/ 西瓜 ’;‘我很久没吃西瓜了’可划分为‘我/ 很久没/ 吃/ 西瓜/ 了 ’;‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’可划分为‘我/ 喜欢/ 吃/ 西瓜/ ,/ 西瓜/ 很甜/ ,/ 很久没/ 吃/ 西瓜/ 了’
STEP 3 : 构建词向量空间
统计文本的词频,构建词向量空间,目的是将一个文本转为向量,便于接下来的建模分析。以step1的例子作简要说明,‘我喜欢吃番茄和西瓜’记为文档A,‘我很久没吃西瓜了’记为文档B,‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’记为文档C,转为词向量(忽略标点符号)
STEP 4 : 权重计算
简单的词频并不能衡量该词在对应文档中的权重,原因有两点,第一,词频会受文档词长的影响;比如,文档C的词长为10,‘吃’的词频为2,文档B的词长为5,‘吃’的词频为1,从绝对意义上的词频来说,文档C中‘吃’的词频是文档B的两倍,但从相对意义上的词频来看,两文档中‘吃’的词频均为0.2,是一样的;第二,词频不能衡量普遍重要性;我们在衡量权重的时候也要考虑到这个词在其他文档中的出现比率,比如‘番茄’,它仅在文档A中出现,说明该词在该文档中重要性较高,‘吃’在三个文档中均出现,说明该词的重要性较低;目前最常用的指标是TF-IDF,该指标综合了以上两点来衡量某词在某文档中的重要性。
STEP 5 : 分类器
将文本向量化之后就可以进行分类建模,常用的分类算法有朴素贝叶斯、KNN、SVM等;
STEP 6 : 评价分类结果
常用的分类结果的衡量指标有准确率、召回率、F1值等;基于分类结果继续优化分类器,直到精度满足要求;