文本分类是多对一架构
发布网友
发布时间:2022-12-25 12:26
我来回答
共1个回答
热心网友
时间:2023-10-12 10:39
yefan19
博客园 首页 联系 管理
随笔 - 4 文章 - 0 评论 - 0 阅读 - 1722
文本分类
背景
文本分类属于文本挖掘。文本挖掘从已知文本提取未知的知识,即从非结构的文本中提取知识。文本挖掘主要领域:搜索和信息检索;文本聚类;文本分类;Web挖掘;信息抽取;自然语言处理;概念提取。[1]
搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。
文本聚类:使用聚类方法,对词汇,片段,段落或者文件进行分组和归类。
文本分类:对片段,段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。
Web挖掘:在互联网上进行数据和文本的挖掘,并特别关注网络的规模和相互联系。
信息抽取:从非结构化文本中识别与提取有关的事实和关系;从非结构化或半结构化文本中抽取出结构化数据的过程。
自然语言处理:将言语作为一种有意义,有规则的系统符号,在底层解析和理解语言的任务。
文本分类方法:
一、基于模式系统。也称为专家系统,将知识以规则表达式的形式进行分类‘;
二、基于机器学习,即广义的归纳过程,采用一组与分类的例子,通过训练简历分类,是一种自动分类的技术。
中文短文本多类分类(multi-label-class)[2]
单标签多分类概述
一、单标签二分类算法
单标签的 label 标签取值只有两种,并且算法中只有一个需要预测的标签的label 标签,即分类算法构建一个分类线将数据划分为两个类别。
常用算法:Logistic、SVM、KNN、决策树等。
二、单标签多分类算法
单标签多分类:待预测的 label 只有一个,但是label 标签的取值有多个,例如,
假设有类["酸", "甜", "苦", "辣", "香"], "这个水果点酸"(label="酸"),"这个菜看起来很香"(label="香");
常见算法:Softmax、SVM、KNN、决策树(集成学习 ----RF(Bagging)、Boosting(Adaboost、GBDT);XGBoost)
多分类问题转换为二分类算法的延伸,即将多分类任务拆分为若 干个二分类任务求解,
具体的策略如下:
One-Versus-One(ovo):一对一
One-Versus-All /