发布网友 发布时间:2022-04-26 20:54
共1个回答
热心网友 时间:2023-11-01 04:57
如果用Java首选当然是lucene了,不知道你有学过信息检索或者自然语言处理方面的课程没?你这个需求还很不明确,不过思路大概就是数据后台:文本预处理——〉分词——〉索引,这一部分重算法;系统后台:开发一个java web系统,这一部分明确需求;前台展示:这里就是你说的高亮关键词。本身是一个非常庞大的工作量,单就数据的准备就得考虑很多方面,文档的类型、编码,图片处理、纯文本处理等等,接着是中文分词,采用哪种分词算法。lucene只是提供了一个大概的框架,分词器也是非智能的那种。而系统的搭建当然是J2EE工程师的任务了,前提是你必须明确需求(比如“显示出命中关键词附近的内容,并高亮关键词”就属于未细化的需求)。前台展示的话不熟悉。