问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

Java 如何只提取网页源代码中的正文部分,就是正文部分包含标签也没关...

发布网友 发布时间:2024-03-04 10:30

我来回答

4个回答

热心网友 时间:2024-03-08 08:49

相似网页可以用正则表达式来截取

不同网站的设计,对正文部分没有一个统一的规则。。。
只能找规律,然后做一个类似通解的方法,但是误差无法避免了。。

大概思路如下:

可以尝试着做一个对比的方法,找出某个标签内的文字和标签的比例最大
文字最多,标签最少的 一般来说是正文

具体实现:
得到网页内容,把网页内容分析成一个树(按照每个标签为一个节点),树的内容包含子节点数和该树一下的文字内容数量。
大概的对节点进行对比分析,得到节点最少,文字最多的节点。 这个就是那个正文节点了。

以上内容只适合博客、文章、新闻类的网站。搜索引擎网站等 很多标签穿插其间的无法适用。

热心网友 时间:2024-03-08 08:46

先得到网页的所有内容,然后用正则表达式去截取,从开始正文的地方截取标签对,然后得到正文,如果你想去掉内容中的标签的话你可以替换掉,这个是.net的思路,不过Java这样做也是可以的。

热心网友 时间:2024-03-08 08:50

先获取全部源代码 在用subString 截取中间部分就是了啊 <body> </body>标签总只有一个吧 找到这两个的位置就是了,C++我用find找,java你用indexof比较一下,很久没弄java了,错了勿怪

热心网友 时间:2024-03-08 08:49

IE 右键查看源代码
关于MVC模式请大家说下,让我了解下~?JAVA

视图部分大致处理流程如下:首先,页面模板定义了页面的布局;页面配置文件定义视图标签的具体内容(用户部件);然后,由页面布局策略类初始化并加载页面;每个用户部件根据它自己的配置进行初始化,加载校验器并设置参数,以及事件的委托等;用户提交后,通过了表示层的校验,用户部件把数据自动提交给业务实体即模型。 这一部分主要...

如何在java中查找文件的源代码?

工具如何查找源代码1、首先打开电脑的ie浏览器进去,如下图所示。进入ie浏览器首页后,点击查看,如下图所示。在查看菜单下选择源,如下图所示。最后打开源就看到本网页的源代码了,在最下方,如下图所示。2、第二种方法就是根据浏览器状态栏或工具栏中的点击“查看”然后就用一项“查看源代码”,点...

代码怎么编写(代码怎么做)

2.源代码在大多数时候等于源文件. 枫舞在上面说过2.最直观的概念在这个网页上右键鼠标,选择查看源文件.出来一个记事本,里面的内容就是此网页的源代码.这句话就体现了他们的关系,此处的源文件是指网页的源文件,而源代码就是源文件的内容,所以又可以称做网页的源代码.. 问题二:怎样写代码?那就再看一本好一点...

从源码分析快速实现对新开源软件的检测

需要保证字符串特征提取一致;同样Python源代码也相对容易的可以生成对应源代码的抽象语法树AST。另外对于C、C++源代码由于存在依赖和构建环境的原因而导致源代码无法编译,而很多工具需要能编译成功才能获取到AST的,比如CDT、Clang等,在这种情况下就没法使用了,必须使用具备词法分析和语法分析能力的工具来获...

如何复制网页中不能复制的文字

1、打开需要复制文字的网页,用鼠标点击需要复制文字的区域:2、右击需要复制的文字,在展开的菜单中点击“检查”按钮:3、在弹出的控制台中右击需要复制的文字,然后点击“Edit as HTML”按钮:4、这时被选中的文字就变成了可编辑状态,将需要的文字选中,然后右击被选中的文字,在展开的菜单中点击“复制...

Java注解详解和自定义注解实战,用代码讲解

在Java类中,每个类都会有对应的Class,要想执行反射操作,必须先要获取指定类名的Class 了解Class对象: 类是程序的一部分,每个类都有一个 Class 对象。换言之,每当我们编写并且编译 了一个新类,就会产生一个 Class 对象(更恰当的说,是被保存在一个同名的 .class 文件中)。为了生成这个类的对象,Java 虚拟机 ...

如何查看网页设计的源程序是由什么语言编写的?

这个如果在做的不严谨的网站,可以找到。比如点开链接,看地址栏,是一个php或者jsp页面,就说明后台是PHP或JAVA做的。比如,右键网页源代码,找到表单的form属性,可能是一个.php或者.action。也可以判断出来。不过,后台语言,在界面的源代码中是没办法通过浏览器查看的。解决方案2:这个真看不出来。

java开发流程?

Java应用程序的运行经过编写、编译、运行三个步骤。 第1步,编写程序。使用记事本或其他软件编写程序的源代码,将源代码保存为文件filename.java文件。 第2步,编译程序。在MS-DOS命令窗口,将当前目录转换到Java源程序所在的保存目录;输入“javacfilename.java”形式的命令进行程序编译。 第3步,执行程序。在同样的命令...

如果只需要网页上的文字素材,有哪几种保存方法?

(2)所见即所得的网页编辑器。 Microsoft FrontPage中,如Word的用户界面,知名运营商的Word功能,稍加培训就可以很容易索引的网页。此外,FrontPage可以解析网页的HTML源代码,并预览支持。但FrontPage中特殊的显示功能,并且不能使用在其他非IE浏览器。 FrontPage是一款非常适合初中级网页制作人员使用的软件工具。 (3)现在...

java中代码注释快捷键(java的注释快捷键)

1. java的注释快捷键 1、第一首先要是java的代码很乱的话。按shift+Ctrl+F可以进行整理;格式整理化:shift+Ctrl+F。2、第二然后想要在写java代码轻松。按Alt+/。java代码智能提示:Alt+/。3、第三然后在java的代码中,移动某段代码。按Alt+方向键;移动代码:Alt+方向键。4、第四然后快速写出...

如何从网页源代码中找到图片 网页源代码提取视频 网页游戏源代码怎么提取 网页源代码提取图片 如何把网页源代码下载下来 网页_取网页源码 从网页源代码中获取图片 网页源码提取 怎么从源代码中提取视频
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
cad默认线宽怎么设置? 我的微信被封了15天,使用现在的手机号和微信号微信密码可以登回去并且... 中国近几年发生的地震情况 中国近几年的大地震 近几年来我国地震的发生情况 中国近几年来发生哪些比较严重的地震? 为什么最近几年地震这么多? 百度封号不是永久性的,为什么还不能解封啊? 为什么百度知道的账号被封禁了,申诉了10多天还没解封 我的百度知道账号被封很久了,为什么还没有解封? 被冻结,解冻不成功怎么办? 北京乾华政茂文化传播有限公司怎么样? 北京乾华投资有限公司怎么样? 一年改2次的办法 兄弟们,笔记本显卡840M还有希望吗 为什么智能手表每天都会出现不同的英文字母 为什么我的苹果手机通讯录会消失呢? 济南西区医学中心产业园数据科创中心什么时候开工 持续改进的重点是什么 质量改进的重点是对什么的改进 炒楼、售楼、房地产、、区别是什么? 售楼人员要做些什么? 我是微信扫码支付收款方,对方扫码之后没付款,能找到对方吗? 一年内怎么改第二次 我是微信扫码支付收款方,对方扫码之后没付款,能找到对方吗? ...对方扫码了,却没有付款,怎样查到对方?追回钱款。 治疗一年期间身体消瘦近20斤,正常吗 我是微信扫码支付收款方,对方扫码之后没付款,能找到对方吗? 我是微信扫码支付收款方,对方扫码之后没付款,能找到对方吗? ...怎样查到对方?追回钱款。怎么看对方支付二维码 ...了朕》txt下载在线阅读全文,求百度网盘云资源 为什么思域大部分没有天窗 思域带天窗吗? 思域高配可以不要天窗的么 思域有天窗和没天窗空间有差别吗 头不痛也不晕只是感觉身体发热请问下是什么 想问一下,我有一张80版的猴票,是金箔的,就一张,能值多少钱? 怎么一年内修改两次? 二手房装修木地板想换成地砖可以吗 收割机比较 我想买收割机但是不知道是约翰迪尔3080A效果好还是福田G438... 朋友们 麻烦问你们一下 是约翰迪尔3080A 3070 还有福田雷沃谷神4LZ-6A... 冬天冰箱不工作什么原因? 天冷时冰箱不制冷怎么回事啊? 我的qq密码是20位数为什么只能打16个就打不进去了 一年内怎么改第二次 雅思考试的a类和g类的区别是什么?&#xF62D;没搞懂 怎么在一年内修改两次 研究生专业考材料学,需要考哪几门课? 不到一年怎么改第二次 一年内怎么改第二次 一年内怎么修改第二次