Java 如何只提取网页源代码中的正文部分,就是正文部分包含标签也没关...
发布网友
发布时间:2024-03-04 10:30
我来回答
共4个回答
热心网友
时间:2024-03-08 08:49
相似网页可以用正则表达式来截取
不同网站的设计,对正文部分没有一个统一的规则。。。
只能找规律,然后做一个类似通解的方法,但是误差无法避免了。。
大概思路如下:
可以尝试着做一个对比的方法,找出某个标签内的文字和标签的比例最大
文字最多,标签最少的 一般来说是正文
具体实现:
得到网页内容,把网页内容分析成一个树(按照每个标签为一个节点),树的内容包含子节点数和该树一下的文字内容数量。
大概的对节点进行对比分析,得到节点最少,文字最多的节点。 这个就是那个正文节点了。
以上内容只适合博客、文章、新闻类的网站。搜索引擎网站等 很多标签穿插其间的无法适用。
热心网友
时间:2024-03-08 08:46
先得到网页的所有内容,然后用正则表达式去截取,从开始正文的地方截取标签对,然后得到正文,如果你想去掉内容中的标签的话你可以替换掉,这个是.net的思路,不过Java这样做也是可以的。
热心网友
时间:2024-03-08 08:50
先获取全部源代码 在用subString 截取中间部分就是了啊 <body> </body>标签总只有一个吧 找到这两个的位置就是了,C++我用find找,java你用indexof比较一下,很久没弄java了,错了勿怪
热心网友
时间:2024-03-08 08:49
IE 右键查看源代码
关于MVC模式请大家说下,让我了解下~?JAVA
视图部分大致处理流程如下:首先,页面模板定义了页面的布局;页面配置文件定义视图标签的具体内容(用户部件);然后,由页面布局策略类初始化并加载页面;每个用户部件根据它自己的配置进行初始化,加载校验器并设置参数,以及事件的委托等;用户提交后,通过了表示层的校验,用户部件把数据自动提交给业务实体即模型。 这一部分主要...
如何在java中查找文件的源代码?
工具如何查找源代码1、首先打开电脑的ie浏览器进去,如下图所示。进入ie浏览器首页后,点击查看,如下图所示。在查看菜单下选择源,如下图所示。最后打开源就看到本网页的源代码了,在最下方,如下图所示。2、第二种方法就是根据浏览器状态栏或工具栏中的点击“查看”然后就用一项“查看源代码”,点...
代码怎么编写(代码怎么做)
2.源代码在大多数时候等于源文件. 枫舞在上面说过2.最直观的概念在这个网页上右键鼠标,选择查看源文件.出来一个记事本,里面的内容就是此网页的源代码.这句话就体现了他们的关系,此处的源文件是指网页的源文件,而源代码就是源文件的内容,所以又可以称做网页的源代码.. 问题二:怎样写代码?那就再看一本好一点...
从源码分析快速实现对新开源软件的检测
需要保证字符串特征提取一致;同样Python源代码也相对容易的可以生成对应源代码的抽象语法树AST。另外对于C、C++源代码由于存在依赖和构建环境的原因而导致源代码无法编译,而很多工具需要能编译成功才能获取到AST的,比如CDT、Clang等,在这种情况下就没法使用了,必须使用具备词法分析和语法分析能力的工具来获...
如何复制网页中不能复制的文字
1、打开需要复制文字的网页,用鼠标点击需要复制文字的区域:2、右击需要复制的文字,在展开的菜单中点击“检查”按钮:3、在弹出的控制台中右击需要复制的文字,然后点击“Edit as HTML”按钮:4、这时被选中的文字就变成了可编辑状态,将需要的文字选中,然后右击被选中的文字,在展开的菜单中点击“复制...
Java注解详解和自定义注解实战,用代码讲解
在Java类中,每个类都会有对应的Class,要想执行反射操作,必须先要获取指定类名的Class 了解Class对象: 类是程序的一部分,每个类都有一个 Class 对象。换言之,每当我们编写并且编译 了一个新类,就会产生一个 Class 对象(更恰当的说,是被保存在一个同名的 .class 文件中)。为了生成这个类的对象,Java 虚拟机 ...
如何查看网页设计的源程序是由什么语言编写的?
这个如果在做的不严谨的网站,可以找到。比如点开链接,看地址栏,是一个php或者jsp页面,就说明后台是PHP或JAVA做的。比如,右键网页源代码,找到表单的form属性,可能是一个.php或者.action。也可以判断出来。不过,后台语言,在界面的源代码中是没办法通过浏览器查看的。解决方案2:这个真看不出来。
java开发流程?
Java应用程序的运行经过编写、编译、运行三个步骤。 第1步,编写程序。使用记事本或其他软件编写程序的源代码,将源代码保存为文件filename.java文件。 第2步,编译程序。在MS-DOS命令窗口,将当前目录转换到Java源程序所在的保存目录;输入“javacfilename.java”形式的命令进行程序编译。 第3步,执行程序。在同样的命令...
如果只需要网页上的文字素材,有哪几种保存方法?
(2)所见即所得的网页编辑器。 Microsoft FrontPage中,如Word的用户界面,知名运营商的Word功能,稍加培训就可以很容易索引的网页。此外,FrontPage可以解析网页的HTML源代码,并预览支持。但FrontPage中特殊的显示功能,并且不能使用在其他非IE浏览器。 FrontPage是一款非常适合初中级网页制作人员使用的软件工具。 (3)现在...
java中代码注释快捷键(java的注释快捷键)
1. java的注释快捷键 1、第一首先要是java的代码很乱的话。按shift+Ctrl+F可以进行整理;格式整理化:shift+Ctrl+F。2、第二然后想要在写java代码轻松。按Alt+/。java代码智能提示:Alt+/。3、第三然后在java的代码中,移动某段代码。按Alt+方向键;移动代码:Alt+方向键。4、第四然后快速写出...