用java实现提取指定网页中的表格数据?
发布网友
发布时间:2022-04-25 07:16
我来回答
共5个回答
热心网友
时间:2023-11-06 07:00
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
热心网友
时间:2023-11-06 07:00
在网页数据采集的时候,我们往往要经过这几个大的步骤:
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
热心网友
时间:2023-11-06 07:00
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
热心网友
时间:2023-11-06 07:00
在网页数据采集的时候,我们往往要经过这几个大的步骤:
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
热心网友
时间:2023-11-06 07:01
你这种想法如果侦查自己开发的网站还可以,但是如果你监察别人的网站,除非你能拿到源代码,否则你根本实现不了,因为你连table的id都拿不到你怎么去获取数据啊,
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
热心网友
时间:2023-11-06 07:02
搞网站入侵啊 !
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
热心网友
时间:2023-11-06 07:01
你这种想法如果侦查自己开发的网站还可以,但是如果你监察别人的网站,除非你能拿到源代码,否则你根本实现不了,因为你连table的id都拿不到你怎么去获取数据啊,
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
热心网友
时间:2023-11-06 07:02
搞网站入侵啊 !
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
热心网友
时间:2023-11-06 07:02
想法是好的,只是这个实现过程。。。
热心网友
时间:2023-11-06 07:00
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
热心网友
时间:2023-11-06 07:00
在网页数据采集的时候,我们往往要经过这几个大的步骤:
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
热心网友
时间:2023-11-06 07:01
你这种想法如果侦查自己开发的网站还可以,但是如果你监察别人的网站,除非你能拿到源代码,否则你根本实现不了,因为你连table的id都拿不到你怎么去获取数据啊,
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
热心网友
时间:2023-11-06 07:02
搞网站入侵啊 !
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
热心网友
时间:2023-11-06 07:02
想法是好的,只是这个实现过程。。。
热心网友
时间:2023-11-06 07:00
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
热心网友
时间:2023-11-06 07:02
想法是好的,只是这个实现过程。。。
热心网友
时间:2023-11-06 07:00
在网页数据采集的时候,我们往往要经过这几个大的步骤:
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
热心网友
时间:2023-11-06 07:01
你这种想法如果侦查自己开发的网站还可以,但是如果你监察别人的网站,除非你能拿到源代码,否则你根本实现不了,因为你连table的id都拿不到你怎么去获取数据啊,
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
热心网友
时间:2023-11-06 07:02
搞网站入侵啊 !
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
热心网友
时间:2023-11-06 07:00
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>