问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何批量提取本地HTML里的图片或图片超链接

发布网友 发布时间:2022-04-29 01:48

我来回答

3个回答

懂视网 时间:2022-04-20 19:32

woody 是一款 Java 的HTML 解析/提取器,用法非常类似 webmagic, 是对其抽取模板完全重写,之所有单独提取出来是因为为来更好可重用。

一些新功能:

  • 多种结果数据类型(String, char, byte, short int, long, double, float, string[], Set, List,Data)

  • 支持用户之定义脚本处理函数(目前支持Javascript 函数配置处理)

  • 支持css,xpath内核替换

  • 支持filter功能

  • 对css,xpath 内核对象的缓存

  • 一个完整的例子:

    public class OsChinaBlog {
    	public static void main(String[] args) throws Exception {
    		Document doc = Jsoup.connect("http://www.oschina.net/news/43879/webmagic-0-3-0").timeout(60000)
    				.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:23.0) Gecko/20100101 Firefox/23.0").get();
    		String html = doc.html();
    		OsChinaBlogModel model = AnnotationExtractor.me().process(html, OsChinaBlogModel.class);
    		System.out.println(model.toJson());
    	}
    
    	public static class OsChinaBlogModel extends Model {
    
    		public OsChinaBlogModel() {
    			//use to reflect
    		}
    
    		@Inject
    		@ComboExtract(value = { @ExtractBy(value = "h1.OSCTitle", type = ExprType.CSS),
    				@ExtractBy(value = "//title/text()", type = ExprType.XPATH) }, op = OP.OR)
    		public String title;
    
    		@Inject
    		@ExtractBy(value = "p.PubDate a[href~=http://my\.oschina\.net/]", type = ExprType.CSS)
    		public String author;
    
    		@Inject
    		@ExtractBy(value = "发布于.\s*(\d+年\d+月\d+日)", type = ExprType.REGEX)
    		public Date publishDate;
    
    		@Inject
    		@ComboExtract(value = {
    				@ExtractBy(value = "p.PubDate", type = ExprType.CSS, setting = @Setting(outerHtml = true)),
    				@ExtractBy(value = "(\d+)评", type = ExprType.REGEX) }, op = OP.AND)
    		public int commentNum;
    
    		@Inject
    		@ExtractBy(value = "span#p_favor_count", type = ExprType.CSS, setting = @Setting(function = @Function(value = "replace", args = {
    				"+", "" })))
    		public int collectNum;
    
    		@Inject
    		@ComboExtract(value = {
    				@ExtractBy(value = "p[id=userComments]", type = ExprType.CSS, setting = @Setting(outerHtml = true)),
    				@ExtractBy(value = "p.TextContent", type = ExprType.CSS) }, op = OP.AND, multi = true)
    		public List commentContents;
    
    		@Inject
    		@ExtractBy(value = "p[id=toolbar_wrapper]", setting = @Setting(fliters = { "b", "span" }), type = ExprType.CSS, impl = Document.class)
    		public String weibo;
    
    	}
    }

    【相关推荐】

    1. 免费html在线视频教程

    2. html开发手册

    3. php.cn原创html5视频教程

    热心网友 时间:2022-04-20 16:40

    用工具吧,比如offline explorer,只要设定好目标网站,下载哪些内容,下载到哪个层级,就可以等着收获了。

    当然,工具对于带有程序(如ASP)的网页处理会有些问题,但对于HTML网页没问题。

    供参考。追问这中工具只能把网站的HTML下载下来 但显示不出HTML里面内容 我已经试过好几个了没用

    追答这个工具的设置很重要,比如哪些文件类型, 到第几层目录, 是否允许关联下载等. 因为我自己试过,下载一个以HTML页面为主的网站是没问题的.

    如果还是出不来,可能会和网站有关

    热心网友 时间:2022-04-20 17:58

    本地无解 重下
    声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
    苹果电脑电池充不进电苹果电脑充不进去电是怎么回事 苹果电脑不充电没反应苹果电脑充电指示灯不亮充不了电怎么办 狗狗更加忠诚护家、善解人意,养一只宠物陪伴自己,泰迪能长多大... 描写泰迪狗的外形和特点的句子 国外留学有用吗 花钱出国留学有用吗 !这叫什么号 百万医疗赔付后是否可以续保 前一年理赔过医疗险还能续保吗? 医疗住院险理赔后还能购买吗? 耳朵太大怎么办?哪家整形医院可以缩小耳朵?真的很大…… 我的耳朵太大,有点向前,戴帽子不好看,怎么办? 耳大怎么办 如何抓取带有链接的图片? python中怎么把图中的图片链接提取出来并且下载链接对应的图片啊 如何提取链接地址上的图片 怎样把浏览器网址中的内容提取出来包括图片和文字? 有哪几款比较好的国产内存卡呢? 丽声英语绘本点读笔买哪种? copd患者为什么进行呼吸功能锻炼 手抓饼面皮在网上买,邮寄过来要几天,会不会坏啊 智齿到底该不该拔掉呢?会让周围牙齿都松动吗? 在南昌怎么加入滴滴呢 小孩子点读APP绘本点读怎么样? 南昌市私家车加入滴滴快车需要哪些条件 智齿到底要不要拔,出现哪几种情况的,非拔不可? 我在快递买的铁岭的手抓饼可以吃吗? 中文绘本点读笔哪家比较好? 长智牙了,我这牙齿要不要拔掉? 如何提高呼吸肌的氧化能力? 为什么我摸起来右耳朵大一些…我该怎么办 我喜欢圆寸发型,但是耳朵太大了怎么办? 不太好看啊 黑色修身连衣裙搭配白色小短靴,穿出非同一般的魅力与气质,你爱了吗? 谁知道耳朵大怎么办 喜欢绑丸子头可是耳朵下面那些肉坠下来特别大很难看 我又不能打耳洞因为我打过两次 耳朵比较肥大怎么办?能不能不动手术?平常怎么能啊?变得小瘦点! 耳垂大怎么弄小? 耳朵大,耳机挂不住怎么办? 白色靴子怎么搭配图片 我左边的耳朵大右边的比较小怎么办? 徐璐一身吊带裙搭配白色短靴,闪闪惹人爱,怎样才能做到瘦但不骨感... 耳垂大是怎么回事?我的耳垂很大, 你白色靴子如何搭配衣服好看 23岁了,唱歌很难听,想学唱歌,就是能唱的在好听点,要怎么练啊? 耳朵一大一小一个招风耳一个正常,怎么办,可以手术矫正吗? 已婚女人做什么梦代表着怀孕 唱歌不好听怎么练 米白色靴子配什么颜色的裙子好看? 唱歌不好听怎么办? 耳朵冻的变大了,怎么办?麻烦告诉我 全员演技炸裂,影院哭声一片,我要吹爆这部国产大片,你怎么看?