芸科技_付费阅读_技术方案_企业源码_商业源码_资源素材
2023-12-18 10:53:07

java中使用jsoup解析html(用于java爬虫)

目录

java中使用jsoup解析html(用于java爬虫)

Maven 引入jsoup 库

org.jsoupjsoup1.7.3

一、jsoup概述

jsoup 是一款基于 Java 的HTML解析器,它提供了一套非常省力的API,不但能直接解析某个URL地址、HTML文本内容,而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据,所以 jsoup 也可以被当做爬虫工具使用。

二、相关概念简介

Document :文档对象。每份HTML页面都是一个文档对象,Document 是 jsoup 体系中最顶层的结构。

Element:元素对象。一个 Document 中可以着包含着多个 Element 对象,可以使用 Element 对象来遍历节点提取数据或者直接操作HTML。

Elements:元素对象集合,类似于List。

Node:节点对象。标签名称、属性等都是节点对象,节点对象用来存储数据。

类继承关系:Document 继承自 Element ,Element 继承自 Node。

一般执行流程:先获取 Document 对象,然后获取 Element 对象,最后再通过 Node 对象获取数据。

img

三、获取文档(Document)

获得文档对象 Document 一共有4种方法,分别对应不同的获取方式。

正式开始之前,我们需要导入有关 jar 包。

org.jsoupjsoup1.15.1

3.1)从URL中加载文档对象(常用)

扫码免登录支付
本文章为付费文章,是否支付5元后完整阅读?

如果您已购买过该文章,[登录帐号]后即可查看



温馨提示:

1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
上一篇:源支付v7用户使用教程
下一篇:ESXI 7.0.2 Intel 核心显卡直通开启3D加速