java中使用jsoup解析html(用于java爬虫)

2023-12-18 10:53:07

org.jsoupjsoup1.7.3

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。

Document ：文档对象。每份HTML页面都是一个文档对象，Document 是 jsoup 体系中最顶层的结构。

Element：元素对象。一个 Document 中可以着包含着多个 Element 对象，可以使用 Element 对象来遍历节点提取数据或者直接操作HTML。

Elements：元素对象集合，类似于List。

Node：节点对象。标签名称、属性等都是节点对象，节点对象用来存储数据。

类继承关系：Document 继承自 Element ，Element 继承自 Node。

一般执行流程：先获取 Document 对象，然后获取 Element 对象，最后再通过 Node 对象获取数据。

获得文档对象 Document 一共有4种方法，分别对应不同的获取方式。

正式开始之前，我们需要导入有关 jar 包。

org.jsoupjsoup1.15.1

3.1）从URL中加载文档对象（常用）

温馨提示：

1、本内容转载于网络，版权归原作者所有！
2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！