python中的parsel模块
qingheluo2022-04-02清河洛702
parsel是一个python的第三方库,常用于html或者xml的解析,相当于css选择器+xpath+reparsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml等内容获取需要的数据安装:pip install parsel引入:import parsel
我们更经常使用
from parsel import Selector创建选择器对象:sel = parsel.Selector(text=None,type=None)
参数text为要解析的文本字符串
type可选值"html"...
parsel是一个python的第三方库,常用于html或者xml的解析,相当于css选择器+xpath+re
parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml等内容获取需要的数据
安装:pip install parsel
引入:
import parsel 我们更经常使用 from parsel import Selector创建选择器对象:
sel = parsel.Selector(text=None,type=None) 参数text为要解析的文本字符串 type可选值"html"、"xml",默认None使用html解析查询内容:
使用选择器对象的css(css_str)、xpath(xpath_str)、re(re_str)或.re_first(re_str)方法来获取想要的内容
返回一个Selectorlist对象,包含所有查询到的内容,可以链式调用
结果对象的方法
get()方法将查询到的第一个结果转换为字符串 getall()方法将所有的查询结果转换为字符串并组成数组返回 extract_first():get()方法的别名 attrib(name):获取指定属性,Selectorlist对象的该方法会返回第一个元素的指定属性 clear():清空结果对象CSS查询,除了我们常用的选择器和伪类,还实现了几个非标准的伪元素
获取属性值:sel.css("a::attr(name)"),对应sel.xpath("//a/@name")
获取文本值:sel.css("a::text"),对应sel.xpath("//a/text()")