scrapy xpath抓取节点的文本innerText、innerHTML、outerHTML

来源:清泛原创     2020-09-26 22:15:18    人气:     我有话说( 0 人参与)

假设抓取:<p> xx<b>x< b>< p> 抓取p节点本身,得到的内容:<p>xx<b>x< b>< p>response xpath(& 39; div[@class="question"] div[2] div[2] div[1] p[1]& 39;) extract() 抓

假设抓取:
<p>
  xx<b>x</b>
</p>
scrapy代码:
# 抓取p节点本身,得到的内容:<p>xx<b>x</b></p>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]').extract()

# 抓取p节点内容,相当于innerHTML,得到的结果是除去<p>标签的内容:xx<b>x</b>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/node()').extract()

# 抓取p节点中纯文本,相当于innerText,得到的内容:xxx
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/text()').extract()
简单总结:
1、不带函数,抓取节点本身;
2、node()函数抓取节点里面html内容;
3、text()函数抓取节点里面纯文本内容。

注:本文为本站或本站会员原创优质内容,版权属于原作者及清泛网所有,
欢迎转载,转载时须注明版权并添加来源链接,谢谢合作! (编辑:admin)
分享到: