scrapy xpath抓取节点的文本innerText、innerHTML、outerHTML

来源：清泛原创 2020-09-26 22:15:18 人气：我有话说( 0 人参与)

假设抓取： xxx 抓取p节点本身，得到的内容：xxxresponse xpath(& 39; div[@class="question"] div[2] div[2] div[1] p[1]& 39;) extract() 抓

假设抓取：

<p>
  xx<b>x</b>
</p>

scrapy代码：

# 抓取p节点本身，得到的内容：<p>xx<b>x</b></p>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]').extract()

# 抓取p节点内容，相当于innerHTML，得到的结果是除去<p>标签的内容：xx<b>x</b>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/node()').extract()

# 抓取p节点中纯文本，相当于innerText，得到的内容：xxx
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/text()').extract()

简单总结：
1、不带函数，抓取节点本身；
2、node()函数抓取节点里面html内容；
3、text()函数抓取节点里面纯文本内容。

上一篇：【解决】scrapyd启动job时报错：exceptions.TypeError: __init__() got an unexpected keyword argument '_job'
下一篇：【解决】如何查看 xunsearch 版本，验证是否升级成功？

注：本文为本站或本站会员原创优质内容，版权属于原作者及清泛网所有，
欢迎转载，转载时须注明版权并添加来源链接，谢谢合作! （编辑：admin）

分享到：

本月排行

评论排行

1C++ 读写xml方法整理（持续更新）3次评论
2Reference to ' ' is ambiguous：符号定义重复2次评论
3全民OS2次评论
4__attribute__2次评论
5海量数据相似度计算之simhash和海...2次评论
6C++使用OLE/COM高速读写EXCEL的源码2次评论
7AfxIsValidAddress 测试内存地址2次评论
8C++入门进阶最佳实战2次评论
9phpcms附件上传 Flash换成H52次评论
10解决xrdp登陆不上的问题：xrdp s...2次评论

相关热点

本月排行

评论排行