Web Scraper 怎么抓取html属性信息

作者:admin 发布时间:2021-03-28 00:03:13 浏览:1711次

这期课程我们讲一个用的较少的 Web Scraper 功能——抓取属性信息。

网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息。我们拿豆瓣电影250举个例子:

电影图片正常显示的时候是这个样子:

如果网络异常,图片加载失败,就会显示图片的默认文案,这个文案其实就是这个图片的属性信息:

我们查看一下这个结构的 HTML(查看方法可见 CSS 选择器的使用的第一节内容),就会发现图片的默认文案其实就是这个 <img/> 标签的 alt 属性:

我们可以看一下 HTML 文档里对 alt 属性的描述:

alt 属性是一个必需的属性,它规定在图像无法显示时的替代文本

在 web scraper 里,我们可以利用 Element attribute 属性来抓取这种属性信息。

因为这次的内容比较简单,新建 sitemap 这一步我就先省略了,我们直接上来使用 Element attribute 抓取数据。

我们把 Type 选为 Element attribute,然后用 Selector 选中图片这个元素:

Element attribute 会多一个选项——Attribute name,我们在这个输入框里输入我们要抓取的属性名字。

观察一下这个 img 标签的属性,有 alt(替换文本)、width(图片宽度)和 src(图片链接)3 种:

这里我先输入 alt,表示抓取图片的替代文本:

还可以输入 src,表示抓取图片的链接:

也可以输入 width,抓取图片宽度:

通过 Element attribute 这个选择器,我们就可以抓取一些网页没有直接展示出来的数据信息,非常的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}

如需转载请保留本文出处: https://zhe94.com/872.html

上一篇:懂懂日记:一点委屈
下一篇:Kettle怎么使用,Kettle定时作业和转换入门教学
纯css实现角标效果-css属性clip-path

纯css实现角标效果-css属性clip-path

最近在做一个项目想要实现以下的角标效果,可以使用css属性clip-path来实现。
uniapp实现父组件调用子组件函数的方法

uniapp实现父组件调用子组件函数的方法

先定义子组件的getCLipContent函数,然后在父组件引用子组件,通过ref的方法调用
 mysql实现主从复制代码

mysql实现主从复制代码

mysql实现主从复制相关代码记录
宝塔面板登录ssl关闭不了怎么办?

宝塔面板登录ssl关闭不了怎么办?

云服务器安装宝塔面板时,不小心开启了SSL,应该如何关闭?
Chat2DB的WEB端在安装部署在服务器上

Chat2DB的WEB端在安装部署在服务器上

Chat2DB 是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,可以给出研发人员SQL的优化建议,极大的提升人员的效率,是AI时代数据库研发人员的利器,未来即使不懂SQL的运营业务也可以使用快速查询业务数据、生成报表能力
TinyVue - 华为云 OpenTiny 出品的企业级前端 UI 组件库,免费开源,同时支持 Vue2 / Vue3,自带 TinyPro 中后台管理系统

TinyVue - 华为云 OpenTiny 出品的企业级前端 UI 组件库,免费开源,同时支持 Vue2 / Vue3,自带 TinyPro 中后台管理系统

TinyVue 是一个基于 Vue 的 UI 组件库,交互细腻,设计优雅,有很多独有的组件,比如云服务中经常遇到的 IP 地址输入框组件,体验非常好。整体和 Element / Ant Design 这些知名的前端组件库相比也毫不逊色。