python 页面信息抓取-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python 页面信息抓取

阅读量：7175 次

发布时间：2019-06-29

本文共 878 字，大约阅读时间需要 2 分钟。

1. 特点

　　在这篇文章中已经做了初步的介绍，接下来再坐进一步的说明。python抓取页面信息有下面两个特点：

　　

依赖于HTML的架构。

微小的变化可能会导致抓取失败，这取决于你编码的技巧。

2. 抓取演示样例

　　首先看一下百度视频网页的源码，大致浏览下，选定要抓取的网页元素。

　　

src

　　

　　如果我们要对div标签id为focusCarouselList里的相关内容进行提取。

首先进入python命令行环境，先依照下面代码打开网页并读取内容。

　　

>>>
>>> import urllib
>>> from bs4 import BeautifulSoup
>>>
>>> httpRespone = urllib.urlopen(““)
>>>
>>> httpRespone.code
200
>>>

　　将页面信息读入到html的一个变量中：html = httpRespone.read()。

　　使用BeautifulSoup解析这个页面：bs = BeautifulSoup(html,"lxml")。

　　查找id为ocusCarouselList的div标签：focusList = bs.find('div',id='focusCarouselList')。

　　

　　

　　

　　在focusList中查找这一div中全部的超链接：allLinks = focusList.find_all('a')。

　　可用allLinks[0]直接訪问第一个链接的内容：

　　

link0

　　

　　如果要在这些超链接中查找标题为“协警押送嫌犯遭其同伙突击”，可用下面代码：

　　videoLink1 = bs.find('a',{'title':'协警押送嫌犯遭其同伙突击'})

　　

title

　　

　　videoLink1[‘href’]能够直接获取到链接的地址。

　　

　　查找全部图片的标签：imgLinks = focusList.find_all('img')。

　　获取某个图片链接的源地址：imgLinks[0]['src']

　　

你可能感兴趣的文章

Java高级之内存模型分析

Java日志框架-Spring中使用Logback（Spring/Spring MVC）

蚂蚁金服战略投资ofo，双方合作进一步推进

西咸新区“硬科技号”地铁专列上线运行，感受大西安的硬科技特色

人工智能带来的社会影响

袁煜明：现阶段区块链发展的最大问题是公链的不成熟

RegexBuddy正则表达式工具

HDU 1024Max Sum Plus Plus(最大m字段和)

css 文本属性详细总结

MBR与GPT分区格式(实例-创建大于2TB的分区)

给网游写一个挂吧（一） – 反反外挂驱动的驱动

HashMap实现原理分析

cas4.2.7实现单点登录

SQLSERVER 18056 错误

【普及】中小企业项目上线的一般流程

mvn常用命令

C语言之程序中内存的来源：栈堆数据段

2012R2 VM on Hyper-v 2008 R2错误解决

BIOS锁定纯UEFI启动的解锁办法

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-11 07:08:21 当前IP: 3.145.170.61 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我