博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 页面信息抓取
阅读量:7175 次
发布时间:2019-06-29

本文共 878 字,大约阅读时间需要 2 分钟。

1. 特点

  在这篇文章中已经做了初步的介绍,接下来再坐进一步的说明。python抓取页面信息有下面两个特点:

  

  • 依赖于HTML的架构。

  • 微小的变化可能会导致抓取失败,这取决于你编码的技巧。


2. 抓取演示样例

  首先看一下百度视频网页的源码,大致浏览下,选定要抓取的网页元素。

  src
  
  如果我们要对div标签id为focusCarouselList里的相关内容进行提取。

首先进入python命令行环境,先依照下面代码打开网页并读取内容。

  

>>>

>>> import urllib
>>> from bs4 import BeautifulSoup
>>>
>>> httpRespone = urllib.urlopen(““)
>>>
>>> httpRespone.code
200
>>>

  将页面信息读入到html的一个变量中:html = httpRespone.read()

  使用BeautifulSoup解析这个页面:bs = BeautifulSoup(html,"lxml")

  查找id为ocusCarouselList的div标签:focusList = bs.find('div',id='focusCarouselList')
  
  bs
  
  在focusList中查找这一div中全部的超链接:allLinks = focusList.find_all('a')
  可用allLinks[0]直接訪问第一个链接的内容:
  link0
  
  如果要在这些超链接中查找标题为“协警押送嫌犯遭其同伙突击”,可用下面代码:
  videoLink1 = bs.find('a',{'title':'协警押送嫌犯遭其同伙突击'})
  title
  
  videoLink1[‘href’]能够直接获取到链接的地址。

  
  查找全部图片的标签:imgLinks = focusList.find_all('img')
  获取某个图片链接的源地址:imgLinks[0]['src']
  img

你可能感兴趣的文章
Java高级之内存模型分析
查看>>
Java日志框架-Spring中使用Logback(Spring/Spring MVC)
查看>>
蚂蚁金服战略投资ofo,双方合作进一步推进
查看>>
西咸新区“硬科技号”地铁专列上线运行,感受大西安的硬科技特色
查看>>
人工智能带来的社会影响
查看>>
袁煜明:现阶段区块链发展的最大问题是公链的不成熟
查看>>
RegexBuddy正则表达式工具
查看>>
HDU 1024Max Sum Plus Plus(最大m字段和)
查看>>
经典算法
查看>>
css 文本属性详细总结
查看>>
MBR与GPT分区格式(实例-创建大于2TB的分区)
查看>>
给网游写一个挂吧(一) – 反反外挂驱动的驱动
查看>>
HashMap实现原理分析
查看>>
cas4.2.7实现单点登录
查看>>
SQLSERVER 18056 错误
查看>>
【普及】中小企业项目上线的一般流程
查看>>
mvn常用命令
查看>>
C语言之程序中内存的来源:栈 堆 数据段
查看>>
2012R2 VM on Hyper-v 2008 R2错误解决
查看>>
BIOS锁定纯UEFI启动的解锁办法
查看>>