Python re模块用法

在Python爬虫过程中,实现网页元素解析的方法有很多,正则解析只是其中之一,常见的还有BeautifulSoup和 lxml,它们都支持网页HTML元素的解析操作。本节重点讲解如何使用...

正则表达式语法

正则表达式(regularexpression)是一种字符串匹配模式或者规则,它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言,无论是前端语言JavaScript,还是...

[实例]抓取百度贴吧数据

本节继续讲解Python爬虫实战案例:抓取百度贴吧(https://tieba.baidu.com/)页面,比如Python爬虫吧、编程吧,只抓取贴吧的前5个页面即可。本节我们将使用面向对象...

[实例]爬虫抓取网页

本节讲解第一个Python爬虫实战案例:抓取您想要的网页,并将其保存至本地计算机。 首先我们对要编写的爬虫程序进行简单地分析,该程序可分为以下三个部分: 拼接url地址 ...

URL编码和解码

当URL路径或者查询参数中,带有中文或者特殊字符的时候,就需要对URL进行编码(采用十六进制编码格式)。URL编码的原则是使用安全字符去表示那些不安全的字符。 安全字符,指的是没有特...

User-Agnet代理池

在编写爬虫程序时,一般都会构建一个User-Agent(用户代理)池,就是把多个浏览器的UA信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个UA来访问网站,因为短时...

User-Agent用户代理

User-Agent即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别“UA”来确定用户所使用的操作系统版本、CPU类型、浏览器版本等信息。而网站服务器则通过判断UA来给客户...

第一个Python爬虫程序

本节编写一个最简单的爬虫&#...

学习前的准备工作

在使用Python编写爬虫程序之前,您需要提前做一些准备工作,这样在后续学习过程中才会得心应手。 知识准备 1)Python语言 Python爬虫作为Python编程的进...

审查网页元素

对于一个优秀的爬虫工程师而言,要善于发现网页元素的规律,并且能从中提炼出有效的信息。因此,在动手编写爬虫程序前,必须要对网页元素进行审查。本节将讲解如何使用“浏览器”审查网页元素。 浏览器都自带...