成都Python培训
达内成都Python培训中心

15023458194

热门课程

成都Python培训 > Python干货 >成都Python爬虫学习:基本原理及过程

成都Python爬虫学习:基本原理及过程

  • 时间:2019-06-27 14:32
  • 发布:达内教育
  • 来源:达内教育

达内成都Python培训小编今天给大家分享Python爬虫的基本原理和过程,希望能对刚刚开始学习的大家有所帮助。

Python爬虫的基本原理及过程

1、基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。由以下4个基本流程。

(1)、发起请求

通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

(2)、获取响应内容

如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

(3)、解析内容

得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

(4)、保存数据

保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

2、过程

而当我们在浏览器中输入一个url后回车,后台会发生什么?

简单来说这段过程发生了以下四个步骤:

(1)、查找域名对应的IP地址。

浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址

(2)、向IP对应的服务器发送请求。

(3)、服务器响应请求,发回网页内容。

(4)、浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。

分享Python爬虫的基本原理和过程

版权声明:文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与达内成都Python培训机构网站联系删除或授权事宜。

上一篇:如何用Python爬虫来抓取电影网站的内容
下一篇:Python自学刚开始就想放弃,该如何调整好自己的心态?

Python自学刚开始就想放弃,该如何调整好自己的心态?

如何用Python爬虫来抓取电影网站的内容

成都Python爬虫学习:基本原理及过程

学习心得:菜鸟学Python,如何从入门到进阶?

选择城市和中心
江西省

贵州省

广西省

海南省