PYTHON爬虫基本原理- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

网络爬虫(WebSpider):请求网站并提取数据的自动化程序,可以理解为在网络上爬来爬去的一只蜘蛛,互联网可以比喻成一张大网,爬虫在这张大网上爬来爬去,遇到一些自己感兴趣的网站资源,就可以模拟浏览器把它抓取下来,之后存入到CSV 数据库等.

请求网站:就是要用程序实现这个过程,就需要写代码来实现模拟浏览器向服务器发送一个请求,来获取这些网络资源,获取到的是一串html代码,然后我们从里面提取数据存入数据库完成数据采集的过程!.

自动化:我们写完程序之后就让他一直运行,他可以代替浏览器向服务器发送请求, 不停的循环运行就可以批量的、大量的获取一些数据,这些就是网络爬虫运行的基本流程.

发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应.

获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,内容可以有HTML,json字符串,二进制数据(如图片视频)等类型.

解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析.可能是json,可以直接转为json对象解析,可能是二进制数据,可以做保存或者进一步的处理.

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件.

Request与Response的区别:

①浏览器就发送消息给该网址所在服务器,这个过程叫HTTP Request.

②服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器.

③浏览器收到服务器响应的Response信息后,会对信息进行相应处理,然后展示.

Request包含:

①请求方式:主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等.POST请求需要构造一个表单提交才可以构造一个POST请求.

②请求URL:URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用URL唯一来确定.

③请求头:包含一些浏览器重要的配置信息,请求时的头部信息,如User-Agent、Host、Cookies等信息,用来保证我们的程序是可以正常运行的.User-Agent用来指定浏览器请求头,有头之后服务器识别浏览器返回响应,如果不携带请求头服务器可能会认为你是一个非法的请求,不会给你返回页面.

④请求体:请求时额外携带的数据,如表单提交时的表单数据.在GET方式请求的时候请求体是不会携带任何内容的,POST请求Form Data会把表单提交时的一些参数通过配置传给服务器,比如做登录窗口、文件上传的时候这些配置都会被附加到请求体.

Response包含:

①响应状态:有多种响应状态,如200代表成功,301代表跳转,404表示找不到页面,502服务器错误.

HTTP状态码分类

HTTP状态码(status code)由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。HTTP状态码共分为5种类型：

HTTP状态码列表
状态码	状态码英文名称	中文描述
100	Continue	继续。理论上,只要能看的到的数据,都可以抓取. 解析方式 1.直接解析:用来处理一些简单直接的网页. 2.json解析:有的网站数据是用ajax加载的,通常返回的是一些json格式的字符串,我们需要把json字符串解析转换成json对象,然后提取我们需要的数据 3.正则表达式:就是一个规则字符串,把HTML代码里面相应的文本提取出来关键字：青岛软件培训可能你正在寻找一家靠谱的IT培训机构，渴望突破职业瓶颈，找一份得体的工作。恰巧万码学堂正在寻找像你这样不甘平凡的追光者！我们拒绝纸上谈兵，直接参与真实开发流程！现在行动，未来可期‌ 立即拨打0532-85025005，预约免费职业规划咨询前20名咨询者赠送《2025高薪技术岗位白皮书》! 你不是在报名课程，而是在投资五年后的自己！申请免费试听课程 50000+ 5万行代码练就真实本领 17年创办于2008年老牌培训机构 1000+ 合作企业 98% 就业率联系我们电话咨询 0532-85025005 扫码添加微信万码学堂青岛软件培训选择一家好的青岛软件培训学校，就要看教学质量和口碑万码学堂-做最负责任的教育-联系电话0532-85025005 鲁ICP备09077726号-3