python爬虫经典例子(小白该懂的:Python爬虫工作基本流程)

wufei123 发布于 2024-02-03 阅读(152)

是的,这篇文章就是给Python小白们看的要跟大家聊到的是Python爬虫工作基本流程好了,不多说,一起看看呗根据使用场景,网络爬虫可分为通用爬虫(传统爬虫)和聚焦爬虫两种通用爬虫捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。

主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份但是大多数情况下,网页里面90%的内容对用户来说是无用的聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止而我们现在要学的就是聚焦爬虫:

http请求:浏览器的一个url向http服务器发送请求,分为:get和post两种浏览器发送一个request请求去获取URL的html文件,服务器把response文件对象发送回给浏览器浏览器解析response中的HTML,其中的img文件,css文件,js文件,浏览器会自动再次发送request请求获取图片,css文件或js文件。

当所有的文件都下载成功后,网页会根据HTML语法结构,完整地显示出来。

HTTP请求主要分为Get和Post两种方法:GET是从服务器上获取数据,POST是向服务器传送数据GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“get”请求的参数是url的一部分。

例如:Chinese_百度搜索向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中POST请求可能会导致新的资源的建立或已有资源的修改,一般主要是表单提交,请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码。

注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗。Python爬虫工作的流程图:

好了,干货时间结束。最近我有个小愿望,就是粉丝一个又一个地增加,还是停不下来的那种。哈哈,你一定知道我表达的是什么意思。快关注我呀~每天都会有惊喜的。

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

宝骏汽车 新闻25377