python爬取大量数据(百万级)

2024-05-19 21:44

1. python爬取大量数据(百万级)

 当用python爬取大量网页获取想要的数据时,最重要的问题是爬虫中断问题,python这种脚本语言,一中断
   进程就会退出,怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。
   第一个问题:  简单点的用动态代理池就能解决,在爬取大量数据的时候,为了速度不受影响,建议使用一些缓
   存的中间件将有效的代理  ip  缓存起来,并定时更新。这里推荐  github  这个仓库
    https://github.com/jhao104/proxy_pool  , 它会做ip有效性验证并将 ip 放入 redis ,不过实现过于复杂
   了,还用到了 db ,个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否
   是爬虫,当我们过于聚焦我们的爬虫请求而忽略了其他的请求时,可能就会被服务器判定为爬虫,进而这个ip
   会被列入黑名单,而且你换了ip一样也会卡死在这里。这种方式呢,简单点就用 selenium + chrome 一个一个
   去爬,不过速度太慢了。还是自己去分析吧,也不会过复杂的。
    第二个问题:  网络连接超时是大概率会遇到的问题,有可能是在爬取的时候本地网络波动,也有可能是爬
   取的服务端对ip做了限制,在爬取到了一定量级的时候做一些延迟的操作,使得一些通用的 http 库超时
   ( urllib )。不过如果是服务端动的手脚一般延迟不会太高,我们只需要人为的设置一个高一点的
    timeout 即可(30 秒),最好在爬取开始的时候就对我们要用的爬取库进行一层封装,通用起来才好改
   动。
    第三个问题:  在解析大量静态页面的时候,有些静态页面的解析规则不一样,所以我们就必须得做好断点
   续爬的准备了( PS : 如果简单的忽略错误可能会导致大量数据的丢失,这就不明智了)。那么在调试的过
   程中断点续爬有个解决方案,就是生产者和消费者分离,生产者就是产生待爬 url 的爬虫,消费者就是爬取
   最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接,生产者往消息中间件发送待
   爬取的目标信息,消费者从里面取就行了,还间接的实现了个分布式爬取功能。由于现在的消费中间件都有
    ack 机制,一个消费者爬取链接失败会导致消息消费失败,进而分配给其他消费者消费。所以消息丢失的
   概率极低。不过这里还有个 tips , 消费者的消费超时时间不能太长,会导致消息释放不及时。还有要开启
   消息中间价的数据持久化功能,不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。
    第四个问题: 这种情况只能 try except catch 住了,不好解决,如果单独分析的话会耗费点时间。但在
   大部分数据 (99%) 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这
   种偶尔中断的问就方便多了。
   希望能帮到各位。

python爬取大量数据(百万级)

2. 网上Python爬虫教程这么多,但是做爬虫的这么少呢?

   
    网上教程多,是因为入门简单,容易获得成就感,容易忽悠小白 
   爬虫就是因为 太有技术含量 ,所以会的人少,可能看起来做的人就少了
    爬虫远比我们想的复杂 
   大多数人会的,只是造一颗 螺丝钉, 而整个爬虫系统,就好比造 火箭 
   大多数人,只掌握了入门级的水品,也就是最多能造个螺丝钉,造不出火箭
     
    为什么我说爬虫远比我们想的复杂呢? 
   爬虫绝不是表面的 用 requests 、urllib,发个http请求那么简单
   就如同 楼上的几位回答者所说,如果只是发个http请求,根本用不着专门来学,随便找个火车头之类的工具,拖几下鼠标就搞定了
     
   实际情况中,你要抓人家的数据,  会有很多门槛 :
   1.人家检测出你是爬虫,拉黑你IP (人家究竟是通过你的ua、行为特则 还是别的检测出你是爬虫的?你怎么规避?)
   2.人家给你返回脏数据,你怎么辨认?
   3.对方被你爬死,你怎么设计调度规则?
   4.要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?
   5.数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?
   6.对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?
   7.数据太多,一个数据库放不下,要不要分库?
   8.对方数据是JavaScript渲染,那你怎么抓?要不要上PhantomJS?
   9.对方返回的数据是加密的,你怎么解密?
   10.对方有验证码,你怎么破解?
   11.对方有个APP,你怎么去得到人家的数据接口?
   12.数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值?
   13. 等等 ......
     
   你看,一个强大的爬虫, 涉及很多学科的知识 ,是一门很大的学问
    你要: 
     
   你看,这设计多少知识了,每一个知识点,基本都是一个学科,都不是几本书能解决的
     
   一个人,想精通这些,是十分困难的,所以一般是团伙协作作案
   你负责端茶递水、我负责解密他的接口、另外的同事负责写代码,搞数据库,破解验证码 等等
     
   你问一个人能做出这么强大的东西吗?
   可以,在有一定知识储备的情况下,用人家的轮子,是完全可以搭建起来的
     
   所以,网上的爬虫教程,无法把这些系统的讲给你听,就好比你想学赚钱,谁又能给你一个系统的教程呢?
   你想上班赚钱,还是想卖豆腐赚钱?
   卖什么豆腐?
   什么价格?
   店铺开哪里?
   要不要请人?
   不知道!
     
   其实我上面列出的每个知识块,网上都有,零零散散的而已
   你需要自己去辨别,整合这些知识,然后为你所用
     
   现在你明白为什么网上的教程,都不够系统,不够深入了吧
   因为这很难,涉及到的学科知识太多了
     
     如果再想知道更多基础
     私信发送“1”, 即可获取 
    私信方法:点我主页头像旁边的私信按钮,回复“ 1 ”即可 

3. 一周搞定Python分布爬虫,网络爬虫实战第四天-爬虫新写法(1)


一周搞定Python分布爬虫,网络爬虫实战第四天-爬虫新写法(1)

4. 一周搞定Python分布爬虫,网络爬虫实战第四天-爬虫新写法(2)


5. 一周搞定Python分布爬虫,网络爬虫实战第四天-爬虫的基本使用


一周搞定Python分布爬虫,网络爬虫实战第四天-爬虫的基本使用

6. 一周搞定Python分布爬虫,网络爬虫实战第二天-糗事百科案例


7. 一周搞定Python分布爬虫,网络爬虫实战第一天-第一个爬虫


一周搞定Python分布爬虫,网络爬虫实战第一天-第一个爬虫

8. 一周搞定Python分布爬虫,网络爬虫实战第一天-爬虫介绍