python爬取大量数据(百万级)

2024-05-19 21:44

1. python爬取大量数据(百万级)

 当用python爬取大量网页获取想要的数据时，最重要的问题是爬虫中断问题，python这种脚本语言，一中断
   进程就会退出，怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。
   第一个问题:  简单点的用动态代理池就能解决，在爬取大量数据的时候，为了速度不受影响，建议使用一些缓
   存的中间件将有效的代理  ip  缓存起来，并定时更新。这里推荐  github  这个仓库
    https://github.com/jhao104/proxy_pool  ， 它会做ip有效性验证并将 ip 放入 redis ，不过实现过于复杂
   了，还用到了 db ，个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否
   是爬虫，当我们过于聚焦我们的爬虫请求而忽略了其他的请求时，可能就会被服务器判定为爬虫，进而这个ip
   会被列入黑名单，而且你换了ip一样也会卡死在这里。这种方式呢，简单点就用 selenium + chrome 一个一个
   去爬，不过速度太慢了。还是自己去分析吧，也不会过复杂的。
    第二个问题：  网络连接超时是大概率会遇到的问题，有可能是在爬取的时候本地网络波动，也有可能是爬
   取的服务端对ip做了限制，在爬取到了一定量级的时候做一些延迟的操作，使得一些通用的 http 库超时
   （ urllib ）。不过如果是服务端动的手脚一般延迟不会太高，我们只需要人为的设置一个高一点的
    timeout 即可（30 秒），最好在爬取开始的时候就对我们要用的爬取库进行一层封装，通用起来才好改
   动。
    第三个问题:  在解析大量静态页面的时候，有些静态页面的解析规则不一样，所以我们就必须得做好断点
   续爬的准备了（ PS : 如果简单的忽略错误可能会导致大量数据的丢失，这就不明智了）。那么在调试的过
   程中断点续爬有个解决方案，就是生产者和消费者分离，生产者就是产生待爬 url 的爬虫，消费者就是爬取
   最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接，生产者往消息中间件发送待
   爬取的目标信息，消费者从里面取就行了，还间接的实现了个分布式爬取功能。由于现在的消费中间件都有
    ack 机制，一个消费者爬取链接失败会导致消息消费失败，进而分配给其他消费者消费。所以消息丢失的
   概率极低。不过这里还有个 tips ， 消费者的消费超时时间不能太长，会导致消息释放不及时。还有要开启
   消息中间价的数据持久化功能，不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。
    第四个问题： 这种情况只能 try except catch 住了，不好解决，如果单独分析的话会耗费点时间。但在
   大部分数据 （99%） 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这
   种偶尔中断的问就方便多了。
   希望能帮到各位。

python爬取大量数据(百万级)

2. 网上Python爬虫教程这么多，但是做爬虫的这么少呢？

   
    网上教程多，是因为入门简单，容易获得成就感，容易忽悠小白 
   爬虫就是因为 太有技术含量 ，所以会的人少，可能看起来做的人就少了
    爬虫远比我们想的复杂 
   大多数人会的，只是造一颗 螺丝钉， 而整个爬虫系统，就好比造 火箭 
   大多数人，只掌握了入门级的水品，也就是最多能造个螺丝钉，造不出火箭
     
    为什么我说爬虫远比我们想的复杂呢？ 
   爬虫绝不是表面的 用 requests 、urllib，发个http请求那么简单
   就如同 楼上的几位回答者所说，如果只是发个http请求，根本用不着专门来学，随便找个火车头之类的工具，拖几下鼠标就搞定了
     
   实际情况中，你要抓人家的数据，  会有很多门槛 ：
   1.人家检测出你是爬虫，拉黑你IP （人家究竟是通过你的ua、行为特则 还是别的检测出你是爬虫的？你怎么规避？）
   2.人家给你返回脏数据，你怎么辨认？
   3.对方被你爬死，你怎么设计调度规则？
   4.要求你一天爬完10000w数据，你一台机器带宽有限，你如何用分布式的方式来提高效率？
   5.数据爬回来，要不要清洗？对方的脏数据会不会把原有的数据弄脏？
   6.对方的部分数据没有更新，这些未更新的你也要重新下载吗？怎么识别？怎么优化你的规则？
   7.数据太多，一个数据库放不下，要不要分库？
   8.对方数据是JavaScript渲染，那你怎么抓？要不要上PhantomJS？
   9.对方返回的数据是加密的，你怎么解密？
   10.对方有验证码，你怎么破解？
   11.对方有个APP，你怎么去得到人家的数据接口？
   12.数据爬回来，你怎么展示？怎么可视化？怎么利用？怎么发挥价值？
   13. 等等 ......
     
   你看，一个强大的爬虫， 涉及很多学科的知识 ，是一门很大的学问
    你要： 
     
   你看，这设计多少知识了，每一个知识点，基本都是一个学科，都不是几本书能解决的
     
   一个人，想精通这些，是十分困难的，所以一般是团伙协作作案
   你负责端茶递水、我负责解密他的接口、另外的同事负责写代码，搞数据库，破解验证码 等等
     
   你问一个人能做出这么强大的东西吗？
   可以，在有一定知识储备的情况下，用人家的轮子，是完全可以搭建起来的
     
   所以，网上的爬虫教程，无法把这些系统的讲给你听，就好比你想学赚钱，谁又能给你一个系统的教程呢？
   你想上班赚钱，还是想卖豆腐赚钱？
   卖什么豆腐？
   什么价格？
   店铺开哪里？
   要不要请人？
   不知道！
     
   其实我上面列出的每个知识块，网上都有，零零散散的而已
   你需要自己去辨别，整合这些知识，然后为你所用
     
   现在你明白为什么网上的教程，都不够系统，不够深入了吧
   因为这很难，涉及到的学科知识太多了
     
     如果再想知道更多基础
     私信发送“1”， 即可获取 
    私信方法：点我主页头像旁边的私信按钮，回复“ 1 ”即可