当前位置:首页 » 《随便一记》 » 正文

【Python】【爬虫】爬取小说5000章,遇到的爬虫问题与解决思路

17 人参与  2022年10月25日 16:33  分类 : 《随便一记》  评论

点击全文阅读


爬虫问题分析

回顾

之前写了一个爬取小说网站的多线程爬虫,操作流程如下:

先爬取小说介绍页,获取所有章节信息(章节名称,章节对应阅读链接),然后使用多线程的方式(pool = Pool(50)),通过章节的阅读链接爬取章节正文并保存为本地markdown文件。(代码见文末 run01.python)

image-20221020170423210

image-20221020170353409

爬取100章,用了10秒

限制爬取101章,从运行程序到结束程序,用时9秒

Redis+MongoDB,无多线程

最近学了Redis和MongoDB,要求爬取后将章节链接放在redis,然后通过读取redis的章节链接来进行爬取。(代码见文末run02.python)

…不用测试了,一章一章读真的太慢了!

image-20221020171613094

爬取101章用时两分钟!

Redis+MongoDB+多线程

image-20221020171930346

image-20221020173407904

爬取101章,只需8秒!

爬取4012章,用时1分10秒!

image-20221020192410499

image-20221020192355217

问题与解析

懒得打字,我就录成视频发在小破站上面了。(小破站搜:萌狼蓝天)

[爬狼]Python爬虫经验分享第1节:代码文件简单介绍

[爬狼]Python爬虫经验分享第2节:编码问题的处理

[爬狼]Python爬虫经验分享第3节:多线程爬小说的顺序问题解决方案分享

[爬狼]Python爬虫经验分享第4节:爬取过于频繁被拦截的解决方案

其他的去我小破站主页翻

代码20221020

run01.py

# -*- coding: UTF-8 -*-# 开发人员:萌狼蓝天# 博客:Https://mllt.cc# 笔记:Https://cnblogs.com/mllt# 哔哩哔哩/

点击全文阅读


本文链接:http://m.zhangshiyu.com/post/45678.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 「宗门诬陷要杀我,出走后你们后悔什么!」章节世界观揭秘篇‌_陈宇小说精彩节选免费试读
  • [权宠天下:疯批王爷神医妃]关键剧情节选解锁_[凤无心北辰夜]后续全文免费阅读
  • 捧一片星空新鲜出炉林溪傅迟宴完本_捧一片星空新鲜出炉(林溪傅迟宴)
  • 她在春日里沉眠高口碑(乔清瑜季泽珩)
  • 半堂花夜渡空城裴砚泽沈诺柠结局+番外(裴砚泽沈诺柠)_(半堂花夜渡空城裴砚泽沈诺柠结局+番外)列表_笔趣阁(裴砚泽沈诺柠)
  • 半堂花夜渡空城精编之作(裴砚泽沈诺柠)全书免费_(裴砚泽沈诺柠)半堂花夜渡空城精编之作后续(裴砚泽沈诺柠)
  • 半堂花夜渡空城结局+番外(裴砚泽沈诺柠)_(半堂花夜渡空城结局+番外)列表_笔趣阁(裴砚泽沈诺柠)
  • (番外)+(全书)顾裴延江照璃(长叹雁归难留+后续+结局)_顾裴延江照璃免费列表_笔趣阁(长叹雁归难留+后续+结局)
  • 全书浏览九幽不渡卿结局+番外(孟卿卿谢昭远)_九幽不渡卿结局+番外(孟卿卿谢昭远)全书结局
  • 往梦难复温+后续+结局(沈淮霆宋思予)_(沈淮霆宋思予)往梦难复温+后续+结局列表_笔趣阁(沈淮霆宋思予)
  • 她在春日里沉眠书结局+番外优质全章(乔清瑜季泽珩)_她在春日里沉眠书结局+番外优质全章乔清瑜季泽珩
  • 往梦难复温+后续+结局(沈淮霆宋思予)结局_(沈淮霆宋思予往梦难复温+后续+结局全书结局)结局列表_笔趣阁(沈淮霆宋思予)

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1