张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《随便一记》 » 正文

【Python】【爬虫】爬取小说5000章，遇到的爬虫问题与解决思路

10 人参与 2022年10月25日 16:33 分类 : 《随便一记》评论

点击全文阅读

爬虫问题分析

回顾

之前写了一个爬取小说网站的多线程爬虫，操作流程如下：

先爬取小说介绍页，获取所有章节信息(章节名称，章节对应阅读链接)，然后使用多线程的方式(pool = Pool(50))，通过章节的阅读链接爬取章节正文并保存为本地markdown文件。(代码见文末 run01.python)

爬取100章，用了10秒

限制爬取101章，从运行程序到结束程序，用时9秒

Redis+MongoDB，无多线程

最近学了Redis和MongoDB，要求爬取后将章节链接放在redis，然后通过读取redis的章节链接来进行爬取。(代码见文末run02.python)

…不用测试了，一章一章读真的太慢了！

爬取101章用时两分钟！

Redis+MongoDB+多线程

爬取101章，只需8秒！

爬取4012章，用时1分10秒！

问题与解析

懒得打字，我就录成视频发在小破站上面了。(小破站搜：萌狼蓝天)

[爬狼]Python爬虫经验分享第1节：代码文件简单介绍

[爬狼]Python爬虫经验分享第2节：编码问题的处理

[爬狼]Python爬虫经验分享第3节：多线程爬小说的顺序问题解决方案分享

[爬狼]Python爬虫经验分享第4节：爬取过于频繁被拦截的解决方案

其他的去我小破站主页翻

代码20221020

run01.py

# -*- coding: UTF-8 -*-# 开发人员：萌狼蓝天# 博客：Https://mllt.cc# 笔记：Https://cnblogs.com/mllt# 哔哩哔哩/

点击全文阅读

本文链接：http://m.zhangshiyu.com/post/45678.html

《随便一记》

子孙满堂家难当？看我如何发家致富2025-12-06 12:21
偷生霸总继承人后，他竟带娃堵上门（沈澈苏曼林微）全书浏览_偷生霸总继承人后，他竟带娃堵上门全书浏览2025-12-06 11:40
被公主背叛后，我成了她情敌的顶头上司2025-12-06 11:39
花期过后已不再姜愿周寻祁颂21章在线阅读(全本小说)2025-12-06 00:00

评论（0）

赞助本站

search zhannei

最新文章
子孙满堂家难当？看我如何发家致富 狼王蓄意谋娶公主被吃干抹净！ 重生后，恋爱脑前妻手撕白月光 偷生霸总继承人后，他竟带娃堵上门（沈澈苏曼林微）全书浏览_偷生霸总继承人后，他竟带娃堵上门全书浏览 被公主背叛后，我成了她情敌的顶头上司 女儿心脏被小三活活摘取后，我杀红了眼 病人心脏骤停护士长拔了除颤仪的电源 重生之我是你惹不起的鱼缸宝宝 留痕者陈默的最后一场追影 杀敌爆属性，从参军开始速成武神 假名媛妻子为了男助理净身出户，我成全她 爱在她心上流浪

关于我们 | 我要投稿 | 免责申明