[easou 数据库同步注册]宜搜全站数十万小说爬虫

小小码 • 2023-02-20 16:30 • 代码基础 • 阅读 161

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说[easou 数据库同步注册]宜搜全站数十万小说爬虫,希望您对编程的造诣更进一步.

[easou 数据库同步注册]宜搜全站数十万小说爬虫[数据库教程]

　　自从看了师傅爬了顶点全站之后，我也手痒痒的，也想爬一个比较牛逼的小说网看看，于是选了宜搜这个网站，好了，马上开干，这次用的是mogodb数据库，感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

　　技术分享图片

　　Paste_Image.png

　　先看代码框架图

　　技术分享图片

　　Paste_Image.png

　　第一个，肯定先提取排行榜里面每个类别的链接啊，然后进入链接进行爬取，先看all_theme文件

　　看看运行结果，这是书籍类目的

　　技术分享图片

　　Paste_Image.png

　　这是构造出的每一个类目里面所有的页数链接，也是我们爬虫的入口，一共5000多页

　　技术分享图片

　　Paste_Image.png

　　接下来是封装的数据库操作，因为用到了多进程以及多线程每个进程，他们需要知道那些URL爬取过了、哪些URL需要爬取！我们来给每个URL设置两种状态：

　　outstanding:等待爬取的URL

　　complete:爬取完成的URL

　　processing:正在进行的URL。

　　嗯！当一个所有初始的URL状态都为outstanding；当开始爬取的时候状态改为：processing；爬取完成状态改为：complete；失败的URL重置状态为：outstanding。为了能够处理URL进程被终止的情况、我们设置一个计时参数，当超过这个值时；我们则将状态重置为outstanding。

　　接下来是爬虫主程序

　　让我们来看看结果吧

　　技术分享图片

　　Paste_Image.png

　　里面因为很多都是重复的，所有去重之后只有十几万本，好失望……

数据库同步软件

[easou 数据库同步注册]宜搜全站数十万小说爬虫

原文：https://www.cnblogs.com/sqlserver-mysql/p/12762868.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/8860.html

[easou 数据库同步注册]宜搜全站数十万小说爬虫

相关推荐

发表回复