[easou 数据库同步注册]宜搜全站数十万小说爬虫

[easou 数据库同步注册]宜搜全站数十万小说爬虫自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站 …

[easou 数据库同步注册]宜搜全站数十万小说爬虫[数据库教程]

  自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

  技术分享图片

  Paste_Image.png

  先看代码框架图

  技术分享图片

  Paste_Image.png

  第一个,肯定先提取排行榜里面每个类别的链接啊,然后进入链接进行爬取,先看all_theme文件

  看看运行结果,这是书籍类目的

  技术分享图片

  Paste_Image.png

  这是构造出的每一个类目里面所有的页数链接,也是我们爬虫的入口,一共5000多页

  技术分享图片

  Paste_Image.png

  接下来是封装的数据库操作,因为用到了多进程以及多线程每个进程,他们需要知道那些URL爬取过了、哪些URL需要爬取!我们来给每个URL设置两种状态:

  outstanding:等待爬取的URL

  complete:爬取完成的URL

  processing:正在进行的URL。

  嗯!当一个所有初始的URL状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的URL重置状态为:outstanding。为了能够处理URL进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

  接下来是爬虫主程序

  让我们来看看结果吧

  技术分享图片

  Paste_Image.png

  里面因为很多都是重复的,所有去重之后只有十几万本,好失望……

 数据库同步软件

[easou 数据库同步注册]宜搜全站数十万小说爬虫

原文:https://www.cnblogs.com/sqlserver-mysql/p/12762868.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/8860.html

(0)
上一篇 2023-02-20
下一篇 2023-02-20

相关推荐

  • mongodb 基础入门教程「建议收藏」

    mongodb 基础入门教程「建议收藏」mongodb 的 安装配置,库的备份恢复,基础命令,聚合的用法和实例

    2022-12-28
    94
  • Python模块:高效开发和流畅工作流程

    Python模块:高效开发和流畅工作流程Python是一种强大、高效和流行的编程语言,因为其广泛的用途,它拥有一个庞大的开源生态系统。 Python模块是这个生态系统中最重要的组成部分之一,因为它们提供了一种高效的方式来访问、组织和重用代码。本文将介绍几个Python模块,这些模块具有创建高效开发和流畅工作流程的特性。

    2023-12-29
    67
  • mongodb sort 索引_mongodb的索引的数据结构

    mongodb sort 索引_mongodb的索引的数据结构Mongodb视图可以让查询数据变的更加方便,索引让查询数据变得更加快捷,本文介绍如何使用Mongodb的视图功能和索引功能

    2023-02-17
    101
  • Hbase架构剖析「建议收藏」

    Hbase架构剖析「建议收藏」HBase隶属于hadoop生态系统,它参考了谷歌的BigTable建模,实现的编程语言为 Java, 建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它仅能通过主键(

    2022-12-28
    106
  • 如何运行 Python 程序?

    Python 程序员必须知道运行 Python 脚本或代码的所有可能方法。这是验证代码是否如我们所愿工作的唯一方法。 Python 解释器负责执行 Python 脚本。Python 解释器是一个在 Python 程序和计算机硬件之间工作的软件。这里我们描述了运行 Python 脚本的一系列方法。

    2023-08-24
    118
  • SQL中的real、float、decimal、numeric数据类型区别「建议收藏」

    SQL中的real、float、decimal、numeric数据类型区别「建议收藏」概述: 浮点数据类型包括real型、float型、decimal型和numeric型。浮点数据类型用于存储十进制小数。 在SQL Server 中浮点数值的数据采用上舍入(Round up)的方式进行

    2022-12-30
    111
  • 基于Redis实现分布式锁

    基于Redis实现分布式锁我们知道分布式锁的特性是排他、避免死锁、高可用。分布式锁的实现可以通过数据库的乐观锁(通过版本号)或者悲观锁(通过for update)、Redis的setnx()命令、Zookeeper(在某个持久

    2022-12-16
    125
  • 使用Vim强制退出

    使用Vim强制退出在日常工作中,Vim是一款非常流行的编辑器。但是,有时候我们可能会因为一些原因无法正常退出Vim,这时候需要使用strong强制退出/strong命令。本文将详细介绍使用Vim强制退出的几种方法。

    2024-05-15
    13

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注