[easou 数据库同步注册]宜搜全站数十万小说爬虫

[easou 数据库同步注册]宜搜全站数十万小说爬虫自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站 …

[easou 数据库同步注册]宜搜全站数十万小说爬虫[数据库教程]

  自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是mogodb数据库,感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

  技术分享图片

  Paste_Image.png

  先看代码框架图

  技术分享图片

  Paste_Image.png

  第一个,肯定先提取排行榜里面每个类别的链接啊,然后进入链接进行爬取,先看all_theme文件

  看看运行结果,这是书籍类目的

  技术分享图片

  Paste_Image.png

  这是构造出的每一个类目里面所有的页数链接,也是我们爬虫的入口,一共5000多页

  技术分享图片

  Paste_Image.png

  接下来是封装的数据库操作,因为用到了多进程以及多线程每个进程,他们需要知道那些URL爬取过了、哪些URL需要爬取!我们来给每个URL设置两种状态:

  outstanding:等待爬取的URL

  complete:爬取完成的URL

  processing:正在进行的URL。

  嗯!当一个所有初始的URL状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的URL重置状态为:outstanding。为了能够处理URL进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

  接下来是爬虫主程序

  让我们来看看结果吧

  技术分享图片

  Paste_Image.png

  里面因为很多都是重复的,所有去重之后只有十几万本,好失望……

 数据库同步软件

[easou 数据库同步注册]宜搜全站数十万小说爬虫

原文:https://www.cnblogs.com/sqlserver-mysql/p/12762868.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/8860.html

(0)
上一篇 2023-02-20
下一篇 2023-02-20

相关推荐

  • 9款最好用的MySQL数据库客户端图形界面管理工具,第三款我用了10年「建议收藏」

    9款最好用的MySQL数据库客户端图形界面管理工具,第三款我用了10年「建议收藏」MySQL的管理维护工具非常多,除了系统自带的命令行管理工具之外,还有许多其他的图形化管理工具,这里我介绍几个经常使用的MySQL图形化管理工具,供大家参考。 MySQL是一个非常流行的小型关系型数据

    2022-12-29
    167
  • Python 3编程基础

    Python 3编程基础Python 是一种非常受欢迎的编程语言,它简单易用、功能强大,并且拥有大量的第三方库。其中版本最新的 Python 3 不仅继承了 Python 2 许多优秀的特性,还优化了许多细节,使得编程更加方便和高效。

    2024-05-04
    66
  • Laravel框架使用MongoDB遇到的问题解决[通俗易懂]

    Laravel框架使用MongoDB遇到的问题解决[通俗易懂]之前说的,我一直是将macOS作为开发平台,直接在macOS系统配置Nginx PHP及MySQL,由于项目需求,需要使用到MongoDB,这篇就是一部在macOS系统下运行Laravel框架使用M…

    2022-12-23
    139
  • 简单理解分表分库及其缺点[亲测有效]

    简单理解分表分库及其缺点[亲测有效]当我们系统达到瓶颈时候,最影响系统性能的永远是最底层的。例如数据库,所以数据库优化相对重要,当数据库性能由于数据量过大导致达到瓶颈的时候,我们会选择对数据库拆分或者对表拆分,也就是分表分库。分表分库…

    2023-04-13
    155
  • 实验1:基于Weka的典型数据挖掘应用[亲测有效]

    实验1:基于Weka的典型数据挖掘应用[亲测有效]#一、实验目标 理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。 #二、实验内容 下载并安装Java环境(JDK 7.0 64位)。 下载并安装Wek

    2023-03-20
    162
  • PgSQL中修改数据自动更新update_time[通俗易懂]

    PgSQL中修改数据自动更新update_time[通俗易懂] — 创建函数CREATE OR REPLACE FUNCTION “upd_timestamp”()RETURNS TRIGGER AS $$BEGIN NEW.update_time =…

    2023-03-26
    181
  • Pycharm无法运行Python程序

    Pycharm无法运行Python程序Pycharm是一款强大的Python集成开发环境,被广泛应用于Python开发工作。尽管Pycharm现在已经非常的成熟,但是在使用这个工具的过程中,很多时候还是会遇到一些常见的问题和错误。其中比较常见的问题就是Pycharm无法运行Python程序。这个问题的出现可能是由于多种因素引起的,下面我们就分别来看看。

    2024-08-17
    30
  • Python中激活虚拟环境的方法

    Python中激活虚拟环境的方法Python中虚拟环境是一个重要的概念,它可以让我们在同一台电脑上同时使用不同版本的Python以及不同的Python库,同时避免了库之间的冲突。在Python中激活虚拟环境是一个必备的技能,本文将从多个方面对Python中激活虚拟环境的方法进行详细阐述。

    2024-06-22
    40

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注