python搜索关键词_python检索

python搜索关键词_python检索如何采集关键词检索结果,今天前嗅大数据就以古诗文网为例为大家演示,话不多说一起看看吧。 一. 网站内容 1. 网站截图说明 本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“…

如何采集关键词检索结果,今天前嗅大数据就以古诗文网为例为大家演示,话不多说一起看看吧。

一. 网站内容

1. 网站截图说明

本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85

 

Step1:在官网输入关键词“鹅鹅鹅”,如图所示:

python搜索关键词_python检索

 

Step2:复制该页面的链接,作为本次采集地址。

python搜索关键词_python检索

python搜索关键词_python检索

 

一. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

 

python搜索关键词_python检索

Step1:点击“采集配置”,点击【任务列表】中的“+”,新建采集任务。

Step2:在图示2位置中输入,对应“鹅鹅鹅”关键词下的网页地址。

Step3:勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。

 

需要采集正文数据,所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】,点击完成即可。

python搜索关键词_python检索

【新建采集任务】

 

2. 关键词配置

按图片数字所示,1-2-3完成新建任务的步骤

python搜索关键词_python检索

 

Step1:点击图1所示左侧点击“新建任务”。

Step2:按照图2所示,点击右下角的“关键词”。

Step3:按照图3所示,在关键词列表中输入“鹅鹅鹅”。

 

注:在操作过程中要记得随时点击“保存”,随时保存进度。

python搜索关键词_python检索

Step1:点击图1所示左侧点击“链接抽取:网页全部链接”。

Step2:按照图2所示,Ctrl+左键 点击搜索框,目的是建立搜索选区,方便关键词的采集。

Step3:按照图3所示,点击“确认选区”。

 

3. 数据建表

按图片数字所示,1-2-3完成数据建表的操作

python搜索关键词_python检索

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:选择“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“李白”

 

 

根据所需内容,配置表单字段,此处配置了包括主键、诗词标题、诗句、作者。表单建立如下:

python搜索关键词_python检索

【创建主键】

 

字段名称:id

采集内容 选择“主键”,此处选“网页主键”。

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

python搜索关键词_python检索

【创建字段1-标题】

 

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:标题

 

 

python搜索关键词_python检索

【创建字段2-作者】

 

字段名称:author

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:作者

 

python搜索关键词_python检索

【创建字段3-诗句内容】

 

字段名称:content

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:诗句

最终数据表配置如下图即可:

 

python搜索关键词_python检索

4. 创建关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

python搜索关键词_python检索

 

选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”。

创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。

 

python搜索关键词_python检索

 

注意:创建完成后,记得“勾选”

python搜索关键词_python检索

 

5. 数据建表 确认选区

python搜索关键词_python检索

 

Step1:点击图1所示左侧点击“数据抽取:李白”。

Step2:按照图2所示,在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。

python搜索关键词_python检索

 

Tittle选区选取:

Step1:点击左侧“tittle”

Step2:Ctrl+左键选择图示2位置的标题

Step3:点击图示3位置的“确认选区”即可完成

python搜索关键词_python检索

 

author选区选取:

Step1:点击左侧“author”

Step2:Ctrl+左键选择图示2位置的作者

Step3:点击图示3位置的“确认选区”即可完成

python搜索关键词_python检索

 

一. 关键词 检索结果预览

 

python搜索关键词_python检索

右键图示红框位置(页面左侧)的“默认模板:01”,选择“模板预览”,即可进行检索结果查询,如下图所示:

 

python搜索关键词_python检索

今天就先分享到这里,你学会了吗?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/10466.html

(0)
上一篇 2022-12-27
下一篇 2022-12-27

相关推荐

  • Python字典——高效存储和访问数据

    Python字典——高效存储和访问数据Python字典是一种非常有用的数据类型,它可以用来存储任意对象,并且可以通过键来访问这些对象。字典是可变的,可以很方便地对其进行增、删、改等操作,非常适合用来存储和管理数据。

    2024-01-01
    66
  • 【NoSql】缓存管理器CacheManager使用[亲测有效]

    【NoSql】缓存管理器CacheManager使用[亲测有效]缓存管理器CacheManager 一、背景 ​ 代码并发量因建行活动页上升,大量请求打到Mongo导致数据库cpu100%从而服务不可用,目前解决方案,使用编程式缓存,即对缓存的操作与业务代码耦合。

    2023-06-19
    108
  • 分布式 | dble 中分布式时间戳方式的全局序列

    分布式 | dble 中分布式时间戳方式的全局序列作者:吴金玲 爱可生 dble 项目团队成员,主要负责 dble 相关的日常测试工作,擅长对 dble 中出现的问题进行排查。热爱测试工作,余生欲将测试工作进行到底。 本文来源:原创投稿 *爱可生开…

    2023-03-07
    100
  • Python新建文件

    Python新建文件Python是一种强大的编程语言,也是一个具有广泛应用的工具。Python语言可以帮助程序员实现许多任务,其中之一就是创建新文件。在这篇文章中,我们将介绍如何使用Python创建新文件,并探讨Python新建文件的多种使用场景与方法。

    2024-04-24
    15
  • nifi processer介绍「建议收藏」

    nifi processer介绍「建议收藏」2.3 NiFi Processor应用介绍 对于NiFi的使用者来说,如果想要创建一个高效的数据流,那么就需要了解什么样的单元处理器才最适合这个数据流。NiFi拥有大量的可以用于各种业务场景的单元处

    2023-02-10
    103
  • Python中e等于多少?

    Python中e等于多少?e是一个数学常数,约等于2.71828,是以自然常数为底的指数函数的底数,也是某些数学公式的重要参数。在Python中,e可以通过math库来获取:

    2024-02-21
    46
  • Python函数原理与用法详解

    Python函数原理与用法详解Python函数是一段可重复使用的代码块,可以接受输入并返回输出。在整个Python编程中,函数是非常重要的部分。也是编写可读且容易维护的Python代码的关键之一。通过Python函数,我们可以轻易地实现某个功能,让复杂的操作变得简单化且高效。

    2024-03-27
    26
  • 轻松玩转windows之redis实战「建议收藏」

    轻松玩转windows之redis实战「建议收藏」Redis是一个常用的键值对数据库。本篇分享一下如何轻松在睿江云上实现基于windows的redis开发环境。 1. 登录睿江云 点击右上角登录框 进入登录页面,输入账号密码登录 进入控制台,选择节…

    2022-12-27
    99

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注