爬虫数据网站_python 微信小程序项目

爬虫数据网站_python 微信小程序项目原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取: 建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇 建筑资质爬虫抓取-全国建筑市场监管公共服务平台…

爬虫 全国建筑市场监管服务平台小程序 数据抓取与采集

原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取:

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇

新版建筑市场(四库一平台)抓取最新信息(爬虫)

 

最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。

1596269595525051780.png

 

    ​在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我(QQ:397713472 电话:13880334484[微信同号])。

 

一、使用爬虫抓包工作抓取小程序访问链接

    我喜欢用Fiddler抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接:

1596270210034094290.png

然后通过分析小程序的接口就两个

https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult
https://sky.mohurd.gov.cn/skyapi/api/statis/getResult

都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。

 

二、接口认证token和IP限制

    首先我们打开一个接口的请求头:

GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=&regionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1
Host: sky.mohurd.gov.cn
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat
cityCode: 
content-type: application/json
token: t_b161960b732146379d4b8fc53196c50f
Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html
Accept-Encoding: gzip, deflate, br

代码100分

    ​虽然小程序接口现在不多但是还是做了一点认证也爬虫现在,首先是token,这里的token比较简单,就可以直接用抓取的作为token。当一定的访问,后端也会封Ip,最开始的是好是几分钟会解封,但是现在不会,使用尽量用IP代理。

三、数据AES加密解密

当我们参看返回的数据的时候数据是这样的:

代码100分{"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……",
"message":null,
"status":1}

这里data的数据就是做了加密的,使用我们通过数据解密后的:

[{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14,
"records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市",
"corpName":"重庆惠风机电设备有限公司","id":"001903140034193455","corpCode":"91500112054824582M"}],
"searchCount":true,"size":15,"total":200}}]

    ​由于涉及到相关的解密key这些我就不在该文章中写了,如果需要可以联系我(QQ:397713472 电话:13880334484[微信同号])

下图就是直接通过java写的解密截图。

 

图片.png

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/6927.html

(0)
上一篇 2023-03-30
下一篇 2023-03-30

相关推荐

  • Python输出列表的基本方法

    Python输出列表的基本方法在Python中,输出列表是我们在开发中常见的操作之一。列表是Python内置的一种数据结构,可以容纳多个值,包括数字、字符串等类型。本文将介绍Python输出列表的基本方法,并提供示例代码。希望能够为Python开发者提供帮助。

    2024-08-05
    20
  • activiti启动报错「建议收藏」

    activiti启动报错「建议收藏」1、activiti启动报错,检查如下表是否空:

    2023-02-19
    138
  • 安装Jupyter的步骤

    安装Jupyter的步骤 Jupyter是一个开源的计算笔记本,可支持多种编程语言,如Python,R,Julia等。它可以让用户在Web浏览器中创建和共享代码、方程式、可视化和文本,适合教学、分析和演示等应用场景。Jupyter基于IPython项目而来,IPython原本只支持Python语言,但后来也开始支持其他语言。

    2024-06-29
    40
  • jdbc连接达梦数据库集群_sqlplus登录数据库

    jdbc连接达梦数据库集群_sqlplus登录数据库DM JDBC 介绍 DM JDBC 驱动程序是 DM数据库的 JDBC 驱动程序,它是一个能够支持基本 SQL 功能 的通用应用程序编程接口,支持一般的 SQL 数据库访问。 通过 JDBC 驱动程

    2023-02-17
    138
  • PostgreSQL世界上最先进的开源关系型数据库

    PostgreSQL世界上最先进的开源关系型数据库PostgreSQL 的 Slogan 是 "世界上最先进的开源关系型数据库"。 PostgreSQL是一个功能非常强大、源代码开放的对象关系数据库系统(ORDBMS),在灵活的B

    2023-05-25
    137
  • Python随机算法教程:实现数组洗牌

    Python随机算法教程:实现数组洗牌数组洗牌,顾名思义,就是将一个数组中的元素随机打乱。这个操作在数据分析、机器学习和游戏开发中十分常见。洗牌过程也可以看作是一种随机算法,即将一个数据集打乱顺序,以达到随机分布的效果。

    2024-02-18
    93
  • mysql分层架构_介绍逻辑高的好处

    mysql分层架构_介绍逻辑高的好处上一篇文章主要介绍了MySQL在Ubuntu18.04系统上的安装,以及安装过程中可能会遇到的一些问题的解决方案。 在这篇文章里,开始介绍MySQL数据库的逻辑分层。通过本文的介绍,可以大致了解到My

    2023-02-11
    152
  • 聊一聊关于MySQL的count(*)

    聊一聊关于MySQL的count(*)1. 背景 自从大家对于MySQL数据库的稳定性有了更高的追求后,经常有小伙伴有这样的疑问,对于count(*)这样的操作,有没有正确的姿势,或者有没有可以优化的地方? 但答案比较残酷,如果已经使用…

    2023-02-01
    145

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注