大家好,我是考100分的小小码 ,祝大家学习进步,加薪顺利呀。今天说一说爬虫数据网站_python 微信小程序项目,希望您对编程的造诣更进一步.
原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取:
建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇
建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇
新版建筑市场(四库一平台)抓取最新信息(爬虫)
最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。
在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我(QQ:397713472 电话:13880334484[微信同号])。
一、使用爬虫抓包工作抓取小程序访问链接
我喜欢用Fiddler抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接:
然后通过分析小程序的接口就两个
https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult
https://sky.mohurd.gov.cn/skyapi/api/statis/getResult
都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。
二、接口认证token和IP限制
首先我们打开一个接口的请求头:
GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=®ionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1 Host: sky.mohurd.gov.cn Connection: keep-alive User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat cityCode: content-type: application/json token: t_b161960b732146379d4b8fc53196c50f Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html Accept-Encoding: gzip, deflate, br
代码100分
虽然小程序接口现在不多但是还是做了一点认证也爬虫现在,首先是token,这里的token比较简单,就可以直接用抓取的作为token。当一定的访问,后端也会封Ip,最开始的是好是几分钟会解封,但是现在不会,使用尽量用IP代理。
三、数据AES加密解密
当我们参看返回的数据的时候数据是这样的:
代码100分{"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……", "message":null, "status":1}
这里data的数据就是做了加密的,使用我们通过数据解密后的:
[{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14, "records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市", "corpName":"重庆惠风机电设备有限公司","id":"001903140034193455","corpCode":"91500112054824582M"}], "searchCount":true,"size":15,"total":200}}]
由于涉及到相关的解密key这些我就不在该文章中写了,如果需要可以联系我(QQ:397713472 电话:13880334484[微信同号])
下图就是直接通过java写的解密截图。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/6927.html