当前位置:首页 » 《随便一记》 » 正文

【python】采集每日必看黄色软件数据~

4 人参与  2023年05月05日 12:33  分类 : 《随便一记》  评论

点击全文阅读


前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

环境使用:

Python 3.8

Pycharm

模块使用:

requests >>> pip install requests

re

csv

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

基本思路:

明确需求:

采集网站以及数据是什么?

店铺数据

PS: 一定要清楚, 数据是请求那个链接可以获取

通过开发者工具进行抓包分析

打开开发者工具: F12 / fn+F12 / 鼠标右键点击检查选择network

点击第二页, 第一个数据包就是我们要的链接地址

<通过关键词进行搜索,找到对应的数据包 [请求链接] >

代码怎么实现?

发送请求, 模拟浏览器对url地址发送请求 <为了得到数据>

获取数据, 获取服务器返回响应数据 --> response <得到所有数据>

解析数据, 提取我们想要的数据内容 <得到想要的数据>

保存数据, 保存表格文件

代码展示

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requestsimport requests# 导入格式化输出模块from pprint import pprint# 导入csv模块import csv

创建文件

f = open('烤肉.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=[    '店名',    '评分',    '评论',    '店铺类型',    '商圈',    '人均',    '最低消费',    '经度',    '纬度',    '详情页',])csv_writer.writeheader()

“”"
1. 发送请求

模拟浏览器对url地址发送请求 <为了得到数据>

<Response [403]>

403 状态码 没有访问权限 一定要加防盗链

模拟浏览器 为了防止被反爬

cookies host referer UA

“”"
请求链接

url = 'https://*****/group/v4/poi/pcsearch/70?uuid=1191c166b23545adaef7.1679637144.1.0.0&userid=266252179&limit=32&offset=32&cateId=-1&q=%E7%83%A4%E8%82%89&token=AgEcI8MGJ-mKhr9oT4VY_zjPV_oFYDXfbo9sEAaWhz5Ud0ZxeKhBNbm--AOvOEMZfMX1X8atA5u22QAAAABsFwAA631DsS1KNwy05foi_83hOjAmFHyzNkrbtWhFRpR9MOAObuDNmNMpKOe8SdRaRJ_n'

伪装模拟 --> 请求头

headers = {    # Referer 防盗链, 告诉服务器请求链接, 是从哪里跳转过来    'Referer': 'https://*****/',    # User-Agent 用户代理 表示浏览器基本身份信息    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}

发送请求

response = requests.get(url=url, headers=headers)# <Response [403]>print(response)

“”"

2. 获取数据

获取服务器返回响应数据 --> response <得到所有数据>

response.json() 获取响应json字典数据

3. 解析数据

提取我们想要的数据内容 <得到想要的数据>

字典取值 get

键值对取值 --> 根据冒号左边的内容[键], 提取冒号右边的内容[值]

Json字典数据, 一层一层提取

print(index) --> json数据, 呈现一行

pprint(index) --> json数据, 呈现多行 展开效果

“”"

for循环遍历, 把列表里面元素一个一个提取出来

for index in response.json()['data']['searchResult']:

详情页链接:

    link = f'https://*****/meishi/{index["id"]}/'

创建字典 --> 方便后续保存数据

    dit = {        '店名': index['title'],        '评分': index['avgscore'],        '评论': index['comments'],        '店铺类型': index['backCateName'],        '商圈': index['areaname'],        '人均': index['avgprice'],        '最低消费': index['lowestprice'],        '经度': index['longitude'],        '纬度': index['latitude'],        '详情页': link,    }    csv_writer.writerow(dit)    print(dit)

尾语 ?

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~???更多源码、资料、素材、解答、交流皆点击下方名片获取呀???


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/60877.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 我坐上评委席后,把我踢出乐队的男友悔疯了快手热门_乔枝姐阿媛程戬常读_小说后续在线阅读_无删减免费完结_
  • 当风吹落了雨TOP10_老公陈角鹰薇薇大反击_小说后续在线阅读_无删减免费完结_
  • 未婚夫逼我放弃继承权后,全家悔疯了一口气完结_沈雨雨柔养老校园甜文_小说后续在线阅读_无删减免费完结_
  • 手撕无耻老婆一家宝藏文_小姨子钟琳老公人气小说_小说后续在线阅读_无删减免费完结_
  • 愿得一人心常读_萧城蒋雪柔华冉优质全文_小说后续在线阅读_无删减免费完结_
  • 女士的玩具推文_杜小灵白月光杜雪必读文_小说后续在线阅读_无删减免费完结_
  • 女儿要给我养老,我却反手把她告上法庭每日分享_林梦王浩养老一口气完结_小说后续在线阅读_无删减免费完结_
  • 闻妻有两意(林鹿小柿子)_闻妻有两意
  • 我的死党是刘秀?这皇位我不篡了(李哲王莽)全书免费_(李哲王莽)我的死党是刘秀?这皇位我不篡了后续(李哲王莽)
  • 逃荒路末世女王带着空间养儿女(周铁山王寡妇阿蛮)_逃荒路末世女王带着空间养儿女(周铁山王寡妇阿蛮)
  • 霍远凡肖灿续集(霍远凡肖灿)章节前文+全书阅读(丈夫逼我流产,我以死谢罪)最新连载
  • 老公给我13.14亲密付,我堕胎再婚后他悔疯了每日分享_苏暖顾川林晚晚超长版_小说后续在线阅读_无删减免费完结_

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1