当前位置:首页 » 《我的小黑屋》 » 正文

Python如何运用爬虫爬取京东商品评论

20 人参与  2024年03月29日 18:51  分类 : 《我的小黑屋》  评论

点击全文阅读


寻找数据真实接口

打开京东商品网址(添加链接描述) 查看商品评价。我们点击评论翻页,发现网址未发生变化,说明该网页是动态网页。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

我们在浏览器右键点击“检查”,,随后点击“Network”,刷新一下,在搜索框中输入”评论“,最终找到网址(url)。我们点击Preview,发现了我们需要找的信息。

请求网页

使用requests请求数据库,请求方法是get
在这里插入图片描述

我们查看Headers发现请求方法为get请求,查看Payload并点击,即为get请求参数,完整代码如下所示。

import requestsimport pandas as pditems=[]header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.4031 SLBChan/105'}url=f'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1684832645932&loginType=3&uuid=122270672.2081861737.1683857907.1684829964.1684832583.3&productId=100009464799&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=1&shield='response= requests.get(url=url,headers=header)

解析网页

由于网页返回的是json格式数据,获取我们所需要的评论内容、评论时间,我们通过字典访问即可。
在这里插入图片描述

在这里插入图片描述

先嵌入字典解析库,通过访问字典,一层一层将数据提取到一页的部分信息,编辑代码

json=response.json()data=json['comments']for t in data:    content =t['content']    time    =t['creationTime']

通过循环,爬取所有页面的评论数据

翻页爬取的关键找到真实地址的“翻页”规律

我们分别点击第1页、第2页、第3页,发现不同页码的除了page参数不一致,其余相同。

第1页的“page”是1,第2页的“page”是2,第2页的“page”是2,以此类推。 我们嵌套一个For循环,并通过pandas存储数据。运行代码让其自动爬取其他页面的评论信息,并储存t.xlsx的文件中。 所有代码如下:

import requestsimport pandas as pditems=[]for i in range(1,20):    header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.4031 SLBChan/105'}    url=f'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1684832645932&loginType=3&uuid=122270672.2081861737.1683857907.1684829964.1684832583.3&productId=100009464799&score=0&sortType=5&page={i}&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=1&shield='    response= requests.get(url=url,headers=header)    json=response.json()    data=json['comments']    for t in data:        content =t['content']        time    =t['creationTime']        item=[content,time]        items.append(item)df = pd.DataFrame(items,columns=['评论内容','发布时间'])df.to_excel(r'C:\Users\蓝胖子\Desktop\t.xlsx',encoding='utf_8_sig')

最后,得到爬取的数据结果如下:
在这里插入图片描述

我整理了Python爬虫的学习资料,拿出来和大家分享,有需要的朋友可以扫描下方二维码进行领取哦

在这里插入图片描述

一、学习大纲

在这里插入图片描述

二、开发工具

在这里插入图片描述

三、Python基础资料

在这里插入图片描述

四、实战资料

在这里插入图片描述
今天的分享就到这里了,觉得有用的话,别忘了关注我哦


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/87876.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 若教眼底无离恨+结局(冰夷昭暄玄清)
  • 全书浏览我给第三十八任老公过喜必读爽文(宋青青)_我给第三十八任老公过喜必读爽文(宋青青)全书结局
  • 惊凰令时空医妃的涅槃战列表_惊凰令时空医妃的涅槃战(林惊雪萧景翊)
  • (番外)+(结局)陆州应清商(你是救赎亦是深渊全书+番外)_(陆州应清商)列表_笔趣阁(你是救赎亦是深渊全书+番外)
  • (番外)+(全书)(苏清离林墨宸)_离人未归,晚风不渡全书+后续列表_笔趣阁(苏清离林墨宸)(苏清离林墨宸)完结_(苏清离林墨宸)列表_笔趣阁(离人未归,晚风不渡全书+后续)
  • 全文蝴蝶梦结局+番外精选作品之一(闵暖季司凉)列表_全文蝴蝶梦结局+番外精选作品之一
  • 人间离别易多时,劝君勿相思+后续+结局(周明乾)列表_人间离别易多时,劝君勿相思+后续+结局(周明乾)人间离别易多时,劝君勿相思+后续+结局在线
  • 相思两别离悬念章节免费释出_「冉冉盛今安宋言心」最新后续章节在线阅读
  • 我给第三十八任老公过喜结局+番外(宋青青傅洛)列表_我给第三十八任老公过喜结局+番外(宋青青傅洛)全书+后续+结局在线
  • 水自无情舟渡人季铭穆婉结局+番外(季铭穆婉)_(水自无情舟渡人季铭穆婉结局+番外)列表_笔趣阁(季铭穆婉)
  • 我给第三十八任老公过喜全列表_我给第三十八任老公过喜全(宋青青聂子远)
  • 完结文玫瑰越过荆棘,苏清苒裴安煜免费+后续列表_完结文玫瑰越过荆棘,苏清苒裴安煜免费+后续

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1