当前位置:首页 » 《随便一记》 » 正文

python爬取Web of science论文信息

29 人参与  2024年03月23日 15:05  分类 : 《随便一记》  评论




检索关键词:zhejiang academy of agricultural sciences、 xianghu lab


        在Python中,有多种思路可以用来爬取Web of Science(WOS)上的信息。以下是其中几种常见的思路:

使用HTTP请求库和HTML解析库:这是最常见的爬取网页数据的方法之一。你可以使用Python的 requests 库发送HTTP请求获取网页内容,然后使用 BeautifulSoup 或其他HTML解析库对网页进行解析和提取所需的信息。


使用自动化工具:有些情况下,使用传统的HTTP请求和HTML解析方式难以实现数据的完整爬取,例如需要登录或执行JavaScript等情况。此时,你可以使用自动化工具,如 Selenium,来模拟用户操作浏览器,实现完整的页面渲染和数据提取。



          以操作思路三为例,在WOS上爬取英文论文的名称、作者名称、作者单位和引用数量,以满足给定的检索关键词(zhejiang academy of agricultural sciences和xianghu lab)的操作步骤:





打开Web of Science网站:使用driver.get()方法打开Web of Science网站,并使用time库实现等待页面加载,确保可以正常爬取相关信息。








import requestsfrom bs4 import BeautifulSoupimport csvimport time,random


class HtmlData:    def __init__(self, soup):        self.title = ''  # 存储文章标题        self.author = ''  # 存储文章作者        self.abstract = ''  # 存储文章摘要        self.keywords = ''  # 存储文章关键词        self.author_data = ''  # 存储作者信息        self.author_unit = ''  # 存储作者单位        self.citation_count = ''  # 存储引用数量        self.data = ''  # 存储数据信息        self.soup = soup  # 存储BeautifulSoup对象# 第二步,HtmlData类的构造函数初始化了存储文章标题、作者、摘要、关键# 词等信息的实例变量,并通过BeautifulSoup解析HTML文本提取这些信息。        print(soup.prettify())        self.title = soup.title.text        # self.title = soup.find(attrs={'class':'title'}).text.replace('\n','')  # 提取文章标题        try:            self.data = soup.find(attrs={'class':'block-record-info block-record-info-source'}).text  # 提取数据信息        except:            pass                items = soup.find_all(attrs={'class':'block-record-info'})  # 提取所有block-record-info元素         for item in items:            if len(item.attrs['class']) > 1:                continue            if 'By:' in item.text:  # 提取作者信息和作者单位                author_info = item.text.replace('By:', '').replace('\n', '').replace('  ', '').replace(' ]', ']')                author_info_parts = author_info.split(',')                if len(author_info_parts) > 1:                    self.author = author_info_parts[0].strip()                    self.author_unit = author_info_parts[1].strip()                else:                    self.author = author_info_parts[0].strip()                        elif 'Times Cited:' in item.text:  # 提取引用数量                self.citation_count = item.text.replace('Times Cited:', '').strip()            elif 'Abstract' in item.text:  # 提取摘要信息                self.abstract = item.text                continue            elif 'Keywords' in item.text:  # 提取关键词信息                self.keywords = item.text                continue            elif 'Author Information' in item.text:  # 提取作者信息                self.author_data = item.text                 continue



def scrape_data(url):    headers = {        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ Safari/537.36",    }    response = requests.get(url, headers=headers)  # 发送HTTP请求获取页面内容        if response.status_code == 200:  # 检查请求的状态码是否为200(成功)        html = response.text  # 获取响应的HTML文本        soup = BeautifulSoup(html, 'lxml')  # 使用BeautifulSoup解析HTML文本        html_data = HtmlData(soup)  # 创建HtmlData对象进行数据提取和存储                # 获取对象信息        title = html_data.title  # 获取标题        authors = html_data.author  # 获取作者        author_unit = html_data.author_unit  # 获取作者单位        citation_count = html_data.citation_count  # 获取引用数量        abstract = html_data.abstract  # 获取摘要        keywords = html_data.keywords  # 获取关键词                # 存储数据到csv        csv_data = [title, authors, author_unit, citation_count, abstract, keywords, url]                  # 构建CSV行数据        print(csv_data)                with open('1.csv', encoding='utf-8', mode='a', newline='') as f:            csv_writer = csv.writer(f)  # 创建CSV写入器            csv_writer.writerow(csv_data)  # 将数据写入CSV文件



def main():    url_list = []        search_keywords = 'zhejiang academy of agricultural sciences'#xianghu lab        for i in range(1, 3218):  # 构建URL列表        url = f"http://apps.webofknowledge.com/full_record.do?product=UA&search_mode=GeneralSearch&qid=1&SID=5BrNKATZTPhVzgHulpJ&page=1&doc={i}&cacheurlFromRightClick=no"        url += f"&field=Author&value={search_keywords}"        url_list.append(url)        time.sleep(1+random.random())    # print(url_list)     for url in url_list:        scrape_data(url)  # 遍历URL列表,爬取并处理数据if __name__ == '__main__':    main()

      (1)  备注:根据搜索完成页面进行爬取。

# 定义一个函数来获取单个页面的数据。这个函数将接受一个URL作为参数,# 并返回一个包含论文名称、作者名称、作者单位和引用数量的字典列表。def get_page_data(url):    headers = {        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.79 Safari/537.36'    }    response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text, 'html.parser')        # Find the target elements based on their HTML tags and attributes    # The actual tags and attributes might need to be adjusted based on the website's structure    papers = soup.find_all('div', attrs={'class': 'paper'})        data = []    for paper in papers:        name = paper.find('div', attrs={'class': 'name'}).text        author = paper.find('div', attrs={'class': 'author'}).text        affiliation = paper.find('div', attrs={'class': 'affiliation'}).text        citations = paper.find('div', attrs={'class': 'citations'}).text                data.append({            'name': name,            'author': author,            'affiliation': affiliation,            'citations': citations        })        return data# 定义一个函数来获取多个页面的数据。这个函数将接受一个基础URL和页面数量作为参数,# 并返回一个包含所有页面数据的字典列表。def get_multiple_pages(base_url, num_pages):    all_data = []    for i in range(1, num_pages+1):        url = base_url + str(i)        all_data.extend(get_page_data(url))        time.sleep(1)  # Add a delay between requests to avoid overloading the server    return all_data


# 导入必要的库import requestsfrom bs4 import BeautifulSoupimport csvimport time,random# 第一步,定义HtmlData类,用于存储和处理从HTML页面中提取的数据。class HtmlData:    def __init__(self, soup):        self.title = ''  # 存储文章标题        self.author = ''  # 存储文章作者        self.abstract = ''  # 存储文章摘要        self.keywords = ''  # 存储文章关键词        self.author_data = ''  # 存储作者信息        self.author_unit = ''  # 存储作者单位        self.citation_count = ''  # 存储引用数量        self.data = ''  # 存储数据信息        self.soup = soup  # 存储BeautifulSoup对象# 第二步,HtmlData类的构造函数初始化了存储文章标题、作者、摘要、关键# 词等信息的实例变量,并通过BeautifulSoup解析HTML文本提取这些信息。        print(soup.prettify())        self.title = soup.title.text        # self.title = soup.find(attrs={'class':'title'}).text.replace('\n','')  # 提取文章标题        try:            self.data = soup.find(attrs={'class':'block-record-info block-record-info-source'}).text  # 提取数据信息        except:            pass                items = soup.find_all(attrs={'class':'block-record-info'})  # 提取所有block-record-info元素         for item in items:            if len(item.attrs['class']) > 1:                continue            if 'By:' in item.text:  # 提取作者信息和作者单位                author_info = item.text.replace('By:', '').replace('\n', '').replace('  ', '').replace(' ]', ']')                author_info_parts = author_info.split(',')                if len(author_info_parts) > 1:                    self.author = author_info_parts[0].strip()                    self.author_unit = author_info_parts[1].strip()                else:                    self.author = author_info_parts[0].strip()                        elif 'Times Cited:' in item.text:  # 提取引用数量                self.citation_count = item.text.replace('Times Cited:', '').strip()            elif 'Abstract' in item.text:  # 提取摘要信息                self.abstract = item.text                continue            elif 'Keywords' in item.text:  # 提取关键词信息                self.keywords = item.text                continue            elif 'Author Information' in item.text:  # 提取作者信息                self.author_data = item.text                 continue# 第三步,scrape_data函数接收一个URL作为参数,发送HTTP请求获取页面内容,使用BeautifulSoup解析HTML文本,创建HtmlData对象提取数据,并将数据写入CSV文件。def scrape_data(url):    headers = {        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ Safari/537.36",    }    response = requests.get(url, headers=headers)  # 发送HTTP请求获取页面内容        if response.status_code == 200:  # 检查请求的状态码是否为200(成功)        html = response.text  # 获取响应的HTML文本        soup = BeautifulSoup(html, 'lxml')  # 使用BeautifulSoup解析HTML文本        html_data = HtmlData(soup)  # 创建HtmlData对象进行数据提取和存储                # 获取对象信息        title = html_data.title  # 获取标题        authors = html_data.author  # 获取作者        author_unit = html_data.author_unit  # 获取作者单位        citation_count = html_data.citation_count  # 获取引用数量        abstract = html_data.abstract  # 获取摘要        keywords = html_data.keywords  # 获取关键词                # 存储数据到csv        csv_data = [title, authors, author_unit, citation_count, abstract, keywords, url]  # 构建CSV行数据        print(csv_data)                with open('1.csv', encoding='utf-8', mode='a', newline='') as f:            csv_writer = csv.writer(f)  # 创建CSV写入器            csv_writer.writerow(csv_data)  # 将数据写入CSV文件# 第四步,main函数生成URL列表,遍历URL列表调用scrape_data函数进行数据爬取和处理。def main():    url_list = []        search_keywords = 'zhejiang academy of agricultural sciences'#xianghu lab        for i in range(1, 3218):  # 构建URL列表        url = f"http://apps.webofknowledge.com/full_record.do?product=UA&search_mode=GeneralSearch&qid=1&SID=5BrNKATZTPhVzgHulpJ&page=1&doc={i}&cacheurlFromRightClick=no"        url += f"&field=Author&value={search_keywords}"        url_list.append(url)        time.sleep(1+random.random())    # print(url_list)     for url in url_list:        scrape_data(url)  # 遍历URL列表,爬取并处理数据if __name__ == '__main__':    main()



 Q1:ModuleNotFoundError: No module named 'webdriver_manager'


         解决方案:(1)安装的代码除了问题,输入的是:pip install webdrivermanager,应在控制台中输入以下内容:

pip install webdriver_manager



from selenium import webdriverfrom webdriver_manager.chrome import ChromeDriverManager#安装并返回安装成功的pathdriver_path=ChromeDriverManager().install()#使用对应path下的driver驱动Chromedriver = webdriver.Chrome(executable_path=driver_path)


# selenium 4from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom webdriver_manager.chrome import ChromeDriverManagerdriver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

        通过它的源码,我们可以得知,基本的逻辑是将Chromedriver安装在某个目录下,将driver的目录返回给我们,创建对象的时候,将path 作为参数传入。

Q2:用soup.find()时出现错误AttributeError NoneType object has no attribute?

参考:AttributeError NoneType object has no attribute_soup.find 未找着-CSDN博客        

原因及分析:我使用的soup.find()没有找到这个class为"ArticlePicBox Aid43 "的div中有空格。






        爬虫项目处理的一般步骤:1.找数据所在的地址(ur)是哪个? (网页性质分析<静态网页/动态网页>)<你要的/你不需要的》2.通过代码发送地址的请求(文本数据\js数据\css<祥式层叠表,数据\围片\...)3.数据的解析,解析你要的数据(正则表达式\css选择器 \xpath节点提取)4.数据保存(本地,数据库)。


# 据解析步聚# 1.转换数据类型(selector = parsel.Selector(html) # html字符串--> 对象# print(selector)# 2.css提取数据(# p = selector.css('p').get())。解析网页有三种方法:Xpath和正则表达式(re)及BeautifulSoup。



        XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的




        备注:html解析工具:HTML格式化 、HTML压缩- 站长工具 (sojson.com)





# 导入必要的库import requestsfrom bs4 import BeautifulSoupimport csvimport time,randomfrom lxml import htmlimport reurl_list = []# 存储所有url的列表# 页面urlbase_url = 'https://webofscience.clarivate.cn/wos/woscc/summary/c23b8bbe-f8ca-4d1c-b3a6-0c05ee883fbd-b0d498e1/relevance/'# 遍历所有页面# 构造当前页面的urlurl = base_url + str(1)# 发送GET请求,获取页面内容headers = {    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ Safari/537.36",}response = requests.get(url, headers=headers)time.sleep(2)# (1)使用xpath # 使用正则表达式匹配页面内容中的链接pattern = r'<a class="title title-link font-size-18 ng-star-inserted" href="(.+?)">'links = re.findall(pattern, response.text)for link in links:    # 处理相对路径并打印链接    full_url = f'https://webofscience.clarivate.cn{link}'    url_list.append(full_url)    time.sleep(1 + random.random())# (2)使用正则表达式#  # 使用lxml库解析页面内容# tree = html.fromstring(response.content)# # 查找所有<a>标签,提取url并存储到列表中     # links = tree.xpath('//a[@class="title title-link font-size-18 ng-star-inserted"]/@href')# for link in links:#     # 处理相对路径并打印链接#     full_url = f'https://webofscience.clarivate.cn{link}'#     url_list.append(full_url)#     time.sleep(1+random.random())# (3)使用bs解析# soup = BeautifulSoup(response.text, 'html.parser')# # 查找所有<a>标签,提取url并存储到列表中     # link_elements = soup.find_all('a', class_='title title-link font-size-18 ng-star-inserted', href=True)##提取不出标签为a的url链接# for link_element in link_elements:#     # 处理相对路径并打印链接#     href = link_element['href']#     full_url = f'https://webofscience.clarivate.cn{href}'#     url_list.append(full_url)#     time.sleep(1+random.random())      


[1]Web of science文章信息爬取_爬取web of science数据






<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站



  • 祖母寿宴,侯府冒牌嫡女被打脸了(沈屿安秦秀婉)阅读 -
  • 《雕花锦年,昭都旧梦》(裴辞鹤昭都)完结版小说全文免费阅读_最新热门小说《雕花锦年,昭都旧梦》(裴辞鹤昭都) -
  • 郊区41号(许洛竹王云云)完整版免费阅读_最新全本小说郊区41号(许洛竹王云云) -
  • 负我情深几许(白诗茵陆司宴)完结版小说阅读_最热门小说排行榜负我情深几许白诗茵陆司宴 -
  • 九胞胎孕妇赖上我萱萱蓉蓉免费阅读全文_免费小说在线看九胞胎孕妇赖上我萱萱蓉蓉 -
  • 为保白月光,侯爷拿我抵了债(谢景安花田)小说完结版_完结版小说全文免费阅读为保白月光,侯爷拿我抵了债谢景安花田 -
  • 陆望程映川上官硕《我的阿爹是带攻略系统的替身》最新章节阅读_(我的阿爹是带攻略系统的替身)全章节免费在线阅读陆望程映川上官硕
  • 郑雅琴魏旭明免费阅读_郑雅琴魏旭明小说全文阅读笔趣阁
  • 头条热门小说《乔书意贺宴临(乔书意贺宴临)》乔书意贺宴临(全集完整小说大结局)全文阅读笔趣阁
  • 完结好看小说跨年夜,老婆初恋送儿子故意出车祸_沈月柔林瀚枫完结的小说免费阅读推荐
  • 热推《郑雅琴魏旭明》郑雅琴魏旭明~小说全文阅读~完本【已完结】笔趣阁
  • 《你的遗憾与我无关》宋怀川冯洛洛无弹窗小说免费阅读_免费小说大全《你的遗憾与我无关》宋怀川冯洛洛 -

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1