欢迎光临万书涛的个人博客

网站采集到的数据如何批量保存到excel表格

作者:万书涛  / 日期:2021-06-02 22:28:59 /  来源:本站原创 /   浏览:
摘要
下面以一个黄页网站为例来进行说明,爬取其中的网站名称和网站评分数据,并把抓取到的数据批量存放到excel表格里,下面来看看如何写吧。  
分析:这个网站抓取的难点是把网站评分的小星星去掉,只取其中的红色分值,后面的灰色分值也不要,如下图所示,所以考虑用xpath进行抽取,把抽取到的数据存放到一个列表里,而后面我们要把采集到的数据分别按照行和列进行单元格存储,所以要考虑后期能够把列表中的数据进行分组归类,让每一列都能对应好了。

网页抓取截图

经过多次修改,终于按照网站名称、网站评分进行对应存储到excel表格里了,代码如下:
 

import requests
from lxml import etree
import xlwt
 
if __name__ == '__main__':
    geturl = 'https://hao.huangye***.com/pn1/'
    getheaders = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
    resp=requests.get(url=geturl,headers=getheaders).text
    gethtml=etree.HTML(resp)#抓取页面

    getshuju=gethtml.xpath('//*[@id="container"]/table')[0]
    getheader=getshuju.xpath('./thead/tr[@class="t-title"]/th/text()')
        gethang = getshuju.xpath('./tbody/tr')

    getlistlie = []
    for i in range(0,len(gethang)):
        getdata = []
        getxq2 = getshuju.xpath(f'./tbody/tr[{i+1}]/td')[0]

        getxqnr2 = getxq2.xpath('./a/text()')
        getdata.append(getxqnr2)
        getpfpath2 = getshuju.xpath(f'./tbody/tr[{i+1}]/td')[1]
        getpingfen2 = getpfpath2.xpath('./span[@class="score"]/text()')
        getdata.append(getpingfen2)
        getlistlie.append(getdata) #注意:这里将上面得到的数据放到一个列表里,然后在每一次循环把得到的子列表数据存放到大列表里,方便后面进行单元格数据对应匹配

    getwork=xlwt.Workbook(encoding='utf-8')
    getsheet=getwork.add_sheet('wstsheet',cell_overwrite_ok=True)
    #getsheet.write(row, column, content)
    # 注: row和colum从0开始

    gettitle=['网站名称','网站评分']
    for titi in range(0,len(gettitle)):
        getsheet.write(0,titi,gettitle[titi])#这里得到行标题


    for ih in range(0,len(gethang)):
        gdata=getlistlie[ih]

        for il in range(0,2):
            getsheet.write(ih+1,il,gdata[il])

#注意:上面用双重循环把所有的行和列的值全取出来放到excel表里,gdata里面存放的是列表的每个项,每个项里面包含网站名称和网站评分,这样每个项在il里分别进行取值填充到单元格里

    getwork.save('.pingfenceshi.xls')
最后保存到pingfenceshi.xls里,结果如下:
 
网站名称 网站评分
速速网 8.5
德客易行网 8.5
亿商网 8.4
鲁班网 8.4
爱品网 8.3
富金机网 8.1
首商网 8.1
黄页88网 8.0
胖窝网-免费发布 7.9
广商网 7.8
批发仕 7.8
云南花木网 7.7
变宝网 7.7
勤发网 7.7
亿商网 7.7
通用五金网 7.6
比途黄页网 7.6
天天b2b电子商 7.6
商易网 7.6
商机链 7.6
 
 
 
 
所属分类: 暂无分类
微信二维码

扫描关注微信公众号
第一时间获取最新资讯
本文由万书涛原创,地址:https://www.wtaoblog.com/pchongjs/252.html
如需转载,须以文字形式注明本文地址,否则禁止转载

猜你喜欢

无相关信息