import requests from lxml import etree import xlwt if __name__ == '__main__': geturl = 'https://hao.huangye***.com/pn1/' getheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'} resp=requests.get(url=geturl,headers=getheaders).text gethtml=etree.HTML(resp)#抓取页面 getshuju=gethtml.xpath('//*[@id="container"]/table')[0] getheader=getshuju.xpath('./thead/tr[@class="t-title"]/th/text()') gethang = getshuju.xpath('./tbody/tr') getlistlie = [] for i in range(0,len(gethang)): getdata = [] getxq2 = getshuju.xpath(f'./tbody/tr[{i+1}]/td')[0] getxqnr2 = getxq2.xpath('./a/text()') getdata.append(getxqnr2) getpfpath2 = getshuju.xpath(f'./tbody/tr[{i+1}]/td')[1] getpingfen2 = getpfpath2.xpath('./span[@class="score"]/text()') getdata.append(getpingfen2) getlistlie.append(getdata) #注意:这里将上面得到的数据放到一个列表里,然后在每一次循环把得到的子列表数据存放到大列表里,方便后面进行单元格数据对应匹配 getwork=xlwt.Workbook(encoding='utf-8') getsheet=getwork.add_sheet('wstsheet',cell_overwrite_ok=True) #getsheet.write(row, column, content) # 注: row和colum从0开始 gettitle=['网站名称','网站评分'] for titi in range(0,len(gettitle)): getsheet.write(0,titi,gettitle[titi])#这里得到行标题 for ih in range(0,len(gethang)): gdata=getlistlie[ih] for il in range(0,2): getsheet.write(ih+1,il,gdata[il]) |
网站名称 | 网站评分 |
速速网 | 8.5 |
德客易行网 | 8.5 |
亿商网 | 8.4 |
鲁班网 | 8.4 |
爱品网 | 8.3 |
富金机网 | 8.1 |
首商网 | 8.1 |
黄页88网 | 8.0 |
胖窝网-免费发布 | 7.9 |
广商网 | 7.8 |
批发仕 | 7.8 |
云南花木网 | 7.7 |
变宝网 | 7.7 |
勤发网 | 7.7 |
亿商网 | 7.7 |
通用五金网 | 7.6 |
比途黄页网 | 7.6 |
天天b2b电子商 | 7.6 |
商易网 | 7.6 |
商机链 | 7.6 |
扫描关注微信公众号
第一时间获取最新资讯
本文由万书涛原创,地址:https://www.wtaoblog.com/pchongjs/252.html
如需转载,须以文字形式注明本文地址,否则禁止转载