python 网络爬虫 正则表达式
发布网友
发布时间:2022-05-02 11:12
我来回答
共1个回答
热心网友
时间:2022-04-18 05:02
//还有这等事....哈哈
import re
file = open('xx.htm','r',encoding = 'gbk')
allLines = file.readlines()
xx = ''.join(allLines).encode('utf8').decode('utf8')
a = re.findall(r'<td><div align="[\s\S]*</td>?',xx)
#print('\n'.join(a))
for i in a:
a = re.findall(r'\d+[.]?\d*</div>?|\d{4}-\d{2}-\d{2}</div>?|[\u4e00-\u9fa5]+<?',i)
print('\n'.join(a))
file.close()
来自:求助得到的回答