提取某学校网站首页中通知通告内容的标题和日期,并保存成文件。
写出来的代码运行后一片空白,救!
你得贴代码和具体的错误之类的
在此需要用到百度AI开放平台文字识别技术,因此需要注册百度智能云账号/百度账号,注册过程十分简单,一分钟完成,具体步骤可以参考。
为了使用该功能,需要安装baidu-aip第三方库,很小巧且好用的一个库,识别速度很快,2秒左右。具体代码如下:
from aip import AipOcr
def word_identify():
#输入自己的应用的信息
APP_ID = '***'
API_KEY = '***'
SECRET_KEY = '***'
client= AipOcr(APP_ID, API_KEY, SECRET_KEY)
#读取图片信息,返回二进制结果
img = get_file_content()
#返回识别结果
res = client.basicGeneral(img)
print(res)
#返回识别结果中的文字信息
return ''.join([word['words'] for word in res['words_result']])
为了更好地帮助您解决问题,以下是更具体的步骤:
import requests
url = '学校网站首页的URL'
response = requests.get(url)
content = response.text
import re
# 利用正则表达式从网页源代码中提取通知通告的标题和日期
pattern = re.compile(r'<a.*?href=".*?">(.*?)</a>.*?<span class="date">(.*?)</span>', re.S)
results = re.findall(pattern, content)
# 将提取的标题和日期保存至文件中
with open('result.txt', 'w', encoding='utf-8') as f:
for result in results:
f.write(result[0] + '\t' + result[1] + '\n')
希望这些具体的步骤能够帮助您解决问题。