作业是做一个基于python的校园网搜索引擎(老师从一本python项目实战案例的书上选的)
我也就照着书上老师直播的代码改了试着做了一下,现在的要求是“能搜索到整个学校的所有上传的新闻/通知等网页链接”(功能类似于一般大学官网边角带有的搜索功能)
我大学的所有可搜到的新闻、通知等网页链接的规律是这样的:https://(1).ntu.edu.cn/(2)/(3)/(4)/page.htm
其中,(1)为"www"或"news"或"lxyz",可能还有其他,总之就是英文字符串;
(2)为四位数字,代表年份,如2021;
(3)为四位数字,几月几日,如0327;
(4)为一串带字母数字的字符串,如c10a161733;
······
网上我找的python相关的爬虫搜索引擎的实战项目案例,基本都是获取某网站单个页面下的所有物件网页信息,
而我的作业要求模仿学校官网的搜索功能,说白了就是深入官网内每一个子栏目进行深度爬取
,爬取每一个子栏目下的所有网页,
搞得我不会弄啊······有什么思路吗
你把你学校官网地址发出来,私信发也行
您好,我是问答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632
我也是一个学生,坐等大佬来回答,学习交流