求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做

求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做

用正则表达式把连接全部匹配出来 什么语言都可以

Python 爬虫 可以用 bs4库 或者 结合正则表达式

你会什么语言就用什么语言。如果你什么语言都不会,那么也可以用什么“火车头”之类的傻瓜工具来抓取。

把文档解析成一颗DOM树,获得里面所有的a标签节点,获得节点内文本节点,大部分需要都有相应的生成解析和操作DOM树的工具