本人实习生小菜鸟一枚,公司让写个爬虫练练手,之前对这个完全没概念,刚才在网上看了一会,觉得大致思路是抓下来整个文件,用正则表达式处理文本似的根据文法抓取要抓的东西,然后再处理,想问问现在也是这个思路么,就拿最初级的表单里的数据来说,现在有没有更直接的抓取方法,另外希望给几个php爬虫的demo,公司服务器没有python环境,只能用php了,多谢。
正则不是用来抓取的,抓取用curl
正则是抓取了html后,解析你需要的数据的。
具体例子google下有很多,用我说的关键字
简单的抓取,可以抓页面内容,然后用正则来匹配你关心的数据等获取对应的信息。
http://blog.reetsee.com/archives/366