现在的爬虫原理还是简单的用正则抓取么？

本人实习生小菜鸟一枚，公司让写个爬虫练练手，之前对这个完全没概念，刚才在网上看了一会，觉得大致思路是抓下来整个文件，用正则表达式处理文本似的根据文法抓取要抓的东西，然后再处理，想问问现在也是这个思路么，就拿最初级的表单里的数据来说，现在有没有更直接的抓取方法，另外希望给几个php爬虫的demo，公司服务器没有python环境，只能用php了，多谢。

正则不是用来抓取的，抓取用curl
正则是抓取了html后，解析你需要的数据的。
具体例子google下有很多，用我说的关键字

简单的抓取，可以抓页面内容，然后用正则来匹配你关心的数据等获取对应的信息。
http://blog.reetsee.com/archives/366