python获取100万个不同的URL？

python获取100万个不同的URL？完后写入txt，一行一个，怎么搞？

http://www.2cto.com/kf/201304/201393.html

你的问题是什么呢，是不会获取100万url，还是不会写文件？你要打算怎么获取呢？你的程序的用途是什么呢。

获取不同的url，你需要有一个源，比如你可以获取alexa的，它提供了topN的URL地址，你请求页面获取结果来提取URL

 import urllib2 


import re 


#connect to a URL 


website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'") 


#read html code 


html = website.read() 


#use re.findall to get all the links 


links = re.findall('"((http|ftp)s?://.*?)"', html) 


print links

一个阿里的面试题，我做着玩下。
第一个迸发的思路是stl，map。用pair插入时候要是已经存在了url，就给后面的index++，完后按照index排序，测试了一下120m的txt应该有两百万左右，五十秒左右得出结果。
http://blog.csdn.net/wangyaninglm/article/details/47049907

url限制最长256个字符，
大家还有没有更好的思路。

特征提取用的啥算法，这块你先看懂，完了用matlab还是opencv都差不多