我现在想将爬虫下来的数据存储到mysql中,想根据url来判断是否存在。如果存在就不插入,一开始数据量比较少还可以遍历查询,现在数据量大了,每次遍历查询都需要很久,这个能优化吗?减少我的sql查询时间
建立索引
你要考虑你的数据量是多大。如果非常大。那么我建议你用分区表
比如建哈希分区截取前N个字符作为分区键,这样数据可以平均分配到不同分区中。然后再建本地索引,这样可以极大的提升性能。比如1亿数据,那么这一亿数据会分配到N个分区中,每个分区的数据就不会太多。加上有本地索引,索引都会非常小。这样查询速度会非常快。