实际应用类似于搜索引擎的蜘蛛,基于swoole框架开发,主要适用于自建搜索引擎,前期通过人工进行模拟蜘蛛进行批量索引
流程:(仅用于理想状态下描述)
1.公司共50名员工,每人一个任务台并且每人负责一个领域的网站索引
2.每个员工都在以1秒添加3个索引URL的速度,添加索引任务,1秒内50个员工共创建150个url待爬取
3.系统爬取为异步,无需即时返回,异步爬取完成后写db log即可
swoole官方支持了swoole_http_client,优势是支持大量并发
而我的索引方式为get post并抓取返回内容,内容存txt文本 日志存mysql
有人能给提供一下技术性指点和建议么,谢谢
不知道你这个问题是否已经解决, 如果还没有解决的话: