关于python在架构的一些事情

我们公司准备做关于社交媒体和电商的一些数据采集,当然不涉及到隐私等问题。
因为公司后端全部是java的程序员,现在准备招python的,也有可能会外包。因为本人对技术这一块不是很了解,所以想关于我们自己的App数据这一块是否可以用python代替,比如app上的一些搜索数据。那么用python去采集这些数据,并进行分类、筛选、添加标签、去重、无用的数据下次不在采集等等,这些需求怎么在架构中设计。python能做到哪一步,在电商app做主要负责哪一块设计呢?
我提的问题和说法可能不太专业,有人能教一下。当然肯定不会让你百忙。

1、你们要采集的是自己的程序页面还是公开的。如果是自己的程序页面,前端埋点后后台获取数据。
2、如果你们是公开的页面,程序不是你们公司的,这种只能使用爬虫的方式,定点采集,根据页面的样式 或者接口 获取数据

现在很多网站都有反爬功能了,爬虫主要分为http和自动化两类,http速度快,但容易被反爬,对于加密方面的难度大,而且网站更新频率比较快。
自动化就容易,但爬取速度相对慢。如果技术不是很溜,建议用自动化实现。手机app可以用airtest,这个比appium简单。
如果对你有帮助,可以点击我这个回答右上方的【采纳】按钮,给我个采纳吗,谢谢