可以试一下:在带锁的文件上点击鼠标右键,选择 属性—安全—编辑—添加—高级—立即查找—您当前的用户名,然后点击确定。在权限控制里,将“完全控制”勾选,这样小锁就没有了
数据来源:
爬虫 日志采集系统 业务数据 财务系统
数据去向:
报表系统、用户画像、推荐系统、机器学习、风控系统
项目需求分析
① 数据采集平台搭建
② 实现用户行为数据仓库的分层搭建
③ 实现业务数据仓库的分层搭建
④ 针对数据仓库中的数据进行,留存、转化率、GMV(每天交易额)、复购率、活跃等报表行为;
项目框架
技术选型
采集:
方式一: log日志—>flume—>kafka(API)—>hdfs; 方式二: Logstash(读取日志)–>ELK(存储查询)全文检索引擎-sqoop
DataX导数据; mysql->sqoop
存储:mysql(存储业务–分析结果) ;ES(存、查都很快)<---->HBase(存快,分析慢); S3
计算:Tez(分析hive中指标)&hive; Flink–Spark
查询:Presto,Impala,Kylin
系统架构图:
日志文件| mysql数据表—>分别由flume| sqoop处理–> 分别交给–>kafka| HDFS
由Yarn统一调度
Hive| Presto负责数据查询;
Azkaban任务调度器
最后可视化展示;
系统数据流程:
Web/App埋点行为数据—>log日志服务器(友盟-第三方日志服务器)—>logFile格式->Flume生产–>kafka(kafka(相当于路由池)可以接实时数据、es等)–flume消费–>HDFS
业务交互–>mysql(业务服务器–>Nginx实现负载均衡)->sqoop–>>hdfs—>hive数仓–>把结果存储到mysql
框架版本选型
产品 版本
Hadoop 2.7.2
Flume 1.7.0
Kafka 0.11.0.2
Kafka Manager 1.3.3.22
Hive 1.2.1
Sqoop 1.4.6
MySQL 5.6.24
Azkaban 2.5.0
Java 1.8
Zookeeper 3.4.10
Presto 0.189
集群资源规划设计
服务器hadoop101 服务器hadoop102 服务器hadoop103
HDFS NameNode DataNode DataNode
DataNode SecondaryNameNode
Yarn NodeManager Resourcemanager NodeManager
NodeManager
Zookeeper Zookeeper Zookeeper Zookeeper
Flume(采集日志) Flume Flume
Kafka Kafka Kafka Kafka
Flume(消费Kafka) Flume
Hive Hive
MySQL MySQL
Presto Presto