基于spark流处理,模拟数据,统计数据,分析数据。大致架构:python脚本产生模拟数据(数据源),flume采集数据并且缓存到kafka中存储,接着spark消费并处理kafka中的数据,将结果存放至hbase(底层是hdfs)中。最后将数据进行可视化编程,javaweb项目,使用了springboot框架和echarts。
请参考用户行为分析(spark)
基于sklearn的常用机器学习算法探究。
Contributions last year: 76
Max continuous contributions: 3
Recent contributions: 1
Commits, issues, and pull requests will appear on your contribution graph. Only when the email address used for the commits in local configuration is associated with your GitOSC account, the commits' contribution will be counted.