、數據預處理、分布式存儲、數據庫、數據倉庫、機器學習、并行計算、可視化等。
1、數據采集與預處理:FlumeNG實時日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據;Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。
2、數據存儲:Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于數據存儲。HBase,是一個分布式的、面向列的開源數據庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL數據庫。
3、數據清洗:MapRece作為Hadoop的查詢引擎,用于大規模數據集的并行計算。
4、數據查詢分析:Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為一張數據庫表,并提供HQL(HiveSQL)查詢功能。Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
5、數據可視化:對接一些BI平臺,將分析得到的數據進行可視化,用于指導決策服務。
2024-07-18 16:26
2024-07-18 16:16
2024-07-18 14:52
2024-07-18 14:43
2024-07-18 14:33
2024-07-18 14:30