FS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以后的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟件對它有依賴,對于我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql數據庫,因為一會裝hive的時候要用到,mysql需要掌握到什么層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的權限,修改root的密碼,創建數據庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用于把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對于會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警并能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL數據庫,他的數據是按照key和value的形式存儲的并且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用于大數據處理完成之后的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎么處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,并寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基于MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合做迭代運算,所以算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
鏈接:買粉絲s://pan..買粉絲/s/1wMgTx-M-Ea9y1IYn-UTZaA 提取碼:2b6c
課程簡介
畢業不知如何就業?工作效率低經常挨罵?很多次想學編程都沒有學會?
Python 實戰:四周實現爬蟲系統,無需編程基礎,二十八天掌握一項謀生技能。
帶你學到如何從網上批量獲得幾十萬數據,如何處理海量大數據,數據可視化及網站制作。
課程目錄
開始之前,魔力手冊 for 實戰學員預習
第一周:學會爬取網頁信息
第二周:學會爬取大規模數據
第三周:數據統計與分析
第四周:搭建 Django 數據可視化網站
......
可以參考下面的路徑去學習,祝你學有所成,公司最近在人工智能和自然語言處理的項目后端項目,我也是網上找了很多知識,最后給自己列了一個學習的目錄,按照這個在復習并在總結,希望能幫到你:
計算機基本認知,環境搭建 python環境搭建
計算機基本認識,進制轉換
python注釋使用
python變量使用
python數據類型_Number
python數據類型 str字符串類型
容器類型數據list,tuple,str
容器類型數據set,dict
變量緩存機制
自動類型轉換
Number強制類型轉換
python運算符的使用 容器類型數據強制類型轉換
字典強轉等長二級容器
運算符_算數_比較
運算符_賦值_成員
運算符_身份_邏輯
運算符_位運算_優先級
python流程控制 代碼塊
流程控制if
多項巢狀分支
循環結構while
循環判斷經典題
字符串的相關操作
python循環結構
關鍵字買粉絲ntinue_break_pass
for循環的遍歷_range
字符串,列表內置方法
字符串函數
format字符串格式化
format特殊符號的使用
列表的操作
列表函數
字典,集合內置方法+文件操作
字典的相關函數
集合操作_函數
文件操作
文件加號模式
函數,函數參數 文件相關函數
函數
形參實參
默認形參_關鍵字形參
收集參數
命名關鍵字參數
全局/局部變量,閉包 return返回值
函數名的使用
局部變量_全局變量
函數的嵌套LEGB
關鍵字nonlocal
閉包函數
遞歸,匿名函數
locals和globals
閉包特點意義
遞歸含義
斐波那契_尾遞歸
匿名函數lambda
迭代器,高階函數 迭代器
高階函數_map
高階函數_rece
高階函數_sorted
高階函數_filter
推導式 列表推導式
推導式題
集合_字典推導式
生成器表達式
生成器函數
內置方法,linux基本命令 內置函數
可滑動序列
面試題演練
linux安裝
linux基本命令
python模塊 序列化模塊
數學模塊
隨機模塊
time模塊
python模塊 os模塊
os_shutil
os.path模塊
計算文件夾大小
zipfile
tarfile
導入模塊包,oop面向對象認知
import_from絕對導入
import_from相對導入(單入口)
oop面向對象
類的封裝性
oop之封裝,繼承 類的相關操作
對象和類的刪除操作
單繼承
多繼承
菱形繼承
oop之多態,魔術方法 多態
魔術方法__new__
單態模式
析構方法__del__
oop之魔術方法,異常處理 魔術方法__call__
魔術方法__str__repr__
魔術方法__bool_add_len__
了解異常
異常處理語法
主動拋出異常
裝飾器
裝飾器
靜態綁定方法
property
正則表達式 單個字符匹配
多個字符匹配
匹配分組
命名分組
正則函數
正則計算器小程序
認識網絡 bs_cs流程
傳輸數據流程
交換機和局域網的網絡通訊
arp協議
認識tcp/udp協議
tcp基本語法
tcp循環發消息
udp基本語法
udp循環發消息
黏包
基于tcp協議下的應用 socketserver并發
文件校驗
服務器合法性校驗
tcp登錄
并發編程之進程 進程
join
守護進程
lock鎖
Semaphore
生產者消費者模型 Event事件
進程隊列Queue
生產者和消費者模型
JoinableQueue
Manager.py
并發編程之線程
.線程
用類定義線程
守護線程
lock保證線程數據安全
信號量_Semaphore
死鎖,互斥鎖,遞歸鎖
線程池,進程池,協成的使用
事件Event
線程隊列
進程池和線程池
回調
2024-07-23 05:50
2024-07-23 05:26
2024-07-23 05:18
2024-07-23 04:39
2024-07-23 04:12
2024-07-23 03:33