據運營。持續運營、持續迭代。
中臺建設需要有全員共識,由管理層從上往下推進,由技術和業務人員去執行和落地是一個漫長的過程,在實施數據中臺時,最困難的地方就是需要有人推動。
數據湖的理解?
數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。
數倉最重要的是什么?
個人認為是數據集成。
企業的數據通常是存儲在多個異構數據庫中的,要進行分析,必須先要對數據進行一致性整合。
集成整合后才可以對數據進行分析、挖掘數據潛在的價值。
概念數據模型、邏輯數據模型、物理數據模型
概念數據模型設計與邏輯數據模型設計、物理數據模型設計是數據庫及數據倉庫模型設計的三個主要步驟。
概念數據模型CDM
概念數據模型是最終用戶對數據存儲的看法,反映了最終用戶綜合性的信息需求,以數據類的方式描述企業級的數據需求。
概念數據模型的內容包括重要的實體與實體之間的關系。在概念數據模型中不包含實體的屬性,也不包含定義實體的主鍵
概念數據模型的目標是統一業務概念,作為業務人員和技術人員之間溝通的橋梁,確定不同實體之間的最高層次的關系
邏輯數據模型LDM
邏輯數據模型反應的是系統分析設計人員對數據存儲的觀點,是對概念數據模型的進一步的分解和細化。邏輯數據模型是根據業務規則確定的,關于業務對象、業務對象的數據項以及業務對象之間關系的基本藍圖。
邏輯數據模型的內容包括所有的實體和關系,確定每個實體的屬性,定義每個實體的主鍵,指定實體的外鍵,需要進行范式化處理。
邏輯數據模型的目標是盡可能詳細的描述數據,但并不考慮在物理上如何實現。
物理數據模型PDM
物理數據模型是在邏輯數據模型的基礎上,考慮各種具體的技術實現因素,進行數據庫體系結構設計,真正實現數據在數據庫中的存放。
物理數據模型的內容包括確定所有的表和列,定義外鍵用于確認表之間的關系,基于用戶的需求可能要進行反范式化等內容。
SCD的常用處理方式?
slowly changing dimensions緩慢變化維度
不記錄歷史變化信息添加列來記錄歷史變化新插入數據行,并添加對應標識字段來記錄歷史數據。拉鏈表。元數據的理解?
狹義來講就是用來描述數據的數據
廣義來看,除了業務邏輯直接讀寫處理的業務數據,所有其他用來維護整個系統運轉所需要的數據,都可以較為元數據。
定義:元數據metadata是關于數據的數據。在數倉系統中,元數據可以幫助數據倉庫管理員和數據倉庫開發人員方便的找到他們所關心的數據;元數據是描述數據倉庫內部數據的結構和建立方法的數據。按照用途可分為:技術元數據、業務元數據。
技術元數據
存儲關于數據倉庫技術細節的數據,用于開發和管理數據倉庫使用的數據
數據倉庫結構的描述,包括數據模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容業務系統、數據倉庫和數據集市的體系結構和模式由操作環境到數據倉庫環境的映射,包括元數據和他們的內容、數據提取、轉換規則和數據刷新規則、權限等。業務元數據
從業務角度描述了數據倉庫中的數據,他提供了介于使用者和實際系統之間的語義層,使不懂計算機技術的業務人員也能讀懂數倉中的數據。
企業概念模型:表示企業數據模型的高層信息。整個企業業務概念和相互關系。以這個企業模型為基礎,不懂sql的人也能做到心中有數多維數據模型。告訴業務分析人員在數據集市中有哪些維、維的類別、數據立方體以及數據集市中的聚合規則。業務概念模型和物理數據之間的依賴。業務視圖和實際數倉的表、字段、維的對應關系也應該在元數據知識庫中有所體現。元數據管理系統?
元數據管理往往容易被忽視,但是元數據管理是不可或缺的。一方面元數據為數據需求方提供了完整的數倉使用文檔,幫助他們能自主快速的獲取數據;另一方面數倉團隊可以從日常的數據解釋中解脫出來,無論是對后期的迭代更新還是維護,都有很大的好處。元數據管理可以讓數據倉庫的應用和維護更加的高效。
元數據管理功能
數據地圖:以拓撲圖的形式對數據系統的各類數據實體、數據處理過程元數據進行分層次的圖形化展示,并通過不同層次的圖形展現。元數據分析:血緣分析、影響分析、實體關聯分析、實體差異分析、指標一致性分析。輔助應用優化:結合元數據分析功能,可以對數據系統的應用進行優化。輔助安全管理:采用合理的安全管理機制來保障系統的數據安全;對數據系統的數據訪問和功能使用進行有效監控。基于元數據的開發管理:通過元數據管理系統規范日常開發的工作流程元數據管理標準
對于相對簡單的環境,按照通用的元數據管理標準建立一個集中式的元數據知識庫
對于比較復雜的環境,分別建立各部分的元數據管理系統,形成分布式元數據知識庫,然后通過建立標準的元數據交換格式,實現元數據的集成管理。
數倉如何確定主題域?
主題
主題是在較高層次上將數據進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對企業中某一宏觀分析領域所涉及的分析對象。
面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯系。
主題是根據分析的要求來確定的。
主題域
從數據角度看(集合論)
主題語通常是聯系較為緊密的數據主題的集合。可以根據業務的關注點,將這些數據主題劃分到不同的主題域。主題域的確定由最終用戶和數倉設計人員共同完成。
從需要建設的數倉主題看(邊界論)
主題域是對某個主題進行分析后確定的主題的邊界。
數倉建設過程中,需要對主題進行分析,確定主題所涉及到的表、字段、維度等界限。
確定主題內容
數倉主題定義好以后,數倉中的邏輯模型也就基本成形了,需要在主題的邏輯關系中列出屬性和系統相關行為。此階段需要定義好數據倉庫的存儲結構,向主題模型中添加所需要的信息和能充分代表主題的屬性組。
如何控制數據質量?
校驗機制,每天進行數據量的比對 select 買粉絲unt(*),早發現,早修復
數據內容的比對,抽樣比對
復盤、每月做一次全量
如何做數據治理?
數據治理不僅需要完善的保障機制,還需要理解具體的治理內容,比如數據應該怎么進行規范,元數據該怎么來管理,每個過程需要那些系統或者工具來配合?
數據治理領域包括但不限于以下內容:數據標準、元數據、數據模型、數據分布、數據存儲、數據交換、數據聲明周期管理、數據質量、數據安全以及數據共享服務。
模型設計的思路?業務驅動?數據驅動?
構建數據倉庫有兩種方式:自上而下、自下而上
Bill Inmon推崇自上而下的方式,一個企業建立唯一的數據中心,數據是經過整合、清洗、去掉臟數據、標準的、能夠提供統一的視圖。要從整個企業的環境入手,建立數據倉庫,要做很全面的設計。偏數據驅動
Ralph Kimball推崇自下而上的方式,認為數據倉庫應該按照實際的應用需求,架子啊需要的數據,不需要的數據不要加載到數據倉庫中。這種方式建設周期短,用戶能很快看到結果。偏業務驅動
數據質量管理
數據質量管理是對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的數據質量問題,進行識別、度量、監控、預警等,通過改善了提高組織的管理水平使數據質量進一步提高。
數據質量管理是一個集方法論、技術、業務和管理為一體的解決方案。放過有效的數據質量控制手段,進行數據的管理和控制,消除數據質量問題,從而提高企業數據變現的能力。
會遇到的數據質量問題:數據真實性、數據準確性、數據一致性、數據完整性、數據唯一性、數據關聯性、數據及時性
什么是數據模型?
數據模型就是數據組織和存儲的方法,通過抽象的實體以及實體間聯系的形式來表達現實世界中事務的相互關系的一種映射,他強調從業務、數據存取和使用角度合理的存儲數據。
為什么需要數據倉庫建模?
數倉建模需要按照一定的數據模型,對整個企業的數據進行采集,整理,提供跨部門、完全一致的報表數據。
合適的數據模型,對于大數據處理來講,可以獲得得更好的性能、成本、效率和質量。良好的模型可以幫助我們快速查詢數據,減少不必要的數據冗余,提高用戶的使用效率。
數據建模進行全方面的業務梳理,改進業務流程,消滅信息孤島,更好的推進數倉系統的建設。
OLAP和OLTP的模型方法的選擇?
OLTP系統是操作事物型系統,主要數據操作是隨機讀寫,主要采用滿足3NF的實體關系模型存儲數據,在事物處理中解決數據的冗余和一致性問題。
OLAP系統是分析型系統,主要數據操作是批量讀寫,不需要關注事務處理的一致性,主要關注數據的整合,以及復雜大數據量的查詢和處理的性能。
3范式
每個屬性值唯一,不具有多義性
每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分
每個非主屬性不能依賴于其他關系中的屬性
數據倉庫建模方法?
有四種模型:ER模型、維度模型、Data Vault模型、Anchor模型。用的較多的是維度模型和ER模型。
ER模型
ER模型用實體關系模型描述企業業務,在范式理論上滿足3NF。數倉中的3NF是站在企業角度面向主題的抽象,而不是針對某個具體業務流程的實體對象關系的抽象。
采用ER模型建設數據倉庫模型的出發點是整合數據,將各個系統中的數據按照主題進行相似性整合,并進行一致性處理。
ER模型特點:
需要全方位了解企業業務數據
實施周期較長
對建模人員要求教高
維度建模
維度建模按照事實表和維度表來構建數倉。
維度建模從分析決策的需求出發構建模型,為分析需求服務。重點關注用戶如何快速的完成數據分析,可以直觀的反應業務模型中的業務問題,需要大量的數據預處理、數據冗余,有較好的大規模復雜查詢的響應性能。
事實表
發生在現實世界中的操作性事件,其產生的可度量數值,存儲在事實表中。從最細粒度級別來看,事實表的一行對應一個度量事件。事實表表示對分析主題的度量。
事實表中包含了與各個維度表相關聯的外鍵,可與維度表關聯。事實表的度量通常是數值類型,且記錄數不斷增加,表數據量迅速增長。
維度表
維度表示分析數據時所用的環境。
每個維度表都包含單獨的主鍵列。維度表行的描述環境應該與事實表行完全對應。維度表通常比較寬,是扁平型的非規范表,包含大量的低粒度的文本屬性。
注意:
事實表的設計是以能夠正確記錄歷史信息為準則
2024-07-20 19:53
2024-07-20 19:51
2024-07-20 19:36
2024-07-20 18:36
2024-07-20 18:23
2024-07-20 18:22