2007年04月10日

什麼是資料倉儲(Data Warehouse)?

資料倉儲是商業智慧的基礎核心,
將企業內部及外部的大量資料,
經過擷取、轉換和載入後,
存入一大型資料庫,
以供其他資料分析技術如OLAP、資料探勘做資料分析用。

依據最早提出資料倉儲概念的W. H. Inmon之定義,
資料倉儲是一種以主題為導向(subject-oriented)、
具有整合性(integrated)、永久性(nonvolatile)、
隨時間而改變(time-variant)等特性的資料集合,
以支援管理階層的決策。

資料倉儲的資料模型設計以多維度資料模型為主流,
該模型通常以某種主題為中心,
透過維度(dimensions)和事實(facts)來定義組成。
維度代表某種主題的一種觀點(perspective)或一個實體(entity),
例如銷售時間、銷售地點,
彼此有關連的多個維度形成一個表,
稱為維度表(dimension table)。
事實是一種數值度量(numeric measures),
例如銷售量,針對某種主題而將多個事實形成一個表,
稱為事實表(fact table)。
多維度資料模型有三種常用的綱要(schema)設計:


1.星狀綱要(star schema):

中心為一事實表,
關連到多個維度表,
形成類似星狀的輻射樣式。
此時每一個維度表只有一個維度,
該維度表包含該維度的屬性集,
是最常使用的綱要。


2.雪花綱要(snowflake schema):

是星狀綱要的變形,
為了節省儲存空間將維度表做正規化(normalize),
但如此查詢就需要做連接(join)的動作,
會降低讀取資料的效率,
故使用上不如星狀綱要來得流行。

3.事實群集(fact constellation):

多個事實表一起共用維度表,
可以視為星狀綱要的一群集合,
對需要將多個主題一起分析的案例相當適合。


補充資料:
什麼是OLAP(On Line Analytical Processing)?
什麼是資料探勘(Data Mining)?

Posted by mobilab at 樂多Roodo! │17:10 │回應(0)引用(0)商業智慧
樂多分類:日記/一般 工具:編輯本文
Ads by Roodo! 

引用URL

http://cgi.blog.roodo.com/trackback/2981227