OLAP技術(shù)的分析
- 期刊名字:福州大學(xué)學(xué)報
- 文件大小:784kb
- 論文作者:蔣秀鳳
- 作者單位:福州大學(xué)數(shù)學(xué)系
- 更新時間:2020-09-25
- 下載次數(shù):次
第30卷第4期福州大學(xué)學(xué)報(自然科學(xué)版)Vol. 30 No.42002年8月Joumnal of Fuzhou University( Natural Science )Aug. 2002_文章編號:1000- 2243( 2002 )04 - 0507 - 03OLAP技術(shù)的分析蔣秀鳳(福州大學(xué)數(shù)學(xué)系,福建福州350002 )摘要:介紹了0LAP的概念, OLAP的分類, ROLAP和MOLAP的比較分析, OLAP與數(shù)據(jù)倉庫的關(guān)系,OLAP工具的評估,流行的OLAP工具,為提高OLAP的性能可以采用星型模式組織數(shù)據(jù)、采用索引技術(shù)、大的數(shù)據(jù)表分片為許多小表、維的逆規(guī)范化、構(gòu)建概要表、采用并行查詢技術(shù).關(guān)鍵詞:數(shù)據(jù)倉庫;OLAP ;OLTP ; ROLAP ; MOLAP中圖分類號:TP311.13文獻標(biāo)識碼:ASimple discussion on OLAP technologyJIANG Xiu- feng .( Department of Mathematics , Fuzhou University , Fuzhou , Fujian 350002 , China)Abstract : This paper introduces the concept of OLAP , classes of OLAP , comparison and analysis ofROL AP and MOL AP , relations between OLAP and data warehouse , evaluation of OLAP kits , prevalentOLAP Kits. To raise the performance of OLAP , one may employ star - patterm mode to organize data ,employ index technic , divide large datasheet to many small datasheet , normalize dimension inversely ,construct summary sheet , employ parellel inquiry technic.Keywords : data warehouse ; OLAP ; OLTP ; ROLAP ; MOLAPOLAP代表聯(lián)機分析處理,是一種用于對大容量數(shù)據(jù)歸總與分析的技術(shù),最早由Codd E F于1993年提出.當(dāng)時,Codd認(rèn)為聯(lián)機事務(wù)處理(0LTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求.用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求.因此, Codd提出了OLAP.絕大多數(shù)的數(shù)據(jù)倉庫專家都同意這樣的觀點:OLAP應(yīng)具有多維性、可鉆取性、可旋轉(zhuǎn)性、以及多視圖模式.1 OLAP 的分類及比較OLAP的數(shù)據(jù)存儲方式可以分為關(guān)系型聯(lián)機分析處理( ROLAP )和多維聯(lián)機分析處理( MOLAP )兩種類型.1)ROLAP-般比MOLAP響應(yīng)速度慢,但數(shù)據(jù)裝載速度比MOLAP快.ROLAP維數(shù)一般沒有限制,現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用,可以通過SQL實現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的儲存,支持?jǐn)?shù)據(jù)的動態(tài)連接和通用數(shù)據(jù)的更新處理.現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展等大大提高了ROALP的速度,可以針對SMP或MPP的結(jié)構(gòu)進行查詢優(yōu)化. ROLAP維護復(fù)雜,只讀、不支持有關(guān)預(yù)算的讀寫操作, SQL .無法完成多行和維之間的計算.中國煤化工2) MOLAP性能好、響應(yīng)速度快,數(shù)據(jù)裝載速度比ROI.JHCNMHGt ,維護簡單,如果已知數(shù)據(jù)的訪問模式, 則數(shù)據(jù)的結(jié)構(gòu)可以優(yōu)化.支持復(fù)雜的肟細(xì)訂異、3用廠的讀寫操作、行級的計算.信息是以數(shù)組形式存放的,可以在不影響索引的情況下更新數(shù)據(jù), 較適合于讀寫應(yīng)用.不足之處在收稿日期:2002-03- 18作者簡介:蔣秀鳳( 1963- ),女, 碩士,副教授.508●福州大學(xué)學(xué)報(自然科學(xué)版)第30卷于系統(tǒng)復(fù)雜度、培訓(xùn)與維護費用增加;受操作系統(tǒng)平臺中文件大小的限制,難以達到TB級;維數(shù)有限,需要進行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸;無法支持維的動態(tài)變化,缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn),不支持通用的更新處理;對數(shù)據(jù)的動態(tài)連接的支持是有問題的,如果對路徑的訪問不被數(shù)據(jù)設(shè)計所支持的話,這種結(jié)構(gòu)就顯得不靈活.對這兩種技術(shù)的選擇,應(yīng)視具體情況取決于實際應(yīng)用范疇.建立大型的、功能交錯的企業(yè)級數(shù)據(jù)庫,選擇ROLAP為宜;而建立具有明確定義的、單一的分析型數(shù)據(jù)集市,維數(shù)相對少,也不太需要詳細(xì)的、原子級的數(shù)據(jù),那么選擇MOLAP較合適.2 OLAP與數(shù)據(jù)倉庫OLAP數(shù)據(jù)庫與數(shù)據(jù)倉庫之間的關(guān)系是互補的.一般情況下,數(shù)據(jù)倉庫作為OLAP的基礎(chǔ),從中選出細(xì)節(jié)數(shù)據(jù)的- -個子集傳到0LAP數(shù)據(jù)庫中,進行數(shù)據(jù)的匯總或聚集.數(shù)據(jù)倉庫能容納細(xì)節(jié)數(shù)據(jù),OLAP數(shù)據(jù)庫保存的是各種輕度綜合的數(shù)據(jù),DSS分析員還可向下鉆取到數(shù)據(jù)倉庫的細(xì)節(jié)級,而0LAP數(shù)據(jù)庫中的匯總數(shù)據(jù)也被存儲在數(shù)據(jù)倉庫中.數(shù)據(jù)定期從數(shù)據(jù)倉庫中導(dǎo)入到OLAP數(shù)據(jù)庫中,由于操作型環(huán)境的數(shù)據(jù)進入到數(shù)據(jù)倉庫時已被集成,因此OLAP數(shù)據(jù)庫就不用從操作型環(huán)境中抽取與集成數(shù)據(jù).數(shù)據(jù)倉庫與OLAP數(shù)據(jù)庫的區(qū)別是:①數(shù)據(jù)倉庫存有大量的數(shù)據(jù), OLAP數(shù)據(jù)庫中的數(shù)據(jù)至少要少一個數(shù)量級;②數(shù)據(jù)倉庫只適于少量的靈活訪問,OLAP數(shù)據(jù)庫適合大量的非預(yù)知的訪問和分析;③數(shù)據(jù)倉庫存儲很長時間范圍內(nèi)的數(shù)據(jù)(5~10年),OLAP數(shù)據(jù)庫中存儲著較短時間范圍內(nèi)的數(shù)據(jù);④數(shù)據(jù)倉庫允許分析人員以受限的形式訪問數(shù)據(jù),OLAP數(shù)據(jù)庫允許自由的訪問;⑤數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù),而0LAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息.此處,OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系.0LAP技術(shù)中比較典型的應(yīng)用是對多維數(shù)據(jù)的切片和切塊、鉆取、旋轉(zhuǎn)等, 它便于使用者從不同角度提取有關(guān)數(shù)據(jù). OLAP技術(shù)還能夠利用分析過程對數(shù)據(jù)進行深入分析和加工2].3 OLAP工具的評估當(dāng)前, 0LAP工具的銷售商很多, 所提供的工具也很多.這些工具應(yīng)具備以下幾條基本特性:必須能夠?qū)?shù)據(jù)進行鉆取、必須能夠在維之間進行切換、允許改變你所顯示數(shù)據(jù)的外觀.選擇0LAP工具時應(yīng)該注意的一些因素是:實際應(yīng)用情況、用戶需求、OLAP的開發(fā)情況、產(chǎn)品在管理方面所具有的特點、性能和適應(yīng)性的比較以及數(shù)據(jù)倉庫設(shè)計.流行的OLAP工具有: Oracle公司的Oracle Express , Congnos的PowerPlay , Microstrategy公司的DSSAgent , CA公司的InfoBeacon , Hyperion公司的Essbase , SAS , IBM公司的DB2 OLAP Server , Informix公司的Metacube , Sybase公司的Power dimension , Microsoft公司的Plato , Brio , Business Object 公司的Busines-sObjects , Decision Suite.4 OLAP 性能的提高1對于ROLAP以星型模式組織數(shù)據(jù),可以非常直觀地描述多維數(shù)據(jù)的結(jié)構(gòu).由于維表中數(shù)據(jù)有限而事實表中的數(shù)據(jù)龐大,在多維數(shù)據(jù)進行OLAP操作時,應(yīng)先對維表進行操作,后處理事實表以提高效率.對于MOLAP物理結(jié)構(gòu)采用多立方結(jié)構(gòu),計算利用超立中國煤化工方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性,多立方結(jié)構(gòu)靈活性較大,但YHCNMHGg立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量.2 )索引技術(shù).為提高效率,在進行多表連接時, 可利用連接索引,不必進行真正的join 運算, 就能找到符合條件的記錄.采用新的索引技術(shù)建立索引,在0racle8或Red Brick之類的數(shù)據(jù)庫中,位圖索引更合適.用于連接的列索引,尤其是唯-的索引或維鍵的主要限制,可以提高被請求數(shù)據(jù)的返回速度.第4期蔣秀鳳:0LAP技術(shù)的分析509●應(yīng)該為每-個事實表在組合的維列創(chuàng)建一個索引.在可能之處使用簡潔的聯(lián)合鍵.在只能通過被索引列在維和立方體的方案中連接表.采用簇類索引可確??焖俚男袡z索和更新. Bit- Wise索引將所有的數(shù)據(jù)和值用特殊的二進制結(jié)構(gòu)表示,可以高速進行訪問、匯總、分組和比較操作, 可以管理各種各樣的數(shù)據(jù)類型,能夠?qū)﹃P(guān)系型數(shù)據(jù)做快速動態(tài)的聚集計算以及按范圍搜索.采用低取值度的位圖技術(shù)允許對記錄做快速統(tǒng)計和過濾.3數(shù)據(jù)分區(qū)技術(shù).數(shù)據(jù)分區(qū)是另一個決定數(shù)據(jù)倉庫伸縮性的設(shè)計因素.將大的數(shù)據(jù)表分片為許多小表.對于包含大量數(shù)據(jù)的事實表,可以按維進行必要的劃分,然后將事實表數(shù)據(jù)進行分布存儲.數(shù)據(jù)倉庫環(huán)境中的大量查詢的選擇都和維數(shù)據(jù)相關(guān),這樣事實表數(shù)據(jù)按維進行分布后,將能提高查詢的并行性,從而提高系統(tǒng)的性能.采用分區(qū)可以提高數(shù)據(jù)的修剪效率.另外,加載數(shù)據(jù)最快的方法就是將數(shù)據(jù)加載至空表或沒有索引的表,通過加載至較小的分區(qū)表,漸變加載進程的效率將會大大提高,這對更新已經(jīng)存在的數(shù)據(jù)倉庫特別有用.4)在必要時還可用到另--種技術(shù),維的逆規(guī)范化,可以提高性能,它是關(guān)系型數(shù)據(jù)庫的反面技術(shù),但千萬要小心謹(jǐn)慎才行.5 )構(gòu)建概要表.數(shù)據(jù)倉庫經(jīng)常會包含一些概要表,聚集導(dǎo)航器是用來自動為每個查詢選擇最佳表的一個軟件部件,最佳表可被定義為能夠回答用戶請求的最小可用表.雖然在原子級的表上就可以運行所有的查詢,但創(chuàng)建概要表的目的是為了提高查詢的性能.將聚集導(dǎo)航器與聚集表結(jié)合起來可以提高查詢的性能.6)并行技術(shù).隨著數(shù)據(jù)量的增長,單機系統(tǒng)資源難以滿足應(yīng)用的需要,有必要進行并行數(shù)據(jù)倉庫的研究,以提高0LAP性能.目前的主要問題是數(shù)據(jù)倉庫中數(shù)據(jù)的分布存儲、海量數(shù)據(jù)的并行載入、0LAP查詢處理的并行化和數(shù)據(jù)倉庫環(huán)境下的并行查詢優(yōu)化3].已有的數(shù)據(jù)分布方法主要有- 維數(shù)據(jù)分布、多維數(shù)據(jù)分布和某些傳統(tǒng)物理存儲數(shù)據(jù)結(jié)構(gòu)的并行化.設(shè)計海量數(shù)據(jù)的載入算法.如考慮數(shù)據(jù)的增量更新問題,對原始數(shù)據(jù)處理后,不直接存入數(shù)據(jù)倉庫,而是存入臨時庫, 待處理結(jié)束后再批量載入數(shù)據(jù)倉庫.采用ROLAP技術(shù)實現(xiàn)查詢最耗費系統(tǒng)資源的基本數(shù)據(jù)操作是多表連接和聚集操作.應(yīng)研究這兩種基本操作的并行算法,以提高OLAP的效率.在數(shù)據(jù)倉庫的并行查詢優(yōu)化方面還應(yīng)研究查詢處理時對現(xiàn)有存儲結(jié)構(gòu)的有效利用,如選擇各種索引來提高效率以及在各節(jié)點間有效地傳輸數(shù)據(jù).還可采用并行實用程序(包括排序、建立索引、備份、恢復(fù)和加載)提高數(shù)據(jù)的可用性、采用異步預(yù)讀取功能提高查詢速度、采用可調(diào)的大塊I/0技術(shù)通過減少物理I/0來改善性能.并行的備份和加載技術(shù)提供對大數(shù)據(jù)容量的支持并在備份期間給予并發(fā)用戶對數(shù)據(jù)庫的讀訪問.7 )侈維緩存技術(shù).多用戶、多維緩存是性能與用戶可擴展性的關(guān)鍵需求.由于大多數(shù)的請求很少能夠確切符合報表的內(nèi)容"緩存”資源將會變得不足.為最大限度的使用資源,必須在查詢與會話之間和多用戶之間共享緩存,同時為了使其具備最大限度的靈活性,緩存既支持動態(tài),也支持靜態(tài).8)存儲與計算技術(shù).改寫資源密集型的計算,對一個大集合的運算分解為-組小集合的運算,如將多維的和運算改寫為單維和的求和運算,將比單獨計算連接的和要占用更少的資源,獲得更好的性能4].通常,數(shù)據(jù)庫存儲在硬盤上,但為了獲得更高的性能,某些產(chǎn)品允許多維數(shù)據(jù)結(jié)構(gòu)存儲在RAM上.有些數(shù)據(jù)被提前計算,計算結(jié)果以數(shù)組形式進行存儲.事中國煤化工要在數(shù)據(jù)存儲位置上進行.即使活動的OLAP數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,采用在THCN MH的多維計算也不是較好的選擇.因為SQL的單語句并不具備完成多維計算的能力,要獲得哪怕是最普通的多維計算功能也需要多重sQL.可用SQL做一些計算, 然后將計算結(jié)果作為多維引擎輸入.多維引擎在客戶機或中層服務(wù)器上做大部分的計算工作, 這樣就可以利用RAM來存儲數(shù)據(jù), 提高響應(yīng)速度.(轉(zhuǎn)第513頁)第4期陳曉云,等:分布數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘513●同理可得場地2的頻繁集{I214 :2)},場地3的頻繁集{I1 I3:3),(I1 12:2),(I1 I2 I3:2),( 12I3):4}.2 )全局頻繁集的生成.全局最小支持度計數(shù)為40% x15=6.場地1的頻繁項集( I2 I3 :2 )在場地3中也出現(xiàn),支持度計數(shù)求和后為6,等于全局最小支持度計數(shù),因此是全局頻繁的.而其它候選項集(I1I5 :2),(I2I4:2),I1 I3:3),(I1 12:2).(11 12 I3 :2 )的支持?jǐn)?shù)均小于全局最小支持度計數(shù),因此是全局非頻繁的,雖然它們是局部頻繁的.得到全局頻繁集L ={(I2 I3 :6)}.3 )由全局頻繁集產(chǎn)生關(guān)聯(lián)規(guī)則. {I2 I3 }的非空子集為{I2},{l3}.因為I2. count=4+2+4= 10,I3.coumt=2+2+5=9.所以, 213.coum= 6/10= 60% < 65%. 1213 . count=6/9=66.7% > 65%.得到滿足最I(lǐng)2. countI3. count小置信度閾值的關(guān)聯(lián)規(guī)則: I3=12.confdence = 66.7% .參考文獻:[1] Jiawei Han , Micheline Kamber. Data mining concept and technique[ M].北京:高等教育出版社,2001.[2]周海巖.關(guān)聯(lián)規(guī)則的開采與更新J]軟件學(xué)報,1999 ,100 10):1 078- 1084.[3] 趙亮,王培康.關(guān)聯(lián)規(guī)則發(fā)現(xiàn):綜述J]. 計算機工程與應(yīng)用,2001 , 378):94-96.[4]朱紹文,王泉德,黃浩,等.關(guān)聯(lián)規(guī)則挖掘技術(shù)及發(fā)展動向[J]計算機工程,2000 269):4-6.(接第509頁)SMP/共享采用共享”的體系結(jié)構(gòu),降低諸如元數(shù)據(jù)、緩存、隊列和數(shù)據(jù)庫連接等對象所消耗的資源.共享的體系結(jié)構(gòu)以確證所有的用戶可透明地共享服務(wù)器對象.這樣,當(dāng)用戶數(shù)量在不斷增加時就不會過重的加大對系統(tǒng)的負(fù)擔(dān).采用縱向數(shù)據(jù)存儲技術(shù),這種存儲方法使查詢僅僅觸及所需要的字段或列,會減少磁盤I/O,全表掃描和所有列的觸及被有效地防止了.采用垂直的數(shù)據(jù)存儲可減少磁盤I/O高達98%,消除表掃描并提供高達100倍以上的查詢響應(yīng).另外,優(yōu)秀的壓縮技術(shù)使數(shù)據(jù)只占到傳統(tǒng)數(shù)據(jù)庫規(guī)模的20%.[ 1] Michael J Corey , Michael Abbey , Lan Abramson ,et al. Oracle 8數(shù)據(jù)倉庫分析、構(gòu)建實用指南M].陳越,郭淵博,張紅旗譯.北京:機械工業(yè)出版社,2000. 275 -287.[2] Inmon W H.數(shù)據(jù)倉庫M]王志海譯.北京:機械工業(yè)出版社, 2000. 104- 109.[3]蔣旭東,馮建華,周立柱.并行數(shù)據(jù)倉庫的研究J]. 計算機科學(xué),2001 ,283):1-3.[4] Erick Thomsen , George Spofford , Dick Chase. Microsoft OLAP解決方案[ M]瀟湘工作室譯.北京:人民郵電出版社,2000. 259- 281.中國煤化工MYHCNMHG
-
C4烯烴制丙烯催化劑 2020-09-25
-
煤基聚乙醇酸技術(shù)進展 2020-09-25
-
生物質(zhì)能的應(yīng)用工程 2020-09-25
-
我國甲醇工業(yè)現(xiàn)狀 2020-09-25
-
石油化工設(shè)備腐蝕與防護參考書十本免費下載,絕版珍藏 2020-09-25
-
四噴嘴水煤漿氣化爐工業(yè)應(yīng)用情況簡介 2020-09-25
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-09-25
-
甲醇制芳烴研究進展 2020-09-25
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進展 2020-09-25




