需要是發明之母。
近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用, 并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包 括商務管理、生產控制、市場分析、工程設計和科學探索等。
數據挖掘是信息技術自然進化的結果。進化過程的見證是數據庫工業界開發以下功能(圖 1.1): 數據收集和數據庫創建,數據管理(包括數據存儲和提取,數據庫事務處理),以及數據分析與理 解(涉及數據倉庫和數據挖掘)。例如,數據收集和數據庫創建機制的早期開發已成為稍后數據存 儲和提取、查詢和事務處理有效機制開發的必備基礎。隨著提供查詢和事務處理的大量數據庫系統 廣泛付諸實踐,數據分析和理解自然成為下一個目標。
自 60 年代以來,數據庫和信息技術已經系統地從原始的文件處理進化到復雜的、功能強大的數 據庫系統。自 70 年代以來,數據庫系統的研究和開發已經從層次和網狀數據庫發展到開發關系數 據庫系統(數據存放在關系表結構中;見 1.3.1 小節)、數據建模工具、索引和數據組織技術。此外, 用戶通過查詢語言、用戶界面、優化的查詢處理和事務管理,可以方便、靈活地訪問數據。聯機事 務處理(OLTP)將查詢看作只讀事務,對于關系技術的發展和廣泛地將關系技術作為大量數據的有效 存儲、提取和管理的主要工具作出了重要貢獻。
自 80 年代中期以來,數據庫技術的特點是廣泛接受關系技術,研究和開發新的、功能強大的數 據庫系統。這些使用了先進的數據模型,如擴充關系、面向對象、對象-關系和演繹模型。包括空間 的、時間的、多媒體的、主動的和科學的數據庫、知識庫、辦公信息庫在內的面向應用的數據庫系 統百花齊放。涉及分布性、多樣性和數據共享問題被廣泛研究。異種數據庫和基于 Internet 的全球 信息系統,如 WWW 也已出現,并成為信息工業的生力軍。
在過去的三十年中,計算機硬件穩定的、令人吃驚的進步導致了功能強大的計算機、數據收集
設備和存儲介質的大量供應。這些技術大大推動了數據庫和信息產業的發展,使得大量數據庫和信
息存儲用于事務管理、信息提取和數據分析。
現在,數據可以存放在不同類型的數據庫中。最近出現的一種數據庫結構是數據倉庫(1.3.2 小 節)。這是一種多個異種數據源在單個站點以統一的模式組織的存儲,以支持管理決策。數據倉庫 技術包括數據清理、數據集成和聯機分析處理(OLAP)。OLAP 是一種分析技術,具有匯總、合并 和聚集功能,以及從不同的角度觀察信息的能力。盡管 OLAP 工具支持多維分析和決策,對于深層 次的分析,如數據分類、聚類和數據隨時間變化的特征,仍然需要其它分析工具。