電子商務師考試內容:數據挖掘

來源:文萃谷 3.12W

當今數據庫的容量已經達到上萬億的水平(T)——1000,000,000,000個字節。在這些大量數據的背後隱藏了很多具有決策意義的信息,那麼怎麼得到這些“知識”呢?也就是怎樣通過一顆顆的樹木瞭解到整個森林的情況。下面yjbys考試網小編為大家分享了電子商務師考試內容:數據挖掘。

電子商務師考試內容:數據挖掘

計算機科學對這個問題給出的最新回答就是:數據挖掘。在“數據礦山”中找到藴藏的“知識金塊”,幫助企業減少不必要投資的同時提高資金回報,數據挖掘給企業帶來的潛在的投資回報幾乎是無止境的。世界範圍內具有創新性的公司都開始採用數據挖掘技術來判斷哪些是他們的最有價值客户、重新制定他們的產品推廣策略(把產品推廣給最需要的人),以用最小的花費創造最好的銷售。

  (1)數據挖掘的定義

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用户感興趣的知識;發現的知識要可接受、可理解、可運用;並不要求發現放之四海皆準的知識,僅支持特定的發現問題。

人們把原始數據看作是形成知識的源泉.就像從礦石中採礦一樣。原始數據可以是結構化的,如關係數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分佈在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用於信息管理、查詢優化、決策支持、過程控制等,還可以用於數據自身的維護。因此,數據挖掘是一門非常廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、並行計算等方面的學者和工程技術人員。

  (2)數據挖掘研究內容和本質

隨着數據挖掘與知識發現(Data Mining and Knowledge Discovery,簡稱 DMKD)研究逐步走向深入,數據挖掘和知識發現的研究已經形成了三根強大的技術支柱:數據庫、人工智能和數理統計。因此,數據庫中的知識發現( Knowledge discovery in database,簡稱 KDD )大會程序委員會曾經由這三個學科的權威人物同時來任主席。目前 DMKD 的主要研究內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量玩換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現以及網上數據挖掘等。數據挖掘所發現的知識最常見的有以下四類:

  ①廣義知識(Generalization)

廣義知識指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。

廣義知識的發現方法和實現技術有很多,如數據立方體、面向屬性的歸約等。數據立方體還有其他一些別名,如“多維數據庫”、“實現視圖”、“OLAP ”等。該方法的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,並將這些實現視圖儲存在多維數據庫中。既然很多聚集函數需經常重複計算,那麼在多維數據僅方體中存放預先計算好的結果將能保證快速響應,並可靈活地提供不同角度和不同抽象層次上的數據視圖。。另一種廣義知識發現方法是加拿大Simon Fraser大學提出的面向屬性的歸約方法。這種方法以類 SQL語言表示數據挖掘查詢,收集數據庫中的相關數據集,然後在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。

  ②關聯知識(Association)

它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。最為着名的關聯規則發現方法是wal提出的Apriori算法。關聯規則的發現可分為兩步:第一步是迭代識別所有的頻繁項日集,要求頻繁項目集的支持率不低於用户設定的最低值;第二步是從頻繁項目集中構造可信度不低於用户設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心,也是計算量最大的部分。

  ③分類知識(Classification & Clustering )

它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。最為典型的分類方法是基於決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法該方法先根據訓練子集(又稱為窗口)形成決策樹。如果該樹不能對所有對象給出正確的'分類,那麼選擇一些例外加入到窗口中,重複該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屬性,該分枝對應該屬性的某一可能值。最為典型的決策樹學習系統是ID3,它採用自頂向下不回溯策略,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴展,它們將分類領域從類別屬性擴展到數值型屬性。

數據分類還有統計、粗糙集(Rough Set)等方法。線性迴歸和線性辨別分析是典型的統計模型、為降低決策樹生成代價,人們還提出了一種區間分類器。最近也有人研究使用神經網絡方法在數據庫中進行分類和規則提取。

  ④預測型知識(Prediction )

它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。

目前,時間序列預測方法有經典的統計方法、神經網絡和機器學習等。 1968 年Box和jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,如自迴歸模型、自迴歸滑動平均模型、求和自迴歸滑動平均模型和季節調整模型等,進行時間序列的預測。由於大量的時間序列是非平穩的,其特徵參數和數據分佈隨着時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網絡預測模型,還無法完成準確的預測任務。為此,人們提出了基於統計學和基於精確性的再訓練方法,當發現現存預測模型不再適用於當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。也有許多系統藉助並行算法的計算優勢進行時間序列預測。

  ⑤偏差型知識(Deviation)

此外,還可以發現其他類型的知識,如偏差型知識(Deviation ) ,它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離羣值等。所有這些知識都可以在不同的概念層次上被發現,並隨着概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用户不同層次決策的需要。

  (3)數據挖掘的功能

數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能。

  ①自動預測趨勢和行為

數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手上分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用户,其他可預測的問題包括預報破產以及認定對指定事件最可能作出反應的羣體。

  ②關聯分析

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

  ③聚類

數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。。聚類技術主要包括傳統的模式識別方法和數學分類學。 20 世紀 80 年代初, Mchalski 提出了概念聚類技術,其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。

  ④概念描述

熱門標籤