數據挖掘概念與技術——讀書筆記(1)


原書第三版
Jiawei Han     Micheline Kamber     Jian Pei  著


第一章 引論

為什么進行數據挖掘

解決“數據豐富,但信息貧乏”的問題。
數據的爆炸式增長,廣泛可用,巨大數量  ——>   數據時代  ——>   需要功能強大和通用的工具,從海量數據中發現有價值的信息。

什么是數據挖掘

從數據中挖掘知識。

  • 數據清理(消除噪聲和刪除不一致的數據)
  • 數據集成(多種數據源可以組合在一起)
  • 數據選擇(從數據庫中提取與分析任務相關的數據)
  • 數據變換(通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式)
  • 數據挖掘(基本步驟,使用智能方法提取數據模式)
  • 模式評估(根據某種興趣度度量,識別代表知識的真正有趣的數據)
  • 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)
    書 引言 P5

可以挖掘什么類型的數據

  • 數據庫數據
    • 由一組內部相關的數據和一組管理和存取數據的軟件程序組成。
    • 關系數據庫是表的匯集(屬性—>字段或列,元祖—>記錄或行)。對象被唯一關鍵字標識,被一組屬性值描述。
  • 數據倉庫
    • 從多個數據源收集的信息儲存庫(例如分部遍布全世界的公司的數據庫)
      數據倉庫舉例  書P7
  • 事務數據
    • 每個記錄代表一個事務。
    • 包含一個唯一的事務標識號,以及一個組成事務的項。
      • 例如商場的第50條交易記錄,用戶購買了A,D,F這三件物品。
  • 其他類型的數據
    • 空間數據,超文本和多媒體數據……等等

可以挖掘什么類型的模式

  • 描述性(刻畫目標數據中數據的一般性質)
  • 預測性(在當前數據上做出歸納,以便進行預測)

類/概念描述:特征化與區分
數據特征化:目標類數據的一般特性或特征的匯總
數據區分:將目標類,與一個或多個可比較類進行比較。
                 例如:定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。

挖掘頻繁模式、關聯和相關性
頻繁模式:在數據中頻繁出現的模式。

  • 頻繁項集:頻繁在事務數據集中一起出現(顧客在小賣部總是一起買牛奶和面包)
  • 頻繁子序列:顧客先買數碼相機,再買內存卡。
  • 頻繁子結構

關聯分析(例如分析,哪些商品總是一起被購買)

  • “computer”=>“software”[1% , 50%] 表示所有事務的1%顯示計算機和軟件被同時購買。購買了計算機的人,有50%的可能性會選擇購買軟件。

相關性(相關聯的屬性-值對之間的統計相關性)

用於預測分析的分類和回歸

  • 分類:找出描述和區分數據類或概念的模型(或函數),預測類別標號。
  • 回歸:建立連續值函數模型,預測缺失的或難以獲得的數值數據值。

相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。

聚類分析
聚類分析:分析數據對象,而不考慮類標號。可以使用聚類產生數據組群的類標號。
—>“最大化類內相似性,最小化類間相似性”

離群點分析
異常挖掘。有時看做噪聲而丟棄,但是在比如欺詐檢測等應用中,罕見事件的出現,更令人感興趣。

所有模式都是有趣的嗎?

  • 易於被人理解
  • 在某種確信度上,對於新的或檢驗數據是有效的
  • 潛在有用的
  • 新穎的

客觀度量:支持度,置信度。公式  書P14

使用什么技術

書 P14

  • 統計學:例如建立分類或預測模型之后,統計假設檢驗來驗證模型
  • 機器學習:監督學習(基本上是分類的同義詞),無監督學習(本質上是聚類的同義詞),半監督學習,主動學習
  • 信息檢索:搜索文檔或文檔中信息的科學

面向什么類型的應用

商務智能、Web搜索、生物信息學、衛生保健信息學、金融、數字圖書館……

數據挖掘的主要問題

  • 挖掘方法
    • 新的知識類型、多維空間中的知識、跨學科、網絡環境下的挖掘能力、模式評估
  • 用戶交互
    • 結合背景知識
    • 表示和可視化,使知識更容易理解
  • 有效性與可伸縮性
  • 處理多種多樣的數據類型
    • 動態的、復雜的。
  • 數據挖掘與社會
    • 保護隱私
    • 社會影響

自己加油加油 笨鳥后飛也要飛呀飛


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com