所謂的網頁探勘(Web mining),主要就是利用文字或資料探勘(text/data mining)的技術,針對網頁的特性,自動從網頁上擷取、發掘出一些特徵與規律(pattern),並希望能應用在各個領域。
為何需要Web Mining?
Web Mining 從字面上來看,簡單的說就是從全球資訊網(WWW)的豐富資源中“採礦",挖掘出重要的資訊。隨Web快速的成長,世界各地的使用者,根據他們所關心的主題,持續不斷地加入並更新各式各樣的內容,並以網頁的形式整理資料。目前全球被搜尋引擎所索引(index)的網頁,已經超過42億頁,這只是冰山的一角,並不包括沒有被收錄的部分。因此,它已經是世界上最龐大的動態知識來源了。然而,如何從這麼豐富的網頁資源中擷取、並分析出有用的資訊則是目前主要的研究課題之一。......