Yi-Hung Wu's Project

網頁取用記錄的資料探勘與應用

Data Mining and Applications based on Web-Page Access Logs

目前全球資訊網的蓬勃發展，所引發的網路塞車現象，已成為急劇增加的網路使用人口，減低使用興趣與頻率的最主要因素；也是各大網站以豐富資訊吸引讀者的同時，亟待解決的優先課題。這種現象的成因可以從兩個觀點歸納之：

一、資訊提供者（Information Provider）

由於各行各業看好網際網路充滿無限商機，紛紛投入資金於全球資訊網的架設與維護，再加上多媒體資訊展示的盛行，導致龐大的資訊內容充斥在各大網站上。更甚者，因為目前各網站缺乏有系統的架設與維護，往往會造成網站管理員非常沉重的工作負荷，以及網路使用效率的普遍低落。

二、資訊使用者（Information User）

隨著網路使用人口的大幅增加，人類社會中行為模式的多樣性，也造就了一個充斥著各種行為習性的資訊社會。因為取用資訊的行為直接會影響到整體網路使用效率，目前在全球資訊網上欠缺夠深入的瀏覽行為分析，更遑論應用這類分析結果來改善網路使用效率，或提昇資訊使用的品質。

基於上述兩點觀察，我們在本計畫中將以國家高速電腦中心所蒐集的豐富資料為樣本，透過資料索引、與資料探勘的技術，解決資訊提供者與使用者雙方可能面臨的困難，進而減輕網路上嚴重塞車的現象。就資訊提供而言，我們將探討一般大型網站在管理上的問題，並規劃可以有效管理大型網站的輔助工具或整合系統；在資訊使用方面，我們將分析網頁瀏覽的行為模式，藉此更進一步研擬預取網頁的可行方案。