公部門資料探勘分析應用

  隨著電腦技術的發展,資料的存儲量成倍增長,而海量資料分析方法的發展卻難以望其項背,資料探勘(Data Mining)技術就是在這樣的「資料海洋、知識荒漠」的情況下應運而生。公部門將可透過資料探勘技術的應用,爲民眾帶來更多的便利性,並且可獲得施政最直接的回饋(Feedback)。

資料探勘應用的最基本要件為在各類資料庫的建置、連結與資料的流通、整合,當被用以探勘的資料爲可辨識個人的資料;當政府資料庫或資料交換平台的使用者可透過探勘技術,將分散的個人片段生活紀錄加以整合、辨識屬性與分類進行資料剖繪(Profiling)時,資料探勘應用便成爲一項改善公部門行政效率的一大利器。國際間目前最受矚目的資料探勘應用計畫,當推美國國土安全部自911恐怖攻擊事件後推展的一系列邊境防禦措施:相關措施更擴及至對歐洲籍航空業者提交旅客資料之要求。國內勞保局亦運用資料探勘技術進行資料的比對,勞退新制實施後,退休準備金將由勞保局統一管理,勞保長期存在的低報投保薪資情況,將因退休金與勞保費一併匯入勞保局管理而「現形」,藉由雇主投保薪資和提撥退休準備金的工資標準作比較,讓短繳的黑數全部曝光。所以資料探勘分析是從海量的資料中發現潛在規律,提取有用知識的方法和技術,它不僅能分析現有的問題,也能預測未來的趨勢,且分析的結果易於理解與應用,因此一出現就得到各個領域的重視。

資料探勘是由電腦技術、人工智慧技術、統計技術等構成的一門新學科。它採用數學、統計、人工智慧、神經網路等領域的科學方法,運用如聚類分析、關聯分析、決策樹等技術,從大量資料中挖掘出隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供預測性決策支援的方法、工具和過程。

根據「跨行業資料探勘標準過程」,資料探勘的過程可以分成以下6個步驟:

  • 商業理解—從商業的角度了解專案的要求和最終目的,並把這些目的轉化成運用資料探勘方面的計畫及目標。
  • 資料理解—根據要求從資料庫中提取相關的資料,並對可用資料進行評估。
  • 數據預處理—主要對提取的資料加工,檢查資料的完整性和一致性,填補缺失的資料,處理噪音資料等,以達到建模要求。
  • 建立模型—運用資料探勘工具建立模型。
  • 評估—評估建立的模型,並具體考察得到的結果是否符合商業目的。
  • 部署—把發現的結果及認識過程組織成可讀文本形式,即撰寫資料探勘報告