專題演講 日期:2005年11月24日

演講題目:資訊探勘在資訊熵之應用

演講者:中央警察大學 資訊管理研究所 吳國清 教授兼所長

內容:

  • 熵的定義
  • 資訊熵定義與關係
  • 資料探勘與資訊熵
  • 資訊熵之VBA程式範例介紹

  首先先介紹熵的定義,(1)根據大英簡明百科全書的說法,「熵」是:物質系統不能用於作功的能量的度量。熵是一種廣延量,即它的量值是由處於一定熱力學狀態下物質的量所決定。然而在多數非科技使用上,熵被認為是一個混亂和漫無目的系統的測量方式。(2)大學物理或工程教科書定義「熵」是:一個與外界沒有物質交換的封閉系統內的一熱力學狀態函數。(3)「熵」的微觀概念:首先,採用波茲曼(Ludwig Boltzmann)的微觀論來定義「熵」:假設 N 代表某一宏觀熱力學狀態所對應的微觀分子運動狀態數目,那麼該宏觀狀態下的「熵」與 N 的對數成正比。此一「熵」的微觀定義又與「克勞修斯對熵概念」不謀而合,通過這兩種定義下的熵的變化量是相同的,兩者所定義的熵的關念皆為:若系統可能存在的對應微觀分子運動狀態數目越多,表示我們對系統的詳細狀態越不確定,因此熵量也就增多。所以在此定義下「熵」往往被視為亂度或不確定度的測量。最早提出挑戰上述想法的是馬克斯威爾(James Clerk Maxwell),他提出一個有趣的難題來挑戰熱力學第二定律:根據克勞修斯對熵的定義,一個與外界完全隔絕的系統,它的「熵」只會增加,但假設我們在此一與外界完全隔絕的氣體容器內,加裝一堵設有一道活閂的隔間,由一「人」把守,此「人」有辦法測量氣體分子移動的速度,讓高速分子從某一方向通過活閂,低速分子只允許從另一方向通過活閂,最後會得到兩個溫度不一樣的氣體,而系統的「熵」也會減少。要破解此一難題,在現實世界中沒有「人」辦得到,能夠擔任把守活閂這一角色的只能說是一個妖精,我們姑且將它稱為馬克斯威爾小妖(Maxwell demon)。在馬克斯威爾的挑戰中,已經隱約看到了資訊與熵的關聯性,亦即「掌握資訊」是「降低系統熵」的重要關鍵。

  接著說明資訊熵的定義,資訊熵或信息熵的定義是:在信息理論中,對於事件發生產生針對一種失序、不確定性、乏晰等的度量。假設在甲、乙和丙三種試驗中對於A、B事件的發生機率各不相同,倘若甲試驗中A、B事件發生的機率各佔百分之五十的話,就試驗甲而言,很難斷定 A 和 B 中那個可能將會出現,所以其資訊熵最大(最不確定);若試驗乙中A事件發生的機率為百分之九十九而B事件發生的機率為百分之一,則就試驗乙而言,就很有把握地斷定是 A 將會出現,所以其資訊熵最小(最確定是A);若試驗丙中A事件出線的機率為百分之二十而B事件出線的機率為百分之八十的話,則就試驗丙而言,我們有把握B事件比較有可能出現,所以其資訊熵小(確定極可能是B)。由此可見,在不同的試驗中,其不確定性是有大有小的,試驗甲的不確定性就比試驗乙、丙來得大。熵就是用來描述不確定性大小的量度,熵越大,其不確定性也就越大。因此有名的熱力學學者路易士(Gilbert Newton Lewis)曾說:「熵的增加意味著資訊的流失,或者所獲得的資訊並不多,這是一主觀的概念,不過我們可以用不太主觀方式來表達它。」再來說明熵與資訊的關係,統計性熵是一種屬於對不確定性或未知狀況的機率度量;而資訊則是減少這個不確定性的一種度量。而學者薛農(Claude E. Shannon)利用類似「熵」的觀念來定義訊號傳輸中的資訊度量,稱之為「資訊熵」(Information Entropy) 。信息理論創始人Shannon它利用物理熱力學第二定律的熵概念,來導引一個重要概念:不確定程度或不確定性。例如,電報內容的每個字都由4位符號或字碼來組成的,在收信端尚未收到任何一個字碼之前,人們對它內容到底是什麼並不知道,但如果設法以計量方式去了解這個不確知程度有多少時,我們即在為這個傳遞信息找出了線索,同時機率概念也就自然產生。信息理指出,如果一個事件有n個等可能性的出現結果,那麼結果未出現前的不確定程度H與n的自然對數成正比,即有

  H = C ln n(C為常數)

  說明如下:一個電報碼從0到9共10個可能結果出現,不確定程度就是Cln10。當人們收到一個電報碼後,就可消除此一「不確定」。這種人們就可從消除了多少不確定程度的角度來定義出一個訊息(Message)中含有的信息量。Shannon把這種不確定程度H稱為信息熵或資訊熵,因此,便將「信息」這個詞引進了科學領域,並在定量化的過程中與物理學中的「熵」概念接軌。如此信息熵概念的建立已經為量度信息的多少找到了一個統一的科學的定量計量方法,同時也奠定了信息理論的基礎。

  接著說明資訊熵在資料探勘技術上的應用,第一點先說明事件的資訊熵理論,說明一個事件下的資訊熵的計算公式為何且該資訊熵可用以表示一個事件發生的亂度或失序度,並舉例說明了「極小化資訊」或「極大化熵」之意義。接著並說明了另一種擷取資訊熵的方法稱為屬性相關分析的技術,由於以上討論內容涉及許多數學計算公式與離散機率數學理論在此無法深入說明,不過演講者之講稿內有詳細的介紹與說明。接著以兩個資訊熵理論的實際範例來說明以上計算資訊熵之理論。最後,以展示資訊熵之VBA程式範例做結尾以便讓我們更深入瞭解資訊熵理論在資料探勘之實際應用的例子。

撰文:王聖閔