高 峰
(天津大學理學院物理系 天津 3000 72 )
“生物是物,生物有理”.物理學與生物學的相互促進由來已久,生物學曾為物理學啟示過能量守恒定律,而物理學也為生物學發展提供了大量的新思想和新工具[1].例如,奧地利物理學家、量子力學奠基人之一薛定諤 (Erwin Schr dinger)在《生命是什么——活細胞的物理學觀》一書中從能量、遺傳和信息的角度來探討生命奧秘,對生命的分子基礎、生命的熱力學基礎和生命的物理規律進行了思考,并提出了負熵、非周期性晶體等思想,為生物學的革命性發展奠定了基礎[2].熵是大學物理的重要教學內容,筆者在教學過程中結合自己的科研經歷,將熵概念在生物學中的應用進行了簡單介紹.
經典熱力學中關于熵的概念,最早由德國物理學家克勞修斯于1865 年提出,用來衡量熱力學過程的不可逆程度.克勞修斯通過熵的增量進行了定義,即熵的增量等于過程中吸收的熱量與溫度之比.因為熵和能在物理上都具有重要意義,而且關系密切,所以,克勞修斯在造詞時加了個前綴en,以便與能量energy這個詞相對應.而漢譯字是1923 年浙江大學的胡剛復教授在為來華講學的德國科學家普朗克(并非因提出能量子概念而獲得諾貝爾獎的普朗克)擔任翻譯時創造.他考慮到熵的定義為熱溫比,在數學上具有“商”的性質,而熱量、溫度又都與“火”有關,便創造了“熵”字.1877 年,玻爾茲曼提出了宏觀量熵S與無序度Ω(系統某一宏觀狀態所對應的微觀狀態的數目即熱力學概率)之間關系的玻爾茲曼熵公式,S∝l nΩ,后來普朗克把它寫成了等式S=kl nΩ,式中k是玻爾茲曼常數.玻爾茲曼的統計理論使我們對熵的微觀本質有了更為深刻的認識,即熵是系統內分子熱運動無序性或混亂程度的一種量度.在玻爾茲曼熵公式的基礎上,1943 年薛定諤引入了“負熵”的概念,并提出“生命賴負熵為生”的觀點.他認為,“負熵”就是取負號的熵,它本身是有序的一個量度.“負熵”概念的提出雖然引起過非議,但對填平物理學與生物學之間的鴻溝有著積極意義[3].
如今,熵不僅僅是一個重要的物理概念,在控制論、概率論、生命科學、天體物理等諸多領域都有重要應用.熵在不同學科中引申出更為具體的定義,并逐漸成為所在領域重要的參量.其中,信息熵的引入不僅為信息論和數字通信奠定了基礎,而且為熵概念的進一步泛化奠定了基礎.
1948 年,信息論的創始人香農 (Claude ElwoodShannon)發表了 《通信的數學原理》(AMathe-matical Theory of Communication)一文,提出了信息熵的概念,目前該文在學術谷歌的引用已超過6500 0次,成為香農的經典之作.假定有一事件可能有x1,x2,…,xN種結果,每一種結果出現的概率為P(xi),或簡寫為Pi,信息熵定義為

當對數以2為底時,單位是比特(bit),bit是二進制數字 (binary digit)的縮寫.
人類與其他生物基因組序列是大自然的偉大作品,它是用一種4字母組成的語言寫成的“天書”,大自然的奧秘就隱藏在這些厚厚的“天書”之中,而生物信息學正是解讀“天書”的鑰匙[4].對于由4字母組成的D NA序列,信息熵H可以表示為

這里a,c,g和t分別表示在D NA序列中堿基A,C,G和T的出現頻率.既然熵可以作為系統無序性大小的量度,當然也可以用來量化D NA序列的組成差異.考察一個由N個堿基組成的基因組序列.設n為整數,且2≤n≤N-1.對于給定的位置n,基因組序列被分為左右兩個子序列.計算兩個子序列的熵,考慮長度因素,若滿足該點分成的兩個子序列負熵之和取得最大值,那么,該點即為該序列中首先找到的組成分段點,將同樣的過程應用于產生的左右子序列,這就是D NA序列的熵分段算法.研究表明,在D NA序列中的確存在著堿基組成的突變點,且蘊含著明確的生物學意義.例如,在細菌和古菌基因組中,鏈堿基組成的突變點往往對應于復制起始或終止位點,而G C含量的突變點可能對應于水平轉移基因組島的整合位點等,因此,分段算法在生物學中有著廣泛的應用[4].我們證明由Z曲線導出的基因組序參數S=a2+c2+g2+t2也可作為量化D NA序列組成差異的度量[5].信息熵H和基因組序參數S關系復雜[6],但研究發現S和H 的相關系數幾乎為-1,這表明兩者成高度負相關,暗示S起到了某種“負熵”的作用[7].在基因組序參數S的基礎上,我們實驗室研發出計算基因組分段點的算法,可以有效地、高精度地計算基因組的分段點[8].
信息熵H和基因組序參數S高度負相關,可能是因為信息熵H和基因組序參數S都是α階Tsallis熵的特殊形式.Tsallis熵的定義如下[9]

如果α趨近于1,則T

sallis熵就退化為香農熵.如果α=2,公式(3)變成

H2(X)又被稱作Gini-Simpson指數,它和信息熵、Tsallis熵等還可以用來衡量生物物種多樣性(diversity).對于由4字母組成的D NA序列,公式(5)還可以有如下形式

可以看出,S與H2(X)對于四元字符序列存在線性關系,同時S具有明確的幾何意義[7].
基于谷歌搜索,可以得到更多熵在生物學,特別是生物信息學中的應用實例,如基于多元熵距離法的微生物基因預測方法,基于熵定量篩選差異甲基化區域軟件等.
物理學和生物學結合是自然科學發展中的重要趨勢,物理學思想在生物學中的應用能更好地促進生物學學科的發展.希望能通過熵概念在生物學,特別是生物信息學等相關交叉學科中應用的介紹,激發學生的學習興趣和求知欲,提高大學生的創新精神和實踐能力.
1 郝柏林.物理學和生物學 (上).物理,2003 ,32 (04 ):213 ~218
2 Erwin Schr dinger.What Is Life?The Physical Aspectof the Living Cell.London:Cambridge UniversityPress,1944
3 趙佩華.熵理論的幾個基本問題研究述評.系統辯證學學報,2000 ,8(1):85 ~89
4 張春霆.人與其他生物基因組若干重要問題的生物信息學研究.自然科學進展,2004 ,14 (12 ):1367 ~1374
5 Zhang Chun-Ting,Gao Feng,Zhang Ren.Segmentationalgorithm for DNA sequences.Phys Rev E,2005,72(4):041917
6 Zhang Yi.Relations between Shannon entropy andgenome order index in segmenting DNA sequences.PhysRev E,2009,79(4):041918
7 Zhang Chun-Ting, Zhang Ren. A nucleotidecomposition constraint of genome sequences.ComputBiol Chem,2004,28(2):149~153
8 Gao Feng,Zhang Chun-Ting.GC-Profile:a web-based toolfor visualizing and analyzing the variation of GC content in genomic sequences.Nucl Acids Res,2006,34 (W1):W686~W691
9 Tsallis Constantino.Possible generalization ofBoltzmann-Gibbs statistics.J Stat Phys,1988,52:479~487