請輸入產品關鍵字:
郵編:200431
聯系人:王小姐
電話:021-56640936
傳真:021-33250231
手機:13122441390 15900755943
留言:發送留言
個性化:www.shifengsj.com
網址:www.shfeng-edu.com
商鋪:http://www.grannyfreesex.com/st236594/
士鋒生物基于基因表達譜的基因調控網絡研究模型
點擊次數:1628 發布時間:2014-2-19
基因表達存在組織特異性、細胞周期特異性和外界信號的響應特異性等特性,這些特異性都是由細胞內復雜而有序的調控機制實現的。對基因表達調控機制的研究具有非常重要的理論和應用價值,研究的目的是要回答以下問題:在特定的細胞轉態下,有哪些基因發生了表達?它們是通過何種方式被調控的?它們的表達量是多少?這些基因的產物對細胞的生理活動會產生什么影響?諸如這些問題的答案將揭示生命奧秘和指導臨床實踐,例如,可以通過測量基因的表達調控產物來診斷疾病、指導治療;可以人為干擾細胞的調控路徑來改變細胞的狀態等。基因表達調控的研究是后基因組時代的核心內容,是系統生物學的主要研究內容。基因表達的過程包括染色質結構改變和基因活化、轉錄、 mRNA 加工和轉運、翻譯和蛋白質修飾、 mRNA 降解等過程,這些過程的實現都是通過蛋白質與蛋白質、蛋白質與核酸的相互作用來實現的。因此,基因表達調控的研究可以歸結為物質之間相互作用以及物質的代謝過程,可以形成物質之間相互連接的網絡。如果抽象為數學問題,則可以用有向圖來表示,圖的頂點表示物質(蛋白質或核酸),邊表示為相互作用。對于每個頂點,有狀態的切換或者是物質濃度的變化,這種變化反映了網絡的動力學特性。對于穩定系統,每個頂點的狀態zui終可以達到相對平衡。作為網絡的整體特性可能是單穩態,或者是具有多個吸引子的混沌態。要了解細胞的基因表達調控過程,必須對細胞內的各類物質進行全面和系統的測量,根據各種物質的變化來構建復雜的調控網絡。但是,就目前的生物大分子測量技術而言,尚不能得到所有生物大分子和相關物質的這些數據。因此,要對生物學分子網絡進行研究,在現階段還存在數據缺乏的問題;同時,細胞內的基因、蛋白質等物質的數量非常大,要構建如此龐大的網絡對于網絡理論和計算性能也提出了挑戰。
DNA 微陣列的廣泛應用提供了海量的基因表達譜數據,即細胞內 mRNA 的相對或數量,反映了基因轉錄的調控機制,而基因轉錄在基因表達環節中起著非常重要的作用。基因在轉錄過程中,轉錄因子(蛋白質)與 DNA 的結合以激活基因的轉錄,而基因的表達產物有可能是轉錄因子,它又能激活或抑制其它基因的轉錄,如此繼續下去,就形成一個基因調控路徑 (gene regulatory pathway) 。一條路徑中的基因在表達水平上存在某種相關性,例如受同一個轉錄因子調控的基因往往是共表達的,這些生物學原理可以用于指導基因調控路徑的構建。從表達譜數據出發,可以建立基因相互作用的網絡模型,這種方法也稱反向工程 (reverse engineering) , 如圖 8.8 所示 。zui常用的基因調控網絡模型是 Boolean 網絡、連續模型、線性組合模型、加權矩陣模型、互信息關聯模型等。
讀作“如果 A 基因表達,并且 B 基因不表達,則 C 基因表達”。以有向圖 G= ( V , F )表示布爾網絡,其中 V 是圖的節點集合,每個節點代表一個基因,或者代表一個環境刺激。環境刺激可以是任何相關的生物、物理或化學因素,但不是基因或基因的產物,它影響調控網絡。而 F 是有向邊的集合,每條邊代表基因之間的相互作用關系。上例所對應的網絡見 圖 8.9 。
布爾網絡從初始狀態開始,經過一系列狀態轉換,zui后到達系統的穩定狀態。從不同的初始狀態出發,布爾網絡會到達不同的終止穩定狀態,而這些不同的終止狀態對應于細胞相對穩定的生化狀態。如果在布爾網絡的一個穩定狀態下,所有基因的狀態不變,則稱該穩態是“點吸引子”;如果網絡的一個穩態是多個狀態的周期切換,則稱該穩態為“動態吸引子”,此時網絡系統處于相對穩定狀態。具體來說,穩定狀態分兩種情況,一是單穩態,即系統狀態不再改變。如 圖 8.10(a) 所示,系統從狀態( 1 ,0 ,0 )出發,經過一系列中間狀態,到達單穩定狀態以后,系統一直駐留在狀態( 0 ,0 ,0 )。另一種穩定狀態是所謂多穩態,即系統狀態沒有穩定,只是相對穩定,系統在若干個狀態之間循環往復。如 圖 8.10(b) 所示,系統達到相對穩定,在狀態( 0 ,0 ,1 )和狀態( 1 ,1 ,0 )之間切換。
(8-47)
其中,Xi(t + D t) 是基因 i 在 t + D t 時刻的表達水平,Xj(t) 是基因 j 在 t 時刻的表達水平,而 wij 代表基因 j 的表達水平對基因 i 的影響。在這種基因相互關系表示形式中,還可以增加其它數據項,以逼近基因調控的實際情況。例如,可以增加一個常數項,反映一個基因在沒有其它調控輸入下的活化水平。
將上述表達式轉換為線性差分方程,描述一個基因表達水平的變化趨勢。這樣,在給定一系列基因表達水平的實驗數據之后,即給定每個基因的時間序列 Xi(t) ,就可以利用zui小二乘法或者多重分析法求解整個系統的差分方程組,從而確定方程中的所有參數,即確定 wij 。zui終,利用差分方程分析各個基因的表達行為。實驗結果表明,該模型能夠較好地擬合基因表達實驗數據。
加權矩陣模型
加權矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數。含有 n 個基因的基因表達狀態用 n 維空間中的向量 u(t)表示, u(t)的每一個元素代表一個基因在時刻 t 的表達水平。以一個加權矩陣 W 表示基因之間的相互調控作用, W 的每一行代表一個基因的所有調控輸入, w ij 代表基因 j 的表達水平對基因 i 的影響。在時刻 t ,基因 j 對基因 i 的凈調控輸入為 j 的表達水平(即 uj(t) )乘以 j 對 i 的調控影響程度 Wij 。基因 i 的總調控輸入 ri(t) 為:
(8-49)
這種函數是神經網絡中常用的 Sigmoid 函數,其中 a 和 b 是兩個常數,規定非線性映射函數曲線的位置和曲度。通過上式,計算出 t+1 時刻基因 i 的表達水平。在zui初階段,加權矩陣的值是未知的。但是可以利用機器學習方法,根據基因表達數據估計加權矩陣中各個元素的值。
對于這樣的模型,可以利用成熟的線性代數方法和神經網絡方法進行分析。實驗表明,該模型具有穩定的和周期穩定的基因表達水平,與實際生物系統相一致。在這種模型中還可以加入新的變量,模擬環境條件變化對基因表達水平的影響。
數據整合分析
從基因表達譜出發,構建基因調控網絡,在不考慮由于實驗過程產生的技術噪聲等因素對建模的影響之外,zui大的問題就是維度問題,以上所述的布爾網絡等模型隨著變量(基因數目)的增加,所需要的數據將呈指數級增長,計算復雜度也快速增長。對于推斷 N 個基因的基因網絡,我們需要多少個數據點?如果是*沒有條件約束的,對于全連接的布爾網絡模型,需要測量所有
的規模。要解決這個問題,一個有效的方法是降低網絡的規模,即降低模型中節點之間的連結數目。很多研究表明,對于基因調控網絡、蛋白 - 蛋白作用網絡、代謝網絡,沒有必要構建全連接的網絡結構,這些網絡都屬于無尺度網絡( Scale-free network ),即具有 k 條邊的節點分布幾率 p(k) 滿足泊松分布,
<img alt="基于基因表達譜的基因調控網絡研究模型" 基于基因表達譜的基因調控網絡研究模型"="" align="middle" border="1" height="25" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/160612I57-10.png" src="http://www.bio1000.com/uploads/allimg/120625/160612I57-10.png" width="118" style="vertical-align: middle; border: 0px;">
。
基因調控網絡反映的是基因之間的相互關系,除了可以在基因表達數據中發現這種關系外,還可以在 DNA 序列、轉錄因子與順式調控元件相互作用、蛋白 - 蛋白相互作用、蛋白在細胞中的定位等層面上反映出來。是否可以將這些生物學背景知識應用于基于表達譜的基因調控網絡分析中呢?答案是肯定的。充分利用現有的生物學知識,與表達數據相結合將成為基因調控網絡研究的主流思路。隨著生物信息學和分子生物信息檢測技術的發展,我們對基因關系的認識日益增多,利用這些知識可以構建初步的基因調控網絡,進而用表達數據進行仿真和模擬;根據模擬結果修改模型,再結合生物學實驗驗證,可以完善基因調控網絡。經過若干次的建模—模擬—實驗循環可以逼近真實的生物學基因調控網絡。
基因的表達是反式調控因子與順式調控元件相互作用后啟動的,調控因子和調控元件的結合具有序列特異性,利用這種特異性,結合基因表達數據,可以發現基因之間的相互調控關系,建立基因調控路徑,構建基因調控網絡。
全基因組定位分析( genome-wide location analysis )是一種新的研究蛋白質與 DNA 片段結合的分子生物學技術,利用微陣列技術,可以高通量研究轉錄因子與全基因組的基因間區序列結合的親和力,從實驗結果可以發現轉錄因子的調控基因,這些實驗數據可以用來明確基因之間的相互關系。
蛋白質是基因調控的產物,蛋白質 - 蛋白質之間的結合能反映基因的相互作用關系。酵母雙雜交等實驗可以高通量地獲取蛋白之間相互作用的數據。蛋白質的結合可能是構成蛋白復合體,也可能是參與共同的生物學過程。雖然這些數據和知識不能反映它們的編碼基因之間的直接調控關系,但是可以反映基因之間的相互關系,例如,共調控關系、或功能具有相關性等。
基因表達的時空特異性是一個重要特性,空間特異性表現在蛋白質定位在細胞中的不同位置。從蛋白質定位信息出發,可以得出編碼位于相同位置的蛋白質編碼基因之間的關系,這種關系也可以用于指導基因網絡的構建。
以上所有信息都有助于構建基因調控路徑和網絡,在具體的應用中可以整合相關數據,但是,仍需要發展新的方法。基因調控路徑和網絡的研究對于生物信息學來說是一個重大挑戰,它不僅需要有效的數據挖掘方法來整合和充分利用海量的異質和異源數據,還需要對基因調控的生物學知識有深層次的理解。