1. 傳統(tǒng)蛋白質(zhì)組學(xué)研究
目前基于質(zhì)譜儀器的蛋白質(zhì)組學(xué)研究多數(shù)利用EBI的IPI、NCBI的NR和SWISSPROT作為數(shù)據(jù)庫(kù)對(duì)蛋白進(jìn)行檢索鑒定。因此,在已獲取這三類數(shù)據(jù)庫(kù)的實(shí)驗(yàn)鑒定結(jié)果后,我們可以實(shí)現(xiàn)以下分析:
數(shù)據(jù)庫(kù)交叉注釋批量查詢
將IPI號(hào)轉(zhuǎn)化成UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID)和Symbol等。將SP號(hào)轉(zhuǎn)化成EMBL, IPI, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID), Symbol, IntAct, GeneCards, MIM等。
數(shù)據(jù)庫(kù)功能注釋查詢
批量查詢IPI號(hào):
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色體定位信息;
- 結(jié)構(gòu)域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等。
批量查詢SP號(hào):
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色體定位信息;
- 功能信息、二聚體信息、剪切體信息和組織表達(dá)特異性信息;
- 結(jié)構(gòu)域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等;
- 蛋白修飾信息,包括:磷酸化、糖基化、甲基化、乙?;龋?
- 相互作用蛋白,包括:IntAct, Reactome, DIP等;
- 通路信息,包括:KEGG, Biocarta, Protein Lounge, Pathway_Interaction_DB等。
ID 號(hào)比較
基于多批數(shù)據(jù)集之間的比較,采用數(shù)據(jù)交叉表和venn圖方式表示數(shù)據(jù)集之間的交蓋性。
表. 數(shù)據(jù)集之間交蓋度。

圖. 數(shù)據(jù)集之間venn圖。 ?
蛋白序列分析
許多數(shù)據(jù)庫(kù)可能沒(méi)有提供相關(guān)蛋白的功能注釋,我們可以利用蛋白序列預(yù)測(cè)相關(guān)的功能。
序列相關(guān)的預(yù)測(cè)涉及:
- 膜蛋白和跨膜區(qū)段預(yù)測(cè);
- 亞細(xì)胞定位預(yù)測(cè);
- 信號(hào)肽預(yù)測(cè);
- 分泌蛋白預(yù)測(cè);
- 翻譯后修飾預(yù)測(cè):磷酸化位點(diǎn)、N-糖基化位點(diǎn)、O-糖基化位點(diǎn)、陰陽(yáng)位點(diǎn)(即磷酸化和O-糖基化競(jìng)爭(zhēng)位點(diǎn))預(yù)測(cè)。
- 根據(jù)蛋白序列計(jì)算出相關(guān)理化性質(zhì),包括分子量、等電點(diǎn)、疏水性、酸性氨基酸數(shù)目、堿性氨基酸數(shù)目和蛋白長(zhǎng)度。

圖. 鑒定蛋白的理化性質(zhì)分布圖。 ?

圖. 分子量和等電點(diǎn)在樣本之間的比較。
染色體定位
已知蛋白的鑒定號(hào),批量調(diào)取蛋白定位信息,并圖示化:

圖. 鑒定蛋白染色體定位圖示
基因富集度計(jì)算
在蛋白組學(xué)中,對(duì)大規(guī)模的鑒定結(jié)果經(jīng)常用pie圖或bar圖表示蛋白的某個(gè)分類,如亞細(xì)胞定位、生物功能、生物通路等。有時(shí)也會(huì)考慮這些分子在哪些疾病分子交蓋比例過(guò)高。

圖. Bar圖表示鑒定蛋白在分子功能上的富集度。
GO 分析
通過(guò)一般數(shù)據(jù)庫(kù)查詢給出特定蛋白的GO信息煩多,很難進(jìn)行統(tǒng)計(jì)分類。我們可以將所有鑒定蛋白的GO都slim到特定的GO分類上,便于下一步的統(tǒng)計(jì)和圖示化。已在上圖中標(biāo)示。

圖. Pie圖表示鑒定蛋白在亞細(xì)胞定位上的分類。
網(wǎng)絡(luò)分析
通過(guò)蛋白的差異譜或?qū)嶋H鑒定譜,可以在各種相互作用數(shù)據(jù)庫(kù)中找到對(duì)應(yīng)的相互作用蛋白,并構(gòu)畫出相互作用網(wǎng)絡(luò)。

圖. 鑒定蛋白構(gòu)建相互作用網(wǎng)絡(luò)。

圖. 鑒定蛋白構(gòu)建Transfac轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。
通路分析
對(duì)已鑒定蛋白可以mapping到通路數(shù)據(jù)庫(kù)中,給出mapping的統(tǒng)計(jì)結(jié)果并圖示化。

圖. 通路總體mapping情況。

圖. 蛋白標(biāo)記定量數(shù)據(jù)在KEGG通路圖中的mapping

圖. 蛋白標(biāo)記定量數(shù)據(jù)在Protein Lounge通路圖中的mapping
2. 比較蛋白質(zhì)組學(xué)研究
在比較蛋白質(zhì)組研究中經(jīng)常用到標(biāo)記定量手段,如ICAT, ITRAQ等,這樣可以獲取多組樣本之間同一個(gè)蛋白的表達(dá)趨勢(shì)。我們可以采用多元統(tǒng)計(jì)學(xué)的方法表現(xiàn)鑒定的結(jié)果。
差異蛋白篩選
在兩兩比較的比較蛋白質(zhì)組學(xué)中,要找出差異的蛋白列表,可以用正態(tài)分布擬合方法篩選

圖. 蛋白相對(duì)定量的數(shù)據(jù)通過(guò)log轉(zhuǎn)換擬合成正態(tài)分布,再通過(guò)正態(tài)分布的95%和99%置信線對(duì)表達(dá)差異的數(shù)據(jù)進(jìn)行篩選

分層聚類挖掘

圖. 用聚類熱圖展示蛋白相對(duì)定量數(shù)據(jù)中表達(dá)趨勢(shì)相近的蛋白?
3. 修飾蛋白質(zhì)組學(xué)研究
蛋白特定的修飾鑒定后,想挖掘修飾位點(diǎn)附近氨基酸組成的狀況,可以用聚類圖或氨基酸比例圖展現(xiàn)。

圖. 用熱圖形式展示靶標(biāo)修飾氨基酸附近的氨基酸組成情況

4. 高級(jí)分析
IPA 分析 (商業(yè)軟件,需要license)
IPA是一種公認(rèn)的生物數(shù)據(jù)分析工具,非常適用于疾病相關(guān)的數(shù)據(jù)分析。它的主要特色在于根據(jù)實(shí)際數(shù)據(jù)找到疾病分子的網(wǎng)絡(luò)和通路,甚至在其基礎(chǔ)之上構(gòu)建自己的網(wǎng)絡(luò)和通路。

圖. IPA捕捉到差異分子形成網(wǎng)絡(luò)。
GSEA 分析
可以結(jié)合表達(dá)量的數(shù)據(jù)找到相關(guān)的基因集合。此處,基因集合泛指包含一堆基因的類別名稱,可以是GO中的某一類,通路中的某一條或轉(zhuǎn)錄調(diào)控和相互作用網(wǎng)絡(luò)中的某個(gè)小模塊。

圖. GSEA捕捉到差異分子的基因集合