21.什么是RPKM、FPKM
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百萬個map上的reads中map到外顯子的每1K個堿基上的reads個數(shù)。假如有1百萬個reads映射到了人的基因組上,那么具體到每個外顯 子呢,有多少映射上了呢,而外顯子的長度不一,那么每1K個堿基上又有多少reads映射上了呢,這大概就是這個RPKM的直觀解釋。
如果對應(yīng)特定基因的話,那么就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的readTotal exon reads,映射到外顯子上總的reads個數(shù)。
這個是映射到某個區(qū)域上的reads個數(shù),這個區(qū)域或者是已知注釋的基因或者跨兩個外顯子的邊界或者是某個 基因已經(jīng)注釋的轉(zhuǎn)錄本的內(nèi)含子、外顯子。對于真核生物來說,外顯子和它們自己內(nèi)部的關(guān)系由某類型的mRNA來注釋。
計(jì)算時(shí),計(jì)算所有某個基因已注釋的所有外顯子長度的總和。即使某個基因以多種注釋的轉(zhuǎn)錄本呈現(xiàn),這個外顯子在求和時(shí)只被包含 一次。即使部分重疊的外顯子共享相同的區(qū)域,重疊的外顯子以其總長來計(jì)算。report).map的reads總和。映射到某個基因上的所有reads總數(shù)。因此這包含所有的唯一映射到這個區(qū)域上的reads。
舉例:比如對應(yīng)到該基因的read有1000個,總reads個數(shù)有100萬,而該基因的外顯子總長為5kb,那么它的RPKM 為:10^9*1000(reads個數(shù))/10^6(總reads個數(shù))*5000(外顯子長度)=200或者:1000(reads個數(shù))/1(百 萬)*5(K)=200這個值反映基因的表達(dá)水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM與RPKM計(jì)算方法基本一致。不同點(diǎn)就是FPKM計(jì)算的是fragments,而RPKM計(jì)算的是reads。Fragment比read的含義 更廣,因此FPKM包含的意義也更廣,可以是pair-end的一個fragment,也可以是一個read。
22.什么是轉(zhuǎn)錄本重構(gòu)
用測序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式:1,de-novo構(gòu)建;2,有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個更長的序列,經(jīng)過不斷的延伸, 拼成一個個的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構(gòu),是指先將 read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、 cufflinks。
23.什么是genefusion
將基因組位置不同的兩個基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。
24.什么是表達(dá)譜
基因表達(dá)譜(geneexpression profile):指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測序,收集cDNA序列片段、定性、定量分析其 mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜。