作者:宗華發(fā)布日期:2018-06-26
在人類基因組項目完成十多年后,辨別基因仍是一項挑戰(zhàn)。
圖片來源:Alan Phillips/Getty
估測人類基因組中基因數(shù)量的最早嘗試涉及喝醉酒的基因?qū)W家、美國紐約冷泉港的一個酒吧以及純粹的臆測。
那是2000年。當(dāng)時,人類基因組序列草圖仍在繪制中?;?qū)W家正在打賭人類擁有多少基因,賭注從幾萬個到幾十萬個不等。近20年后,掌握了真實數(shù)據(jù)的科學(xué)家仍無法就這一數(shù)量達成一致。在他們看來,這一知識鴻溝阻礙了發(fā)現(xiàn)相關(guān)疾病突變的努力。
填補這一空白的最新努力利用了來自上百個人類組織樣本的數(shù)據(jù),并于日前發(fā)表在預(yù)印本服務(wù)器BioRxiv上。它包括近5000個此前未被發(fā)現(xiàn)的基因,其中近1200個攜帶制造蛋白質(zhì)的指令。2.1萬余個蛋白質(zhì)編碼基因的總數(shù)和此前估測(認為這一數(shù)字在2萬左右)相比有大幅提高。
不過,很多遺傳學(xué)家仍不相信所有最新提出的基因都能經(jīng)得起仔細推敲。他們的批評強調(diào)了辨別新基因甚至定義一個基因的難度。
“20年來,人們一直致力于此項研究,但我們?nèi)晕传@得答案。”帶領(lǐng)團隊開展最新研究的約翰斯·霍普金斯大學(xué)計算生物學(xué)家Steven Salzberg表示。
2000年,隨著基因組學(xué)界就有多少人類基因?qū)⒈话l(fā)現(xiàn)的問題展開熱烈討論,Ewan Birney發(fā)起了GeneSweep競賽。如今身為歐洲生物信息學(xué)研究所(EBI)聯(lián)合所長的Birney在一年一度的基因組學(xué)會議期間,在一間酒吧里最先下注。
這場競賽最終吸引了1000多人參與以及3000美元的累積賭注。關(guān)于基因數(shù)量的賭注從多于31.2萬個到不足2.6萬個不等,平均在4萬左右。當(dāng)時,估測的數(shù)量范圍已經(jīng)縮小,但仍存在不同意見。
基因數(shù)量依據(jù)被分析的數(shù)據(jù)、利用的工具以及剔除錯誤信息的標(biāo)準(zhǔn)而有所不同。最新計數(shù)利用了一個更大的數(shù)據(jù)集、另一種不同于此前努力的計算方法,以及定義基因的更寬泛標(biāo)準(zhǔn)。
Salzberg團隊利用了基因型組織表達(GTEx)項目的數(shù)據(jù)。該項目對從幾百具尸體上采集的30多個不同組織的RNA進行了測序。RNA是DNA和蛋白質(zhì)之間的“媒介”。研究人員想辨別出編碼蛋白質(zhì)的基因以及不編碼蛋白質(zhì)但仍在細胞中扮演重要角色的基因。為此,他們組裝了GTEx的9000億個微小RNA片段并將其同人類基因組進行比對。
不過,僅一段DNA被表達為RNA并不意味著它是一個基因。為此,該團隊嘗試利用各種標(biāo)準(zhǔn)過濾掉噪音。例如,他們將獲得的結(jié)果同來自其他物種的基因組進行比較,并且推斷遠親生物共享的序列可能在進化過程中被保存下來,因為它們是有用的,基因也可能如此。
研究人員獲得了21306個蛋白質(zhì)編碼基因和21856個非編碼基因——遠多于兩個最廣泛使用的人類基因數(shù)據(jù)庫中的基因數(shù)量。由EBI維護的GENCODE基因集包括19901個蛋白質(zhì)編碼基因和15779個非編碼基因。由美國國家生物技術(shù)信息中心(NCBI)管理的RefSeq數(shù)據(jù)庫擁有20203個蛋白質(zhì)編碼基因和17871個非編碼基因。
NCBI基因組研究人員、RefSeq 之前的負責(zé)人Kim Pruitt表示,出現(xiàn)這一差異的部分原因可能是Salzberg團隊分析的數(shù)據(jù)量不同。不過,還有另外一個重要差異。GENCODE和RefSeq均依賴于人工管理——有人評審每個基因的證據(jù)并且作出最終判斷。Salzberg團隊則完全依賴于計算機程序篩選數(shù)據(jù)。
“如果人們喜歡我們的基因目錄,那么或許幾年后我們將成為人類基因的仲裁者。”Salzberg說。
不過,很多科學(xué)家表示,他們需要更多證據(jù)以確信最新目錄是準(zhǔn)確的。協(xié)調(diào)GENCODE人工注釋工作的EBI計算生物學(xué)家Adam Frankish介紹說,他和團隊已經(jīng)掃描了Salzberg團隊辨別的約100個蛋白質(zhì)編碼基因。根據(jù)他們的估測,僅有1個看上去是真正的蛋白質(zhì)編碼基因。
與此同時,Pruitt小組分析了Salzberg團隊公布的約十幾個新的蛋白質(zhì)編碼基因,但并未發(fā)現(xiàn)任何符合RefSeq標(biāo)準(zhǔn)的基因。一些同看上去屬于侵入人類祖先基因組的逆轉(zhuǎn)錄病毒的基因組區(qū)域重疊,剩下的則屬于極少被翻譯成蛋白質(zhì)的其他重復(fù)性片段。
不過,Salzberg認為,一些重復(fù)序列可被視為基因。一個例子是出現(xiàn)在RefSeq 中并且編碼在結(jié)直腸癌中過度表達的蛋白質(zhì)的ERV3-1。Salzberg還承認,位于其團隊目錄中的新基因有待該團隊和其他人確認。
《中國科學(xué)報》 (2018-06-26 第3版 國際)
來源:中國科學(xué)報