近日,小麥育種全國重點實驗室在《Briefings in Bioinformatics》發(fā)表了題為“WheatGP, a genomic prediction method based on CNN and LSTM”的研究論文。生命科學(xué)學(xué)院李祥、機電學(xué)院劉平為通訊作者,王春穎副教授與碩士研究生張迪為共同第一作者,山東農(nóng)業(yè)大學(xué)為唯一通訊單位。
全基因組預(yù)測是如今作物育種的核心技術(shù)之一,能夠有效縮短育種周期。近年來基于深度學(xué)習(xí)的全基因組預(yù)測技術(shù)快速發(fā)展,已初步應(yīng)用于水稻、玉米、大豆等主要作物。然而,小麥的多倍體結(jié)構(gòu)涉及復(fù)雜的等位基因之間的相互作用以及明顯的非加性效應(yīng),使其在復(fù)雜性狀的預(yù)測中面臨著諸多挑戰(zhàn)。
研究團隊基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)提出了一種小麥基因組預(yù)測方法(WheatGP),利用了多層CNN捕獲基因組序列中的短程依賴性和LSTM獨特的門控機制,提取并保留基因位點之間的長距離的依賴關(guān)系。

圖1 WheatGP算法結(jié)構(gòu)
利用WheatGP所訓(xùn)練的模型在小麥籽粒產(chǎn)量預(yù)測中相關(guān)性達(dá)到0.73,對多種農(nóng)藝性狀的預(yù)測相關(guān)性介于0.62-0.78之間,同時表現(xiàn)出在不同作物數(shù)據(jù)集中的適應(yīng)性和魯棒性。對模型的輸入實施有選擇性的降維能夠提高WheatGP 的計算效率,同時不會降低準(zhǔn)確性,而特征可視化技術(shù)能夠有效地識別關(guān)鍵的單核苷酸多態(tài)性(SNPs)以及有助于預(yù)測的關(guān)鍵特征,從而提高模型的可解釋性,為小麥智慧育種技術(shù)提供了新工具。
該研究得到了山東省重點研發(fā)計劃項目的資助。
論文鏈接:https://doi.org/10.1093/bib/bbaf191
編 輯:萬 千
審 核:賈 波








