技術的發展已經徹底改變了植物基因型和表型的測量方法,生成了大規模的復雜數據集。在由此產生的植物學“大數據”時代,基礎研究和應用研究(例如育種應用)面臨的挑戰是解釋或預測不同環境條件下潛在基因的表型。基因型變異導致細胞生化組成的差異,進而與環境一起影響器官的形成、植物的生長,并最終影響農業相關的性狀,例如產量以及對脅迫和害蟲的耐受性。揭示基因型變異和環境對表型的影響,有助于深入了解植物發育和生理中重要過程的調控,以及在特定環境中從基因型預測產量和質量性狀的能力,這在現代分子植物育種中是必不可少的。分析不同水平上測得的表型或將這些表型與基因型聯系起來,越來越需要處理和集成大規模、含噪聲和異構的數據集。機器學習(Machine learning)是一種在數據中尋找預測模式的計算方法,在這些工作中扮演著越來越重要的角色。在各種科學和工程領域,機器學習推動了一系列最新的創新,并將在植物研究中發揮同樣的作用。
有監督和無監督的機器學習
本文綜述了機器學習在植物學和植物育種中的應用,重點介紹了機器學習在生化水平、宏觀水平上的應用,以及將基因型與表型聯系起來的方法。我們的目的是向非專業用戶演示機器學習如何提供一套方法,在相關的植物數據中找到有意義的模式。本文還對機器學習的應用進行了批判性的討論,并指出了當前和未來的研究方向。
圖1基因型變異與不同水平表型變異的關系
圖2 生化測量和細胞測量概述
可以測量各種“組學”(基因組學、轉錄組學、蛋白質組學、代謝組學)數據。機器學習用于分析這些數據(底部)。
圖3 植物表型系統概述
使用不同類型的傳感器和傳感器系統,可以在不同級別觀察植物。機器學習在傳感器數據的處理過程中起著重要的作用(紅框)。
對于具體方面的更深入的評論,我們建議讀者參考以下研究:(van Eeuwijk et al., 2019; Singh et al., 2016, Singh et al., 2018;Mochida et al., 2019),重點是性狀和表型;(Sperschneider, 2019),重點是在植物-病原相互作用的背景下使用機器學習;(Sun et al., 2019),重點是關于機器學習在植物分子水平上的應用;以及(Wang et al., 2020),重點介紹機器學習在植物基因組學中的應用。有關更一般性的綜述,請參見(Zou et al., 2019)的《基因組學》中關于深度學習(DL)的摘要,以及(Gazestani 和Lewis, 2019)的關于使用機器學習將基因型與表型聯系起來的概述。