全基因组分析解决了现代鸟类生命树的早期分支(science,2014-12-12)
摘要
为了更好的确定现代鸟类的历史,我们利用为处理基因组规模数据而建立的系统基因组学方法,对代表所有新鸟类目的48种物种进行了基因组规模的系统发育分析。我们找到了一棵高分辨率的树,它证实了先前有争议的姐妹或亲密关系。我们确认了新鸟类目的第一个分支,我们称之为雀类和鸽类,它们代表了不同的、聚合演化的陆地和水鸟物种的独立血统。在雀类动物中,我们推断核心陆禽的共同祖先是一种顶级掠食者,并且证实了发声学习动物的独立发展。在鸽类动物中,我们推断鸽子和火烈鸟是属于姐妹进化枝。即使有了整个基因组,新鸟类目的最早的一些分支很难去分辨,这最好的解释是大量的蛋白质编码序列会聚和高度不完全的谱系分类,它们发生在大约6600万年前白垩纪-古近纪大灭绝事件后的一次快速辐射中。
物种的多样性并不总是渐进式的,也会发生在快速的辐射中,特别是经历了重大的环境变化之后。古生物学和分子生物学证据表明那些像“大爆炸“辐射发生在新鸟类目上(例如 鸣禽、鹦鹉、鸽子等其他的)和有胎盘的哺乳动物,占现存鸟类和哺乳动物物种的95%,在距今大约6600万年前(Ma(megaannus),百万年,即10的6次方年,地质学、古生物学等领域常用的时间单位,有时也写作Myr。)的白垩纪至古近纪(K-Pg)的大灭绝事件后。然而,其他原子核和线粒体DNA的研究表明,在距今80-125百万年前开始了渐进式的多样性。不同的数据集和分析方法经常产出不同的的物种结构树,这以发现混淆了这个争议。解决这样的时序和系统发育关系对比较基因组学非常重要,因为比较基因组学可以揭示人类的特征和疾病。
最近的鸟类研究基于5[~5000碱基对(bp)]和19[31000bp]基因片段,恢复了一些从形态学数据和DNA-DNA杂交推断的关系,建设了新的关系,并与许多其他关系相矛盾。与大多数之前的分子和当代形态学研究一致,它们把现代鸟类(今鸟类)划分成了三类,分别是古颚下纲(?形目和不能飞的平胸类),鸡雀小纲【鸡形目(陆禽)和雁形目(水禽)】,新鸟小纲(所有其他的现存鸟类)。在新鸟小纲,它们提出了几个新的大类群,包括一个包含像企鹅、鹈鹕、潜鸟的水鸟进化群,和一枝包含像啄木鸟、猛禽、鹦鹉和鸣禽的陆鸟进化群。尽管做出了这些努力,在新鸟小纲内最深的分支之间的关系;一些长期具有挑战性的分类群的位置,像滨鸟、鼠鸟、鸮、神秘的麝雉;而对新鸟小纲的第一次分支的鉴定【提议分成两个同样大的分支,称为Metaves和Coronaves】仍没有解决。
虽然最初的多基因研究的一些发现已经被更大的序列或者转座因子插入数据集证实了,但提出的其他进化枝还没有得到支持。此外,完整的线粒体全基因组分析恢复了不同的关系,并且无法支持更高陆鸟的单系性。研究中的一些不同可能是由于基因树的不一致,可能是由于这些基因的不完全谱系分类,核苷酸碱基组成偏差,数据类型之间的差异,或者是数据不足造成的。因此,很难确定特定的鸟类特征(如学舌学习,掠夺行为,或者是对水生生境和陆地生境的适应)是否反映了单个或者多个独立的起源,以及在何种生态条件下发生了这些事件。
一个普遍的假定是,由于每个物种的基因组中存在完整的演化记录和增强的统计能力,全基因组数据将改善系统发育重建。我们通过对收集或组装的48各鸟类基因组的系统发育分析来验证这一假设,这些基因组代表了现存的所有公认的新昆虫目和两个古昆虫目,其中包括一些非鸟类爬行动物和人类。
物种选择,计算机技术的发展,以及核苷酸数据集所有证据
我们根据不同的分类方式选择了能代表所有新鸟类目的物种。它们包括了那些已经很难放在鸟类分支的种群,比如说麝雉、布谷鸟、夜鹰、鼠鸟、拟鹑、叫鹤。我们也包含了那些假设从深度节点下降的物种,他们的顺序是分裂潜在的长分支,比如说鹦形目和雀形目。我们也包括能学舌类物种(鸣禽类、蜂鸟、鹦鹉),它们被用作人类口语的模型,以及它们提出的最近似的能学舌类亲缘(取决于树的亚鸣禽类、雨燕、隼、或者是鹃),以帮助解决树之间的不同,从而在它们各自独立的基因中得出不同的结论。所得到的结果数据集包括45种鸟类基因组,其中一部分是为本项目测序【包括之前公布的物种时是48个】和三种非鸟类爬行动物【美洲鳄龟、绿海龟和绿蜥蜴】
我们面临着以前在小规模系统基因组研究中没有遇到的计算挑战。具有不同注释的基因组使直系同源物的鉴定变得复杂,而且数据矩阵的大小使得他不可能使用许多标准化的系统发育工具。为了设法解决这些挑战,我们基于鸡和斑马雀的基因共群性对所有禽类基因组生成了蛋白质编码基因的统一注释。我们发现SATe迭代对比程序比其他算法对大规模的数据产生了更可靠的对比,并且我们开发了对准滤波算法来消除未对齐和错误对齐的序列。我们开发了ExaML,这是最大似然程序RAxML的一种计算效率更高的版本,用于根据基因组尺度级联序列对比估计物种树。我们也开发了一种统计分箱方法,改进了多物种合并分析,以处理具有低系统发生信号的基因树以推断物种树。这些计算密集型分析是在9个以上的超算中心进行的,需要使用单处理器进行400年以上的计算。
通过这些努力,我们确定了跨禽类的高质量的直系同源基因组,该基因组由8251个同级蛋白质编码基因(约占蛋白质组的40%)的外显子,2516个这些基因的内含子,以及一组非重叠的3769个具有1000bp侧翼序列的超保守元素(UCE)。这些所有的证据核苷酸数据集包含约4180万个碱基对(bp=base pair),约占鸟类平均基因组的3.5%。
基因组规模的鸟类系统发育
总证据核苷酸树
在GTR+GAMMA序列进化模型(SM4)下,用ExaML分析了按数据类型(内含子,UCE、第一和第二外显子密码子位置,第三位置如后文所述排除)划分的全证据核苷酸序列,得到了高分辨率的总证据核苷酸树(TENT)。在完整的自引支持度(BS)的帮助下,恢复了现存鸟类中的三个公认的主要种群——始鸟下纲、鸡雀小纲、新鸟小纲(后两个物种合并在新鸟下纲下)。这棵树揭示了现存的新鸟小纲中的第一个差异,导致产生了两个完全支持的,相互单系的姐妹进化枝,我们将其命名为雀类(以其最特殊的种群雀形目命名)和鸽类(以其最特殊的种群鸽形目命名)。