基因组对照和基因组膨胀系数的关系

特定SNP在各地区和各种族中并非一定都存在,其所占的比例也不尽相同,这使得在不同的研究小组所获得与疾病相关的同一SNP或单倍型的结果往往不具有重复性。不仅不同国家之间存在差异,即使是同一国家的不同民族也存在很大差异。如我国南北方汉族,虽然是同一民族,但两者之间差异也很大。因此没有一个群体是典型、特异或完全隔离的,利用遗传分析技术搜寻多基因疾病易感基因,必须注意群体的选择。最佳的群体选择,取决于遗传多态性标记在这些群体中的分布,而这些遗传多态性标记反过来影响等位基因和位点的异质性    


          不管是定位克隆还是关联研究,单基因病还是多基因病,来自大家系、隔离群体或疾病相关染色体改变的遗传病患者样品起关键作用。至今所报道的重要疾病基因的克隆,往往与很好的大家系或隔离群体遗传资料有关。如先天性心脏缺陷致病基因GATA4、儿童型视网膜营养不良致病基因RDHl2和冠心病的致病基因MEF2A等均是在大家系中被 发现的,而心肌梗死和脑卒中的致病基因ALOX5AP、家族性混合型高脂血症的致病基因USFl和哮喘相关基因GPRA等则是在隔离群体中克隆到的。故而大家系和隔离群体显得非常重要,找到了隔离群体和大家系,也就容易找到疾病相关基因。

          我国近几年在疾病相关基因的克隆方面取得了很大的成绩,也与大家系分不开。如心房颤动的致病基因KCNQl和KCNQ2、儿童白内障致病基因HSF4等均是在大家系中定位克隆的。    

         大家系的优势不言而喻,而隔离群体在致病相关基因研究方面的优势主要在于祖先人数较少、人口流动性极小以及较少有种群混合。交配和生殖上的隔离使得这些群体的遗传多样性降低,减少了遗传的复杂性,因此可能具有较高同质性和诊断的一致性。由于祖先群体小,更有可能产生只有一个遗传学病因的特定性状群体。在这样的一个群体中,可以确定患者个体共享的一段染色体片段,这一片段可以作为疾病的候选片段来分析。但利用隔离群体也存在一些问题,如近亲繁殖水平可能较高,这将导致杂合性降低,因而TDT效率随之降低;含不相关突变的染色体样本数量受到限制;相对短的种群历史,通常能提高LD所识别的距离,但也降低了LD基因定位水平。    

          此外,也有少数研究采用混合群体。所谓混合群体是由具有不同遗传标记和疾病等位基因频率的不同种族人群组成。利用混合群体进行连锁不平衡分析,即为混合连锁不平衡。研究表明,对于其他方法无法定位的基因,混合连锁不平衡定位可能是一个有效的方法,其效率取决于群体混合动力学。群体混合通常发生的年代相对比较近,因此所形成的不平衡在不连锁的基因座将很快消失,而紧密连锁的基因座之间的连锁不平衡消失很慢。缺点在于倘若病例和对照匹配不合理,易造成假阳性。    

          虽然利用大家系或隔离群体搜寻多基因疾病易感基因拥有很多优势,但并不是每个研究者均能获得的。一般人群比大家系或隔离群体更易获得[据实验室上个世纪几十年的研究认为,中国境内可能很少存在真正的隔离群体,包括桃花岛等区域],取样方便,绝大多数都是用一般人群进行疾病致病基因研究。但由于一般人群遗传异质性高,存在群体分层现象,易造成实验的误差。如何匹配实验的对照组和病例组以消除群体分层,一直是遗传学家争论的焦点之一。群体分层系不同种群混合所形成,以致关联研究中无法检测到疾病相关位点,是造成关联研究假阳性的原因之一。至今所报道的关联结果究竟有多少是由于群体分层形成的,仍不得而知。群体分层存在于那些由不同种群且各种群疾病发病率各不相同的新近混合形成的群体中,是一个很严重的问题。但在同一种群里,群体结构水平差异通常较小,假如关联研究中避免了总体水平的群体结构,群体分层的问题事实并不严重。    

          为了去除群体分层,最常采用的方法是根据祖先和祖籍等资料仔细匹配病例组和对照组。但由于存在亚群,不能完全避免群体分层。最为有效的方法是设立基因组对照(genomic control)检测群体分层。基因组对照是在全基因组中选取一定密度与所研究疾病及其危险因素无关的相互间不连锁的常见SNP,对疾病组和对照组进行分型,研究他们的遗传背景是否一致。如果病例组和对照组完全匹配,无群体分层,这些SNP与疾病之间的关联符合x2分布(自由度为1)。假如存在群体分层,相关统计学分布则会以一定的系数膨胀,膨胀系数用入表示,入随样本数的增加而变大。进行基因组对照时,若选取的SNP位点过少,并不能有效地校正群体分层。基因组对照究竟选用多少数目的SNP,视研究中的遗传效应的程度而定。如果疾病相关位点效应很强,户值非常显著,只需分型几十个SNP就能基本排除群体分层,确定阳性关联结果。相反,若易感基因效应微弱,需要分型大量的SNP方能排除群体分层。基因组对照使得应用群体样本和控制假阳性率成为可能,其最大的缺点是需要额外SNP,以目前的分型技术,费用仍不菲。

via http://hi.baidu.com/guoshicheng_fd/item/b3d5e110ae28888988a956ff

评论

©Bioinformatics|Powered by LOFTER