生物的主要遗传物质是DNA,细胞或生物体中一套完整的遗传物质的总和称为基因组。DNA是由外显子(Exon)和内含子(Intron)组成。外显子只占基因组的1%左右,指导体内所有蛋白的合成。内含子不编码蛋白质的合成,但绝不是无用的序列,其可以影响基因的活性和蛋白的表达。
WGS (whole genome sequencing,全基因组测序):是指对基因组整体进行高通量测序,分析不同个体间的差异,同时完成SNP及基因组结构注释。可以准确检测出每个样本基因组中的变异集合,也就是人与人之间存在差异的那些DNA序列;全基因组测序由于结果包含完整丰富的信息,可以得到外显子测序或靶向测序不能得到的更多信息,具有其独特的优势。且随着近年来测序技术的不断进步、测序成本的不断降低,使得全基因组测序变得触手可及。而且全基因组测序在鉴定单核苷酸变异(SNP)、插入和缺失突变(Indel)时更有优势,所以WGS逐渐成为了临床和基础研究的另一种选择。
SNP (Single Nucleotide Polymorphisms,单核苷酸多态性)是由基因组上单个核苷酸改变而引起的DNA序列多态性。包括碱基的转换、颠换以及单碱基的插入、缺失等,是基因突变的一种。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNV的检测和统计结果展示如下:
type | T1 | T2 | T3 | T4 | T5 |
CDS | 20,950 | 22,109 | 21,555 | 21,988 | 21,762 |
synonymous_SNP | 10,859 | 11,200 | 11,096 | 11,358 | 13,437 |
nonsynonymous_SNP | 9,685 | 10,398 | 9,953 | 10,164 | 10,095 |
stopgain | 70 | 129 | 77 | 73 | 85 |
stoploss | 9 | 9 | 6 | 10 | 8 |
unknown | 340 | 384 | 437 | 397 | 402 |
intronic | 72,725 | 85,477 | 86,215 | 96,522 | 79,401 |
UTR3 | 3,691 | 4,305 | 4,177 | 4,626 | 3,976 |
UTR5 | 2,425 | 2,589 | 2,633 | 2,614 | 2,651 |
splicing | 498 | 580 | 510 | 516 | 522 |
ncRNA_exonic | 2,345 | 2,474 | 2,500 | 2,670 | 2,468 |
ncRNA_intronic | 5,154 | 6,051 | 6,035 | 6,690 | 5,226 |
ncRNA_UTR3 |
0 | 0 | 0 | 0 | 0 |
ncRNA_UTR5 | 0 | 0 | 0 | 0 | 0 |
ncRNA_splicing | 25 | 28 | 31 | 28 | 28 |
upstream | 2,270 | 2,602 | 2,410 | 2,869 | 2,645 |
downstream | 881 | 1,179 | 1,132 | 1,337 | 1,066 |
intergenic | 29,036 | 37,725 | 38,718 | 44,665 | 32,244 |
Total | 140,144 | 165,305 | 166,088 | 184,735 | 152,181 |
INDEL (Insertion and Deletion,插入和缺失)是指在基因组上的序列发生了不同大小核苷酸片段的插入或缺失,,即一个序列上某一位点相比参考序列插入或缺失了一个或多个碱基。
编码区或者剪接位点处发生的插入缺失都可能会改变蛋白的翻译。移码变异,其插入或缺失的碱基串的长度为3的非整数倍,因此可能导致整个阅读框的改变,与非移码变异比较,移码突变对基因功能的影响更大。INDEL的检测和统计结果展示如下:
type | T1 | T2 | T3 | T4 | T5 |
CDS | 592 | 608 | 602 | 601 | 598 |
frameshift_deletion | 73 | 92 | 72 | 77 | 77 |
frameshift_insertion | 54 | 58 | 68 | 60 | 57 |
nonframeshift_deletion | 197 | 187 | 193 | 189 | 177 |
nonframeshift_insertion | 186 | 194 | 188 | 183 | 185 |
unknown | 81 | 81 | 83 | 84 | 84 |
intronic | 10,267 | 12,184 | 13,200 | 14,564 | 11,228 |
UTR3 | 578 | 607 | 625 | 703 | 552 |
UTR5 | 416 | 467 | 442 | 459 | 442 |
splicing | 117 | 126 | 128 | 146 | 113 |
ncRNA_exonic | 228 | 241 | 246 | 245 | 223 |
ncRNA_intronic | 649 | 766 | 859 | 958 | 670 |
ncRNA_UTR3 | 0 | 0 | 0 | 0 | 0 |
ncRNA_UTR5 | 0 | 0 | 0 | 0 | 0 |
ncRNA_splicing | 2 | 4 | 4 | 3 | 3 |
upstream | 410 | 502 | 494 | 554 | 502 |
downsteam | 134 | 157 | 179 | 190 | 160 |
Intergenic | 3,359 | 4,805 | 5,768 | 6,611 | 4,038 |
Total | 16,772 | 20,498 | 22,572 | 25,061 | 18,556 |
拷贝数变异(Copy number variation,CNV)指的是基因组上大片段序列拷贝数的增加或者减少,是基因组结构变异(Structural variation,SV)的重要组成部分,可分为缺失(Deletion)和重复(Duplication)两种类型,是一种重要的分子机制。CNV能够导致孟德尔遗传病与罕见疾病,同时包括癌症在内的复杂疾病,因此,对于染色体水平的缺失、扩增的研究已经成为肿瘤研究热点。下面为拷贝数变异图:
SV是Structural variation的缩写。结构变异是指基因组上一些大的结构性的变异,比如大片段丢失(DEL,deletion)、大片段插入(INS,insertion)、染色体内易位(ITX,intra-chromosomal translocation)、染色体间易位(CTX,inter-chromosomal translocation)、倒位(INV,inversion)。结构变异普遍发生在癌变细胞中,一些癌症已经证实和结构变异导致的基因融合事件相关。对SV检测的结果如下表所示:
Sample | DEL | INS | ITX | CTX | INV |
T1 | 856 | 246 | 134 | 1,054 | 6 |
T2 | 605 | 121 | 110 | 514 | 3 |
T3 | 784 | 234 | 129 | 767 | 5 |
T4 | 702 | 247 | 123 | 694 | 5 |
T5 | 492 | 163 | 107 | 606 | 4 |
体细胞突变(Somatic mutation)是指除生殖细胞之外的体细胞发生的突变,比如发生在皮肤或器官中的突变。这样的突变不会造成后代的遗传改变,却可以引起当代某些细胞的遗传结构发生改变。体细胞突变对解释肿瘤的发生和发展具有很重要的意义,另外恶性肿瘤的散发形式可以通过体细胞突变引起,因此,关注体细胞突变是肿瘤基因组学研究的重心。
Sample | DEL | INS | ITX | CTX | INV |
T1 | 856 | 246 | 134 | 1,054 | 6 |
T2 | 605 | 121 | 110 | 514 | 3 |
T3 | 784 | 234 | 129 | 767 | 5 |
T4 | 702 | 247 | 123 | 694 | 5 |
T5 | 492 | 163 | 107 | 606 | 4 |
点击进行购买咨询
购买咨询© 2023 GENECHEM All RIGHTS RESERVED .