NGS 测序深度和覆盖度—Depth、Coverage

NGS 测序深度和覆盖度—Depth、Coverage

文章目录

前言这是比较基本的两个概念:二者的关系:例子:使用**bamdst**计算覆盖度安装

使用参考:

前言

温故而知新,刚入门的时候没有好好记笔记,现在补上😑

这是比较基本的两个概念:

覆盖度(Coverage):测序获得的序列占整个基因组的比例。即基因组上至少被检测到一次的区域,占整个基因组的比例。一般为「百分比」

深度(Depth):一般用1× 、2×、3×……表示。测序的得到的总碱基数与待测基因组大小的比值,即基因组中每个碱基被测到的平均次数,简而言之,测序的数据量比上参考基因组或者转录组的值。

PS:这两个概念在很多文章中的表述都不一样,具体要根据描述,是哪种概念

如图所示,两个概念在两个“维度”,描述了测序的情况(横向:覆盖度Coverage;纵向:深度Depth) 二者一定程度上决定了特定碱基位置发现的变异是否具有某种水平的可信度,如果有较高的深度和覆盖度,每个碱基被较多的Reads覆盖,因此碱基也有着较高的可信度。

对二者的要求因事而异:

测序方法推荐深度全基因组测序(WGS)人类全基因组测序为30×~50×(具体取决于应用和统计模型)全外显子组测序100 ×RNA测序检测罕见表达基因时,需要更高覆盖度和深度。ChIP-Seq100 ×

更多NGS的Depth和Coverage建议参考:https://genohub.com/recommended-sequencing-coverage-by-application/

假设基因组大小为N,每次测序都可以在基因组的任意位置随即检测一个碱基,那么对于基因组上的一个固定位置的碱基,在一次测序中,该碱基被测到的概率是P(P=1/N),其他部分的概率为1-P,该碱基对于深度的分布,就是检测到n次的概率,服从泊松分布,由于概率极低,检测次数极大,该分布又接近于正态分布。

一般使用直方图呈现整个数据集测序情况。直方图通过显示不同深度下Mapped Reads所覆盖的参考碱基数量来表明整体覆盖度分布.

理想情况下,该图形状应类似泊松分布并且标准偏差较小,如左图所示。该分布有效的前提是:Reads随机分布于整个基因组,并且整个测序运行期间对Reads间真实重叠的检测能力不变。但出于各种原因,实际覆盖度直方图可能会很宽(即深度区间宽)或呈非泊松分布,如欠佳测序覆盖度直方图示例(右图)所示。

评估NGS测序的常用指标:

四分位数间距(IQR):IQR是直方图中75与25百分位数之间的Depth差。该值用于衡量统计学变异性,可反映数据集范围内的不均一程度。在上述直方图示例中,左侧的直方图中IQR更低,表明其测序深度均一性优于右侧直方图。平均Mapped Reads深度,是各参考碱基位置上Mapped reads深度的总和除以参考中已知碱基的数量得到的值。表示特定参考碱基位置上可能匹配的平均Reads数。原始Read深度,该值是仪器所产生的序列数据总量(比对前)除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度,但该深度并未考虑到比对过程的效率。如果比对过程中有大部分原始测序Read剔除,则比对后得到的Mapped Reads深度会远小于原始Read深度。

二者的关系:

例子:

测序公司使用Illumina PE150的测序平台,双端测序技术,生成150 bp的reads,单端Reads数目为3300000,测序的基因组大小为760 Mb,那么:(1G=1024Mb;1Mb=1024kb;1kb=1000bp)

D

e

p

t

h

=

150

×

2

×

3300000

760

×

1024

×

1000

=

0.127

Depth = \frac{150 × 2 × 3300000}{760×1024×1000} = 0.127

Depth=760×1024×1000150×2×3300000​=0.127

如果测1G的数据量,那么:

D

e

p

t

h

=

1

×

1024

×

1024

×

1000

760

×

1024

×

1000

=

1.347

Depth = \frac{1×1024×1024×1000}{760×1024×1000} = 1.347

Depth=760×1024×10001×1024×1024×1000​=1.347

使用bamdst计算覆盖度

安装

cd ~/tools && git clone https://github.com/shiquan/bamdst.git && cd bamdst

make

./bamdst -h

使用

#需要一个bed文件

cat test.bed

# chr01 2983 10815

mkdir ~/t

./bamdst -p test.bed -o ~/t test.bam

#输出:

ls ~/t

#chromosomes.report depth_distribution.plot insertsize.plot uncover.bed

#coverage.report depth.tsv.gz region.tsv.gz

cat ~/t/chromosomes.report

#Chromosome DATA(%) Avg depth Median Coverage% Cov 4x % Cov 10x % Cov 30x % Cov 100x %

# chr01 100.00 4.23 3.0 95.77 44.34 6.83 0.00 0.00

参考:

https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.htmlhttps://www.youtube.com/watch?v=3oNCSRyHWO8https://genohub.com/recommended-sequencing-coverage-by-application/https://www.jieandze1314.com/post/cnposts/239/http://www.im.cas.cn/kytjpt/jsjl/201412/P020141208537486451133.pdf

相关推荐

家长这样配合学校,才能给孩子更好的教育!
365bet线上官网

家长这样配合学校,才能给孩子更好的教育!

📅 09-02 👁️ 8708
湖北姓马的人怎么样,为什么感觉姓马的人都很厉害
365提现流水不足

湖北姓马的人怎么样,为什么感觉姓马的人都很厉害

📅 08-19 👁️ 9146
鲜柠檬怎么泡水喝效果最好
365bet线上官网

鲜柠檬怎么泡水喝效果最好

📅 09-19 👁️ 7149
香烟价格
365提现流水不足

香烟价格

📅 10-06 👁️ 3101
flash做动画教程(基础篇)
365足球平台入口

flash做动画教程(基础篇)

📅 07-20 👁️ 886
开车吃东西怎么处罚
365足球平台入口

开车吃东西怎么处罚

📅 08-20 👁️ 2222