乐趣区

关于程序员:ChIPseq-分析评估片段长度与处理6

1. 片段长度评估

片段长度的预测是 ChIPseq 的重要组成部分,它会影响峰辨认、峰辨认和笼罩详情。

应用相互关或穿插笼罩能够评估按链进行的读取聚类,从而掂量品质。

  • 在 ChIPseq 中,通常是 dsDNA 的短单端读取。
  • 片段的 5′ 将在“+”链上测序
  • 片段末端的 3′ 将位于“-”链上。
  • 尽管咱们只有局部链序列,但依据预测的片段长度,咱们能够预测整个片段
  • “+”读数应仅在正方向延长
  • “-”只读正数

2. 穿插笼罩图

plotCC 函数可用于绘制咱们的穿插笼罩图, plotCC() 函数承受咱们的 ChIPQC 样本对象列表和一个 facetBy 参数,以容许咱们对穿插笼罩配置文件进行分组。

plotCC(myQC, facetBy = "Sample")

咱们能够将元数据蕴含为 data.frame,其中第一列是咱们的样本名称,以容许咱们以不同的形式对咱们的图进行分组。

myMeta <- data.frame(Sample = names(myQC), Tissue = c("Ch12", "Ch12", "MEL", "MEL",
    "MEL", "Ch12"), Antibody = c(rep("Myc", 4), rep("Input", 2)))
myMeta

咱们当初能够将咱们的元数据蕴含到 addMetaData 参数中,这将容许咱们对提供的元数据列进行 facetBy。

此外,咱们在这里应用 colourBy 参数为抗体组增加色彩。

plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody")

ChIPQC 中的所有图实际上都是在 ggplot2 中构建的,因而咱们能够像所有 ggplot 对象一样编辑和更新咱们的图。

plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody") + theme_bw() +
    ggtitle("ChIPQC results")

3. 黑名单和 SSD

3.1. 黑名单

ChIPseq 通常会显示常见伪影的存在,例如超高信号区域。这些区域可能会混同峰辨认、片段长度预计和 QC 指标。Anshul Kundaje 创立了 DAC 黑名单作为参考,以帮忙解决这些地区。

  • 黑名单影响的指标

3.2. SSD

SSD 是其中一种对列入黑名单的工件敏感的措施。SSD 是掂量整个基因组信号标准偏差的指标,较高的分数反映出大量的读数沉积。因而,SSD 可用于评估超高信号的范畴和信号。但首先必须删除列入黑名单的区域。

ChIPQC 在移除来自黑名单区域的信号之前和之后计算 SSD。plotSSD() 函数以红色绘制样本的黑名单前分数,以蓝色绘制黑名单后分数。

事后列入黑名单的 SSD 的较高分数能够表明该样本的黑名单区域中有很强的背景信号。

plotSSD(myQC) + xlim(0, 5)

因为 SSD 分数受到黑名单的强烈影响,因而可能须要更改轴以查看黑名单后分数样本之间的任何差别。

更高的列入黑名单后的 SSD 分数反映了具备更强峰值信号的样本。

plotSSD(myQC) + xlim(0.2, 0.8)

本文由 mdnice 多平台公布

退出移动版