关于后端:RNAseq-转录组标准分析流程和常用工具软件介绍

45次阅读

共计 1214 个字符,预计需要花费 4 分钟才能阅读完成。

笔记内容摘要:RNA-seq 转录组 基础知识与规范剖析流程,简略记录学习过程。

转录组剖析 是对样本转录产物 RNA 的深刻开掘钻研。通常状况下,动物的表型差别可能由许多因素管制,其中包含基因的转录环节,不同基因的转录状况有所不同,可能会使表型发生变化。

差别表白剖析 是对 mRNA 测序后取得表白矩阵,钻研不同基因的表白量差别,除此之外,还有性能富集剖析、联结剖析等多种手段。

转录组剖析规范流程

数据筹备

  • 测序数据

测序数据:fastq格局的文件(由测序公司提供),每 4 行为一个 reads。

  • 数据信息

样本信息表:每行是一个样本,每列是一个性状表型。

基因信息表:每行是一个基因、每列是一个信息,信息为正文所得。

  • 参考基因组

1. 基因组序列.fastq
2. 基因正文.gtf

这一部分是后期数据筹备的过程,通过测序或者数据库获取原始数据,用于后续的剖析流程。

比对到参考基因组

  • 操作步骤
    1. 构建参考基因组
    2. 序列比对
    3. 压缩和排序
    4. 建设索引 bam index
  • 输入文件
    比照后果.bam 利用 IGV 可视化比照软件可能关上 bam 文件进行查看。

定量表白

  • 操作步骤
    htseq htseq-count
    subread(rsubread)

利用上述软件实现单个样本表白量的计算,另外还能够将 count 格局转化为 FPKM 格局,之后用于 R 语言进一步绘图应用。

  • 输入文件
    定量后果.count

表白矩阵

表白矩阵的每一行是一个基因,每一列是一个样本。

  • 操作步骤
    1.counts 矩阵
    2.TPM 矩阵
    3.TPM+TMM 矩阵

上述步骤是进行数据的标准化和解决,构建适合的表白矩阵,TPM 和 TMM 是不同的改正办法,造成如下的数据格式

差别表白剖析

  • 操作步骤

1.DESeq2
有生物学反复时应用。用于寻找组间显著表白变动的基因,DESeq2 次要应用负二项分布的模型来进行差别剖析。

2.edgeR

无生物学反复时应用。edgeR 是一个钻研反复计数数据差别表白的 Bioconductor 软件包。基于负二项分布的统计办法,包含教训贝叶斯预计、准确测验、狭义线性模型和准似然测验。

后续还能够进行 KEGG,GSEA,GO 富集剖析

转录组数据分析 所需软件 列表:
质控
fastqc , multiqc, trimmomatic, cutadapt ,trim-galore
比对
star, hisat2, bowtie2, tophat, bwa, subread
计数
htseq, bedtools, deeptools, salmon

参考资料:https://www.genek.cn
https://blog.csdn.net/bio_meimei/article/details/109458283
https://blog.csdn.net/qq_28723681/article/details/124914014
https://blog.csdn.net/weixin_45536936/article/details/126026764

本文由 mdnice 多平台公布

正文完
 0