從研究目的到分析流程的系統性規劃——覆蓋建庫策略、定序深度計算、品質控管與生物資訊分析。
不同生物問題需要不同的 NGS 方法,策略選擇影響後續所有設計決策。
| 研究問題 | 策略 | 代表工具 | 平台 |
|---|---|---|---|
| 全基因組變異 | WGS | GATK HaplotypeCaller | Illumina NovaSeq |
| 基因表現量 | RNA-seq | STAR + DESeq2 | Illumina NovaSeq / NextSeq |
| 蛋白質結合位點 | ChIP-seq | MACS2 + deepTools | Illumina HiSeq |
| 染色質開放區域 | ATAC-seq | MACS2 + chromVAR | Illumina NextSeq |
| 甲基化分析 | Bisulfite-seq | Bismark + DSS | Illumina NovaSeq |
| 目標區域 | Panel / Amplicon | GATK + Pindel | Illumina MiSeq / Ion Torrent |
| 單細胞轉錄組 | scRNA-seq | Cell Ranger + Seurat | Illumina + 10x Genomics |
| 全長轉錄本 | ISO-seq | SQANTI3 + IsoQuant | PacBio Sequel II / ONT |
充足的統計效力來自合適的生物重複數與對照組設計。
ComBat /
limma::removeBatchEffect 校正
RnaSeqSampleSize(R)、pwr(R)、PROPER
深度不足導致偵測力下降;過深則浪費成本。下方計算機協助估算總 reads 數與成本。
| 應用 | 建議 Reads 數 | 涵蓋率 |
|---|---|---|
| WGS (人類 3 Gb) | ~90 億 bp | 30× coverage |
| WES (人類 exome) | ~1–2 億 reads | 100× coverage |
| RNA-seq | 20–50M reads / 樣本 | 多數轉錄本 >10 reads |
| ChIP-seq | 20–40M reads | 取決於峰寬 |
| ATAC-seq | 50–150M reads | 核小體解析度 |
| scRNA-seq | 1,000–10,000 reads / cell | 依細胞數而定 |
| Amplicon-seq (DMS) | ≥ 500× / variant | 依突變數量決定 |
| 平台 | 讀長 | 準確率 | 適合應用 |
|---|---|---|---|
| Illumina NovaSeq / NextSeq / MiSeq |
75–300 bp | Q30 > 85% | RNA-seq、WGS、ChIP-seq、Amplicon |
| PacBio Sequel IIe / Revio |
10–25 kb (HiFi) | Q30 > 99% | 全長轉錄本、SV 分析、基因組組裝 |
| Oxford Nanopore PromethION / MinION |
kb–Mb 級 | Q20 ~99% | 超長讀長、即時定序、直接 RNA-seq |
| Ion Torrent | 200–600 bp | Q30 > 80% | 臨床 Panel、Amplicon |
Unique Molecular Identifier 在逆轉錄前加入,可區分 PCR duplication 與真實分子,提升定量精準度。
| 步驟 | 工具 | 關鍵指標 |
|---|---|---|
| 建庫前 RNA 品質 | Bioanalyzer、Qubit | RIN ≥ 7、DV200 ≥ 30% |
| 建庫前 DNA 品質 | Bioanalyzer、NanoDrop | 260/280 ≈ 1.8、無降解 |
| Raw reads QC | FastQC、MultiQC |
Q30 > 80%、GC 分佈正常 |
| Adapter trimming | Trimmomatic、fastp |
殘留 adapter < 1% |
| Alignment QC | Picard、RSeQC |
對齊率 > 85%(RNA > 70%) |
| Duplication | Picard MarkDuplicates |
WGS dup < 20%;Amplicon 可接受高 dup |
| Coverage uniformity | mosdepth、samtools |
目標區域 > 95% 達到最低深度 |
STAR --genomeDir /ref \ --readFilesIn R1.fq R2.fq \ --outSAMtype BAM SortedByCoordinate featureCounts -a gtf -o counts.txt bam # DESeq2 (R) dds <- DESeqDataSetFromMatrix(...) res <- results(DESeq(dds))
bwa mem ref.fa R1.fq R2.fq | \ samtools sort -o sorted.bam gatk HaplotypeCaller \ -I sorted.bam -O variants.vcf \ -R ref.fa gatk VariantFiltration \ --variant variants.vcf
conda
/ Docker 管理環境。
11 種常見輸出圖表 · 點擊任意卡片查看深度解讀指南和面試語術
透過後端 RAG(檢索增強)模型,從同步自 UniProt / PubMed 的知識庫中搜尋與 NGS 相關的蛋白質注釋與文獻片段。