🧬 Genomics · Sequencing

NGS 次世代定序
實驗設計指南

從研究目的到分析流程的系統性規劃——覆蓋建庫策略、定序深度計算、品質控管與生物資訊分析。

01

確定研究目的 — 選擇定序策略

不同生物問題需要不同的 NGS 方法,策略選擇影響後續所有設計決策。

研究問題 策略 代表工具 平台
全基因組變異 WGS GATK HaplotypeCaller Illumina NovaSeq
基因表現量 RNA-seq STAR + DESeq2 Illumina NovaSeq / NextSeq
蛋白質結合位點 ChIP-seq MACS2 + deepTools Illumina HiSeq
染色質開放區域 ATAC-seq MACS2 + chromVAR Illumina NextSeq
甲基化分析 Bisulfite-seq Bismark + DSS Illumina NovaSeq
目標區域 Panel / Amplicon GATK + Pindel Illumina MiSeq / Ion Torrent
單細胞轉錄組 scRNA-seq Cell Ranger + Seurat Illumina + 10x Genomics
全長轉錄本 ISO-seq SQANTI3 + IsoQuant PacBio Sequel II / ONT
💡 蛋白質工程應用中 DNA-seq(Amplicon)常用於 深突變掃描(DMS),而 RNA-seq 用於評估設計序列的表現量變化。
02

樣本設計

充足的統計效力來自合適的生物重複數與對照組設計。

  • 生物重複數:RNA-seq 建議 ≥ 3,差異表現分析至少 4–6
  • 技術重複:同一樣本跑兩次,評估定序重現性(通常非必要)
  • 對照組:明確 control vs. treatment,避免混淆因子
  • 批次效應:盡量同批次建庫定序;若無法避免,記錄批次資訊供 ComBat / limma::removeBatchEffect 校正
  • 樣本量估算工具RnaSeqSampleSize(R)、pwr(R)、PROPER
⚠️ 批次效應是 RNA-seq 分析最常見的混淆來源,實驗計劃階段就應規劃好隨機化策略。
03

定序深度計算

深度不足導致偵測力下降;過深則浪費成本。下方計算機協助估算總 reads 數與成本。

應用 建議 Reads 數 涵蓋率
WGS (人類 3 Gb) ~90 億 bp 30× coverage
WES (人類 exome) ~1–2 億 reads 100× coverage
RNA-seq 20–50M reads / 樣本 多數轉錄本 >10 reads
ChIP-seq 20–40M reads 取決於峰寬
ATAC-seq 50–150M reads 核小體解析度
scRNA-seq 1,000–10,000 reads / cell 依細胞數而定
Amplicon-seq (DMS) ≥ 500× / variant 依突變數量決定
📊 各定序類型建議 reads 數比較(百萬 / 樣本)
⚡ 定序深度快速估算機
04

定序平台選擇

平台 讀長 準確率 適合應用
Illumina
NovaSeq / NextSeq / MiSeq
75–300 bp Q30 > 85% RNA-seq、WGS、ChIP-seq、Amplicon
PacBio
Sequel IIe / Revio
10–25 kb (HiFi) Q30 > 99% 全長轉錄本、SV 分析、基因組組裝
Oxford Nanopore
PromethION / MinION
kb–Mb 級 Q20 ~99% 超長讀長、即時定序、直接 RNA-seq
Ion Torrent 200–600 bp Q30 > 80% 臨床 Panel、Amplicon
🔬 定序平台特性比較
讀長選擇
  • Single-end 50/100 bp:RNA-seq 基本分析(省成本)
  • Paired-end 150 bp:基因組、ChIP-seq、差異表現(最常用)
  • Paired-end 250/300 bp:16S 擴增子、低複雜度樣本
05

建庫設計

🧫 DNA 建庫
  1. Fragmentation(超音波或酵素)
  2. End repair + A-tailing
  3. Adapter ligation
  4. Size selection (SPRI beads)
  5. PCR amplification
🔬 RNA 建庫
  1. RNA 品質確認(RIN ≥ 7)
  2. rRNA 去除 polyA 選取
  3. RNA 片段化
  4. 逆轉錄(cDNA 合成)
  5. Strand-specific 建庫(建議)
  6. PCR + 定量
🏷️ UMI 去重複

Unique Molecular Identifier 在逆轉錄前加入,可區分 PCR duplication 與真實分子,提升定量精準度。

推薦用於定量要求高的 bulk RNA-seq 及 scRNA-seq
06

品質控管(QC)

步驟 工具 關鍵指標
建庫前 RNA 品質 Bioanalyzer、Qubit RIN ≥ 7、DV200 ≥ 30%
建庫前 DNA 品質 Bioanalyzer、NanoDrop 260/280 ≈ 1.8、無降解
Raw reads QC FastQCMultiQC Q30 > 80%、GC 分佈正常
Adapter trimming Trimmomaticfastp 殘留 adapter < 1%
Alignment QC PicardRSeQC 對齊率 > 85%(RNA > 70%)
Duplication Picard MarkDuplicates WGS dup < 20%;Amplicon 可接受高 dup
Coverage uniformity mosdepthsamtools 目標區域 > 95% 達到最低深度
07

分析流程設計

📥 Raw FASTQ 🔍 FastQC ✂️ Trimming 🗺️ Alignment 📊 Quantify / Call 📈 統計分析 🖼️ 視覺化
RNA-seq 流程
STAR --genomeDir /ref \
  --readFilesIn R1.fq R2.fq \
  --outSAMtype BAM SortedByCoordinate

featureCounts -a gtf -o counts.txt bam

# DESeq2 (R)
dds <- DESeqDataSetFromMatrix(...)
res <- results(DESeq(dds))
WGS Variant Calling
bwa mem ref.fa R1.fq R2.fq | \
  samtools sort -o sorted.bam

gatk HaplotypeCaller \
  -I sorted.bam -O variants.vcf \
  -R ref.fa

gatk VariantFiltration \
  --variant variants.vcf
✅ 建議使用 SnakemakeNextflow 建立可重現的工作流程,並搭配 conda / Docker 管理環境。


Render API 動態連接

NGS 知識庫搜尋

透過後端 RAG(檢索增強)模型,從同步自 UniProt / PubMed 的知識庫中搜尋與 NGS 相關的蛋白質注釋與文獻片段。

輸入關鍵字後按搜尋,從知識庫取得相關文獻與注釋片段。