CRISPR 指南设计工具和算法
CRISPR 指南设计工具采用最佳实践和最新的计算工具,为人类和小鼠基因组中的每个基因提供最佳的 CRISPR RNA (crRNA)或单导 RNA (sgRNA)序列。
访问 CRISPR 设计工具
CRISPR 指南设计算法
每个基因都存在大量的候选引导序列(某些基因多达1000个),但确定最佳的引导序列是一项非常困难的任务。在选择用于敲除特定基因的引导序列时,必须考虑许多要求。当前的算法会考虑下述需求,然后为每个需求生成分数。然后对靶点进行排序,并为每个基因选择排名靠前的靶点。
下面,我们将描述指南搜索和排名算法的每个步骤,并在适用的情况下提供基本原理和方法。
靶标排名
从靶标基因组中提取所有能够敲除基因的候选靶点(即靶标的切割位点与特定基因的编码区域重叠)。例如,我们鉴定出9,967,686个靶向人类基因组(GRCh38)编码区的引导序列。
首先,根据达到特定阈值的特定参数对每个基因的靶点进行排序,其中达到阈值的靶点将获得最高优先级。参数包括:靶向评分和脱靶评分,靶点在基因中的相对位置,单核苷酸多态性(SNP)概率,以及所覆盖的转录本亚型比例(每个参数的具体说明及评分方法见下一节“参数评分”)。只有通过特定阈值的参数才会被赋予最高优先级。各参数的阈值为:
- 1.靶向评分 ≥ 0.4
- 2.靶向评分 ≥ 0.4
- 3.脱靶评分 ≥0.67
- 4.靶点在基因内的相对位置 ≤0.5
- 5.SNP概率 ≤0.05
- 6.转录本覆盖比例 > 0.5
注:特定基因可能没有引导序列能满足所有筛选阈值。此时,各参数的优先级顺序如下所示:
SNP 概率 > 转录本覆盖比例 > 靶点在基因内的相对位置 > 脱靶评分 > 靶向评分
针对特定转录本的最佳靶点也会被生成。这些靶点会参考上述所有参数,但不再考虑转录本覆盖比例,因为在分析特定转录本时,该参数已不适用。若用户希望获得某一特定转录本的最优靶点,建议输入RefSeq转录本名称,而非基因名称。注:仅包含已验证的 mRNA 和 ncRNA (MN和NR)转录本。预测的 mRNA 和 ncRNA (XM和XR)不计入某个引导序列所能靶向的转录本比例。
系统会基于多个评分参数,计算一个综合靶点评分(范围为 0 到 1)。各参数的加权如下:
- 1.靶点在基因内的相对位置:0.4
- 2.转录本覆盖比例:0.4
- 3.靶向评分:0.1
- 4.脱靶评分:0.1
参数评分
靶向强度
gRNA的靶向特异性由其引导序列与相应基因组DNA序列之间的互补性决定。为了在引导序列指定的位置产生双链断裂(DSB),引导序列与其互补DNA序列之间必须形成强烈的结合。这一结合强度的不同,会影响双链断裂成功发生的概率。
每个靶点都会被赋予一个“靶向评分”(范围为 0 到 1),评分越高,表示靶向强度越强。用于计算靶向评分的算法可参考 Doench et al.(1).
脱靶评估
理想情况下,特定的引导序列应与其目标序列具有100%的同源性,并且在基因组其他位置不具备同源性。然而,由于靶序列结合过程可以容忍若干错配,基因组中往往存在多个潜在的脱靶位点,这些位点与引导序列之间存在一个或多个碱基错配。
每个靶点都会生成一个“脱靶评分”(范围为0到1),该评分表示发生脱靶切割的反向概率;分数越高,表示脱靶可能性越低,特异性越高。
靶点在基因内的相对位置
切割位点越靠近基因的N端(氨基端),实现功能性基因敲除的可能性就越高。这是因为如果在基因起始处发生移码突变,会破坏更大比例的蛋白质结构,而在基因末端发生移码影响较小。
靶点的相对位置是相对于蛋白编码转录本中编码区起始位置来评分的(范围为0到1),分数越低,表示该引导序列越靠近基因的N端。
SNP 概率
靶序列与引导序列之间的碱基错配会显著削弱二者的结合强度;即便只有一个错配,也可能大幅降低引导序列与互补基因组序列之间的结合效率,进而影响切割或编辑的效果。
SNP概率(范围0 - 1)表示目标序列中至少有一个碱基变异的可能性。靶序列中含有SNP的概率是根据该序列中发现的SNP数量以及这些SNP在人群中的等位基因频率计算得出的。
注:由于小鼠通常为近交品系,因此不对其引导序列提供SNP概率数据。
覆盖转录本比例
许多基因可编码多个不同的转录本。除非在设计工具中明确指定了某一特定转录本作为目标,否则更推荐使用能够靶向全部或大多数转录本的引导序列。仅包括经过验证的mRNA和ncRNA(MN和NR)的转录本。预测型的mRNA和ncRNA(XM和XR)不计入评估引导序列所覆盖转录本亚型比例的计算中。
CRISPR 基因组编辑产品和资源
资源
- Crisflash to extract all guide locations and identify off-targets (PMID: 30649181) (2).
- Azimuth to determine ontarget scores (PMID: 26780180)(1).
- Genome Assembly & RefSeq annotations based on: GRCh38.p13 / GRCm38.p6.
- SNPs identified using locations and allele frequencies from dbSNP build GCF_000001405.38.
- All other software was developed in house and is proprietary.
参考文献
- Doench JG et al. Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9. Nat Biotechnol 34: 184–91.
- Jacquin ALS et al. Crisflash: open-source software to generate CRISPR guide RNAs against genomes annotated with individual variation. Bioinformatics 35(17): 3146–7.