好听好记的网站域名,手机百度app下载安装,制作应用的网站,wordpress 转小程序文章目录 简介安装使用Many to Man-使用基因组路径作为输入One to One 结果其他参数说明可视化两个基因组之间的保守区域并行化 简介
FastANI 是为快速计算全基因组平均核苷酸同一性#xff08;Average Nucleotide Identity#xff0c;ANI#xff09;而开发的#xff0c;无… 文章目录 简介安装使用Many to Man-使用基因组路径作为输入One to One 结果其他参数说明可视化两个基因组之间的保守区域并行化 简介
FastANI 是为快速计算全基因组平均核苷酸同一性Average Nucleotide IdentityANI而开发的无需比对。ANI 的定义是两个微生物基因组之间共享的同源基因对的平均核苷酸同一性。FastANI 支持对完整基因组和基因组草图进行成对比较。其基本程序与 Goris 等人 2007 年描述的工作流程相似。不过它避免了费时的序列比对而是使用 Mashmap 作为基于 MinHash 的序列映射引擎来计算同源比对和比对同一性估计值。根据我们对完整基因组和基因组草图的实测试其准确性与基于 BLAST 的 ANI 的计算相当而且速度提高了两到三个数量级。因此它适用于大量基因组对的成对 ANI 计算。有关其速度、准确性和潜在应用的更多详情请参考对 9 万个原核生物基因组的高通量 ANI 分析揭示了清晰的物种界限High Throughput ANI Analysis of 90K Prokaryotic Genomes Reveals Clear Species Boundaries。
安装
conda install -c bioconda fastani使用
Many to Man-使用基因组路径作为输入
(gtdbtk) [yutaomyosin Eisenbacteria]$ head fa.path
./GCA_001780165.1_genomic.fa
./GCA_003235575.1_genomic.fa
./GCA_005893165.1_genomic.fa.gz(gtdbtk) [yutaomyosin Eisenbacteria]$ time fastANI --ql fa.path --rl fa.path -o ANI.txt --matrix --visualize -t 30
# -ql query list
# -rl reference list
# -o 成对ANI计算结果
# -matrix 同时输出矩阵以-o选项后的名称加上.matrix
# --visualize 可视化
# -t threadOne to One
计算单个查询基因组和单个参考基因组之间的 ANI
$ ./fastANI -q [QUERY_GENOME] -r [REFERENCE_GENOME] -o [OUTPUT_FILE] 结果
在上述所有用例中OUTPUT_FILE 将包含以制表符分隔的行其中有查询基因组、参考基因组、ANI 值、双向片段比对计数和查询片段总数。比对分数相对于查询基因组是映射和片段总数的简单比率。用户还可以选择通过提供 --matrix 参数获得第二个 .matrix 文件其中包含以 phylip 格式的下三角矩阵排列的标识值。**注意如果 ANI 值远低于 80%则不会报告基因组对的 ANI 输出。**这种情况应在氨基酸水平上计算参见CompareM-平均氨基酸一致性AAI计算。
示例1
(gtdbtk) [yutaomyosin Eisenbacteria]$ head ANI.txt ANI.txt.matrixANI.txt
# genomeA genomeB ANI%
GCA_001780165.1_genomic.fa GCA_001780165.1_genomic.fa 100 1170 1176
GCA_001780165.1_genomic.fa GCA_005893365.1_genomic.fa 78.8657 431 1176
GCA_001780165.1_genomic.fa GCA_005893225.1_genomic.fa 78.8112 381 1176
GCA_001780165.1_genomic.fa GCA_011357805.1_genomic.fa 78.7589 529 1176
GCA_001780165.1_genomic.fa GCA_005893185.1_genomic.fa 78.4959 313 1176
GCA_001780165.1_genomic.fa GCA_005893295.1_genomic.fa 78.2516 308 1176
GCA_001780165.1_genomic.fa GCA_013140805.1_genomic.fa 77.7736 309 1176
GCA_001780165.1_genomic.fa GCA_903921835.1_genomic.fa 77.3711 302 1176
GCA_001780165.1_genomic.fa GCA_902826705.1_genomic.fa 77.3634 256 1176
GCA_003235575.1_genomic.fa GCA_003235575.1_genomic.fa 100 881 888 ANI.txt.matrix
17
GCA_001780165.1_genomic.fa
GCA_003235575.1_genomic.fa NA
GCA_005893165.1_genomic.fa NA 77.231445
GCA_005893185.1_genomic.fa 78.464157 NA NA
GCA_005893225.1_genomic.fa 78.779877 NA NA 78.797363
GCA_005893265.1_genomic.fa NA NA 79.801826 NA NA
GCA_005893275.1_genomic.fa NA NA 79.954613 NA NA 84.944542
GCA_005893295.1_genomic.fa 78.282249 NA NA 78.198181 78.400757 NA NA
GCA_005893305.1_genomic.fa NA 77.308350 77.910553 NA NA 77.764481 77.908798 NA示例2
(gtdbtk) [yutaomyosin Krumholzibacteriota]$ head Krumholzibacteriota_ANI.txt Krumholzibacteriota_ANI.txt.matrixKrumholzibacteriota_ANI.txt
GCA_002085285.1_genomic.fa GCA_002085285.1_genomic.fa 100 425 435
GCA_002403075.1_genomic.fa GCA_002403075.1_genomic.fa 100 772 776
GCA_002403075.1_genomic.fa GCA_002403295.1_genomic.fa 86.9047 500 776
GCA_002403295.1_genomic.fa GCA_002403295.1_genomic.fa 99.9999 599 615
GCA_002403295.1_genomic.fa GCA_002403075.1_genomic.fa 86.8991 506 615
GCA_002747875.1_genomic.fa GCA_002747875.1_genomic.fa 100 936 948
GCA_002747875.1_genomic.fa GCA_002790835.1_genomic.fa 78.4217 265 948
GCA_002747875.1_genomic.fa GCA_903847545.1_genomic.fa 78.1095 189 948
GCA_002747875.1_genomic.fa GCA_003646045.1_genomic.fa 78.0435 186 948
GCA_002747875.1_genomic.fa GCA_903859215.1_genomic.fa 77.8668 240 948 Krumholzibacteriota_ANI.txt.matrix
16
GCA_002085285.1_genomic.fa
GCA_002403075.1_genomic.fa NA
GCA_002403295.1_genomic.fa NA 86.901932
GCA_002747875.1_genomic.fa NA NA NA
GCA_002790835.1_genomic.fa NA NA NA 78.286392
GCA_003353795.1_genomic.fa NA NA NA NA 76.844803
GCA_003369455.1_genomic.fa NA NA NA NA NA NA
GCA_003369535.1_genomic.fa NA NA NA NA NA NA 77.283585
GCA_003646045.1_genomic.fa NA NA NA 78.091743 78.153748 77.447433 NA NA
其他参数说明
# version 1.32
-r value, --ref valuereference genome (fasta/fastq)[.gz]--refList value, --rl valuea file containing list of reference genome files, one genome per line-q value, --query valuequery genome (fasta/fastq)[.gz]--ql value, --queryList valuea file containing list of query genome files, one genome per line
-t value, --threads valuethread count for parallel execution [default : 1]
--visualizeoutput mappings for visualization, can be enabled for single genome tosingle genome comparison only [disabled by default]--matrixalso output ANI values as lower triangular matrix (format inspired fromphylip). If enabled, you should expect an output file with .matrixextension [disabled by default]-o value, --output value [required]output file name
可视化两个基因组之间的保守区域
FastANI 支持将两个基因组之间计算出的比对区域可视化。要获得这种可视化效果需要如上所述使用 FastANI 进行一对一比较但需要提供一个额外的标记–visualize。该标志会强制 FastANI 输出一个映射文件扩展名为 .visual其中包含所有互易映射的信息。最后资源库中提供了一个 R 脚本该脚本使用 genoPlotR 软件包绘制这些映射图。这里我们展示一个使用两个基因组运行的示例Bartonella quintanaGenBankCP003784.1和 Bartonella henselaeNCBI 参考序列NC_005956.1。
$ ./fastANI -q B_quintana.fna -r B_henselae.fna --visualize -o fastani.out
$ Rscript scripts/visualize.R B_quintana.fna B_henselae.fna fastani.out.visual并行化
FastANIv1.1 及以后版本支持多线程使用-t配置线程数。要使 FastANI 的并行化超越单个计算节点用户还可以选择简单地将参考数据库划分为多个分块并将它们作为并行进程执行。我们在资源库中提供了一个脚本用于随机分割数据库。