从NCBI上自动下载超大序列
代码说明:
应用背景Windows系统,安装了perl环境。可以根据您的搜索条件或者提供的GI号,从NCBI上自动下载超大序列。能自动下载超过50000条以上的核酸或蛋白序列。有时候需要根据自己提供的GI号从NCBI上下载需要的基因或蛋白序列,这个小程序可实现自动下载。在windows操作系统下即可轻松完成,直接双击程序,自动运行下载序列。关键技术放在任何文件夹双击运行。相当于在NCBI首页上查询某物种的基因或蛋白序列,然后自动下载保存为fasta格式。根据使用目的修改脚本。使用方法如下:查询核酸序列:NCBI--左上选Nucleotide--右边输入要查询的物种和限制条件,比如番茄tomato mRNA,出来很多序列,在右下方Search details处,可看到查询条件其实是 ("Solanum lycopersicum"[Organism] OR tomato[All Fields]) AND mRNA[All Fields],复制这个查询条件,粘贴到脚本的第12行$query = ""Solanum lycopersicum"[orgn]"的单引号里面覆盖"Solanum lycopersicum"[orgn],脚本14行$url = $base . "esearch.fcgi?db=protein&term=$query&usehistory=y";里面的db=后面的protein改成Nucleotide,32行$efetch_url = $base ."efetch.fcgi?db=protein&WebEnv=$web"里面的protein也改成Nucleotide。修改这三处之后即可查询得到fasta格式序列。如果查询蛋白序列,按上述方法得到查询条件粘到$query后面,把后面的库db改成protein。查询其它库依此类推。
下载说明:请别用迅雷下载,失败请重下,重下不扣分!