GEO数据下载
如果有GSE号及其GSM号(GSE35156);
就可以根据GEO页面的Relations的SRA得知SRR号
Bystudy已经目录不存在!!!
在 https://www.ncbi.nlm.nih.gov/sra 找出GSM对应的SRR号(GSM862720对应SRR443883,SRR443884,SRR443885)
GSM和SRP一般是连续对应的,但可能是一对多
然后我会在GEO原始数据ftp下载链接中查找是否存在:(因为有些数据找不到原始数据)
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR+SRR号前三位+/SRR号/
需要下载的数据就再SRR目录里:
比如 ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra
下载工具选择:
Aspera
首选:Aspera,速度最快,但不稳定;
安装和使用参考文章:https://blog.csdn.net/likelet/article/details/8226368
https://www.jianshu.com/p/9142911b2e15
http://blog.sina.com.cn/s/blog_6465cce70102vyid.html
下载链接替换:
如:
1 | ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra ./ |
样本数目多则可以写循环输出到一个shell脚本文件中,一行代码一个样本,这样即使某一个样本中断了也不影响其它样本的下载,再运行这个脚本;
如:
有SRR列表文件:
srrlist.txt
$cat srrlist.txt
SRR2120858
SRR2120859
SRR2120879
SRR2120880
SRR2120881
SRR2120887
SRR2120888
1 | #!bin/sh |
将脚本保存为:ascp.sh
运行:
1 | nohup sh ascp.sh srrlist.txt & |
wget
如果单一可以使用wget工具,虽然稳定但是速度慢
如:
1 | wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra |
prefetch:
如果安装了aspera,并且设置好了环境变量,则会默认调用aspera;
直接prefetch+SRR号
1 | prefetch SRR2079363 |
可以参考这篇文章:https://www.cnblogs.com/ywliao/p/7356528.html
不生产文章,只是文章的搬运工
fastq-dump
下载fastq文件
直接 fastq-dump -O ./ ++SRR号
-O 文件保存目录
1 | fastq-dump -O ./ SRR2120881 |
TCGA 数据下载:
主要是使用gdc-client这官方的工具;
首先下载这软件,然后去TCGA选择需要的数据,并且下载gdc_manifest;
具体教程:https://blog.csdn.net/qq_35203425/article/details/80882988
如果下载需要权限的需要秘钥token;
然后下载指令:
1 | gdc-client.exe download -t gdc-user-token文件 -m gdc_manifest文件 |
由于下载文件非常大,因此会断:
所以写了个断了之后运行可以检测哪些下载了,哪些没有下载,并且继续下载没有下载的部分的脚步;暂时没有实现自动检测
https://github.com/honvezhang/TCGAdownload/blob/master/chongqi.py
更改这一句:
1 | fuck='gdc-client.exe download -t gdc-user-token.2017-11-21T03_56_43.562Z.txt -m '+downloadfile |
downloadfile为mainfest文件