0%

GEO和TCGA原始数据下载

GEO数据下载

如果有GSE号及其GSM号(GSE35156);
就可以根据GEO页面的Relations的SRA得知SRR号

Bystudy已经目录不存在!!!

https://www.ncbi.nlm.nih.gov/sra 找出GSM对应的SRR号(GSM862720对应SRR443883,SRR443884,SRR443885)
GSM和SRP一般是连续对应的,但可能是一对多

然后我会在GEO原始数据ftp下载链接中查找是否存在:(因为有些数据找不到原始数据)
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR+SRR号前三位+/SRR号/

需要下载的数据就再SRR目录里:
比如 ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra

下载工具选择:

Aspera

首选:Aspera,速度最快,但不稳定;
安装和使用参考文章:https://blog.csdn.net/likelet/article/details/8226368
https://www.jianshu.com/p/9142911b2e15
http://blog.sina.com.cn/s/blog_6465cce70102vyid.html

下载链接替换:
如:

1
2
ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra ./

样本数目多则可以写循环输出到一个shell脚本文件中,一行代码一个样本,这样即使某一个样本中断了也不影响其它样本的下载,再运行这个脚本;
如:
有SRR列表文件:
srrlist.txt

$cat srrlist.txt
SRR2120858
SRR2120859
SRR2120879
SRR2120880
SRR2120881
SRR2120887
SRR2120888

1
2
3
4
5
6
#!bin/sh
for k in $(cat $1)
do
ascp -QT -l 100M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/${k:0:6}/$k/$k.sra ./
done

将脚本保存为:ascp.sh

运行:

1
nohup sh ascp.sh srrlist.txt &

wget

如果单一可以使用wget工具,虽然稳定但是速度慢
如:

1
wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR443/SRR443883/SRR443883.sra

prefetch:

如果安装了aspera,并且设置好了环境变量,则会默认调用aspera;

直接prefetch+SRR号

1
prefetch SRR2079363

可以参考这篇文章:https://www.cnblogs.com/ywliao/p/7356528.html

不生产文章,只是文章的搬运工

fastq-dump

下载fastq文件
直接 fastq-dump -O ./ ++SRR号
-O 文件保存目录

1
fastq-dump -O ./ SRR2120881

TCGA 数据下载:

主要是使用gdc-client这官方的工具;
首先下载这软件,然后去TCGA选择需要的数据,并且下载gdc_manifest;

具体教程:https://blog.csdn.net/qq_35203425/article/details/80882988

如果下载需要权限的需要秘钥token;

然后下载指令:

1
gdc-client.exe download -t gdc-user-token文件  -m  gdc_manifest文件

由于下载文件非常大,因此会断:
所以写了个断了之后运行可以检测哪些下载了,哪些没有下载,并且继续下载没有下载的部分的脚步;暂时没有实现自动检测

https://github.com/honvezhang/TCGAdownload/blob/master/chongqi.py

更改这一句:

1
fuck='gdc-client.exe download -t gdc-user-token.2017-11-21T03_56_43.562Z.txt -m '+downloadfile

downloadfile为mainfest文件

数据下载帖子:http://www.biotrainee.com/thread-1696-1-1.html