미생물학 연구 시야넓히기 (미연시)

[linux] ASPERA로 GenBank nt db 다운로드 하는 법 (개빠름)

Ufungi 2024. 2. 7. 16:15

Linux system에서 설치는 아래 블로그 참고

 

1000genome 데이터 다운 받는 법 with Aspera(ascp), Linux

1. linux용 IBM aspera connect 설치 https://www.ibm.com/aspera/connect/ 에 방문한 뒤 cd ~ wget https://d3gcli72yxqn2z.cloudfront.net/downloads/connect/latest/bin/ibm-aspera-connect_4.1.0.46_linux.tar.gz tar -xvf ibm-aspera-connect_4.1.0.46_linux.sh.

bioinfo-bme.tistory.com

 

설치 후 아래 코드 실행

for ((i=0; i<=128; i++))
do
    printf -v num "%03d" $i
    ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -QT -l 1000M -k 2 anonftp@ftp.ncbi.nlhttp://m.nih.gov:blast/db/nt.${num}.tar.gz /archive/genome/snyoo/blastdb
done

wget https://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz
tar -xvzf taxdb.tar.gz

 

/archive/genome/snyoo/blastdb <- 이 부분은 본인 output dir 로 바꾸면 됨

 

다 받으면 아래 코드로 output dir에서 압축 해제

for i in {0..128}; do
    num=$(printf "%03d" $i)
    tar -xvzf nt.${num}.tar.gz
    rm nt.${num}.tar.gz
done