Da RefSeq (Ottobre 2008) ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/H_sapiens/ sono stati prelevati i file hs_ref_chr1.gbk.gz ...
sono state estratte le sequenze codificanti (da ATG a STOP) dei geni umani, sono state eliminate quelle che non iniziano con ATG, quelle che non terminano con un codone di STOP, quelle marcate come 'hypotetical protein’, ‘mitochondrial’, ‘automated computational analisys’, ‘similar to'.
Da queste abbiamo distinto le sequenze geniche codificanti contenenti introni --> CDS umane con introni.zip oppure CDS umane con introni.tar.gz (20.022 sequenze)
le sequenze geniche codificanti non contenenti introni CDS umane senza introni.zip oppure CDS umane senza introni.tar.gz (2.008 sequenze)
le sequenze esoniche codificanti Esoni umani.zip oppure Esoni umani.tar.gz (227.273 sequenze)
le sequenze introniche Introni.txt (215.076 sequenze)
coppie di sequenze esoniche codificanti consecutive Esoni umani consecutivi.zip oppure Esoni_umani_consecutivi.tar.gz (205.280 sequenze)
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 0 Esoni umani consecutivi fase 0.zip oppure Esoni umani consecutivi fase 0.txt.tar.gz (95.002 sequenze)
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 1 Esoni umani consecutivi fase 1.zip oppure Esoni umani consecutivi fase 1.txt.tar.gz (66.126 sequenze)
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 2 Esoni umani consecutivi fase 2.zip oppure Esoni umani consecutivi fase 2.txt.tar.gz (44.152 sequenze)

I precedenti dataset sono stati filtrati attraverso ClustalW in modo da eliminare le sequenze ridondanti overo troppo simili tra loro, in particolare per ogni dataset abbiamo allineato ogni sequenza verso tutte e abbiamo eliminato le sequenze che avevano più del 60% di similarità.
Sequenze geniche codificanti contenenti introni e aventi meno del 60% di similarità tra loro CDS_con_introni_60.txt ()
sequenze geniche codificanti non contenenti introni e aventi meno del 60% di similarità tra loro CDS_senza_introni_60.txt ()


le sequenze esoniche codificanti aventi meno del 60% di similarità tra loro Esoni_60.txt ()
le sequenze introniche aventi meno del 60% di similarità tra loro Introni_60.txt ()
coppie di sequenze esoniche codificanti consecutive aventi meno del 60% di similarità tra loro Esoni_consecutivi_60.txt ()
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 0 aventi meno del 60% di similarità tra loro Esoni_consecutivi_fase_0_60.txt ()
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 1 aventi meno del 60% di similarità tra loro Esoni_consecutivi_fase_1_60.txt ()
coppie di sequenze esoniche codificanti consecutive nelle quali l'introne cade in fase 2 aventi meno del 60% di similarità tra loro Esoni_consecutivi_fase_2_60.txt ()

 

File contenente sequenze di promotori umani da -500 basi a +100 rispetto al TSS (transcription start site) (NCBI build 36) HS_promoters.zip oppure HS_promoters.tar.gz