Arquivo Europeu de Nucleotídeos
| |
---|---|
Descrição | |
Arquivo abrangente de sequências de nucleotídeos, anotações e dados associados. | |
Tipos de dados disponibilizados | |
Sequência de nucleotídeos, anotação funcional, leituras de sequenciamento e informações do sequenciador, detalhes da amostra e outros registros relacionados. | |
Organismos contemplados | |
Todos | |
Centro de pesquisa | |
Instituto Europeu de Bioinformática | |
Laboratório | |
Grupo PANDA | |
Data de lançamento | |
Abril 1982 | |
Website | |
ENA | |
O Arquivo Europeu de Nucleotídeos (ENA) é um repositório que fornece acesso gratuito e irrestrito a sequências de DNA e RNA anotadas. Ele também armazena informações complementares, como procedimentos experimentais, detalhes da montagem de sequências [en] e outros metadados relacionados a projetos de sequenciamento.[1] O arquivo é composto por três bancos de dados principais: o Arquivo de Leitura de Sequências [en], o Arquivo de Traços e o Banco de Dados de Sequências de Nucleotídeos do EMBL (também conhecido como EMBL-bank).[2] O ENA é produzido e mantido pelo Instituto Europeu de Bioinformática e é membro da Colaboração Internacional de Bancos de Dados de Sequências de Nucleotídeos [en] (INSDC), juntamente com o Banco de Dados de DNA do Japão [en] e o GenBank.
O ENA surgiu a partir da Biblioteca de Dados EMBL, que foi lançada em 1982 como o primeiro recurso com suporte internacional para dados de sequência de nucleotídeos.[3] No início de 2012, o ENA e outros bancos de dados membros da INSDC continham genomas completos de 5 682 organismos e dados de sequência de quase 700 000.[4] Além disso, o volume de dados está aumentando exponencialmente, com um tempo de duplicação de aproximadamente 10 meses.[5]
História
[editar | editar código fonte]O Arquivo Europeu de Nucleotídeos originou-se de bancos de dados separados, o mais antigo dos quais foi a Biblioteca de Dados EMBL, criada em outubro de 1980 no Laboratório Europeu de Biologia Molecular (EMBL), em Heidelberg.[3] A primeira versão desse banco de dados foi lançada em abril de 1982 e continha um total de 568 entradas separadas que consistiam em cerca de 500 000 pares de bases.[6] Em 1984, referindo-se à Biblioteca de Dados do EMBL, Kneale e Kennard observaram que “ficou claro há alguns anos que um grande banco de dados computadorizado de sequências seria essencial para a pesquisa em Biologia Molecular”.[6]
Apesar de o principal método de distribuição na época ser via fita magnética, em 1987, a Biblioteca de Dados EMBL estava sendo usada por cerca de 10 000 cientistas em todo o mundo.[7] No mesmo ano, o Servidor de Arquivos EMBL foi introduzido para disponibilizar os registros do banco de dados na BITNET, EARN [en] e no início da internet.[8] Em maio de 1988, a revista Nucleic Acids Research [en] introduziu uma política declarando que “os manuscritos enviados à Nucleic Acids Research e que contenham ou discutam dados de sequência devem ser acompanhados de evidências de que os dados foram depositados na Biblioteca de Dados EMBL”.[9]

Na década de 1990, a Biblioteca de Dados EMBL passou a se chamar Banco de Dados de Sequências de Nucleotídeos EMBL[10] e foi formalmente transferida para o Instituto Europeu de Bioinformática (EBI) de Heidelberg.[11] Em 2003, o banco de dados de sequências de nucleotídeos foi ampliado com a adição do Sequence Version Archive (SVA), que mantém registros de todas as entradas atuais e anteriores no banco de dados.[1] Um ano depois, em junho de 2004, os limites do comprimento máximo da sequência para cada registro (então 350 kilobases) foram removidos, permitindo que sequências de genoma inteiras fossem armazenadas como uma única entrada no banco de dados.[12]

Após a adoção do sequenciamento Sanger, o Wellcome Trust Sanger Institute [en] (então conhecido como Centro Sanger) começou a catalogar as leituras de sequências juntamente com informações de qualidade em um banco de dados chamado The Trace Archive.[13] O Trace Archive cresceu substancialmente com a comercialização de tecnologias de sequenciamento paralelo de alto rendimento por empresas como a Roche [en] e a Illumina.[14] Em 2008, o EBI combinou o Trace Archive, o Banco de Dados de Sequências de Nucleotídeos EMBL (agora também conhecido como EMBL-Bank)[2] e um recém-desenvolvido Sequence (ou Short) Read Archive (SRA) para formar o ENA, visando fornecer um arquivo abrangente de sequências de nucleotídeos.[13] Como membro da Colaboração Internacional de Bancos de Dados de Sequências de Nucleotídeos [en], o ENA troca envios de dados diariamente com o Banco de Dados de DNA do Japão [en] e o GenBank.[15]
Banco de dados de sequências de nucleotídeos EMBL
[editar | editar código fonte]
O Banco de Dados de Sequências de Nucleotídeos EMBL (também conhecido como EMBL-Bank) é a seção do ENA que contém detalhes de alto nível da montagem do genoma [en], bem como sequências montadas e sua anotação funcional.[12][17] A contribuição para o EMBL-Bank é feita por envio direto de consórcios de genoma e grupos de pesquisa menores, bem como pela recuperação de dados de sequência associados a pedidos de patente.[2][18]
A partir da versão 114 (dezembro de 2012), o banco de dados de sequências de nucleotídeos do EMBL contém aproximadamente 5×1011 nucleotídeos com um tamanho de arquivo não compactado de 1,6 terabytes.[16]
Classes de dados
[editar | editar código fonte]O banco de dados de sequências de nucleotídeos do EMBL suporta uma variedade de dados derivados de diferentes fontes, incluindo, entre outros:[19]
- Marcadores de sequência expressa com seus dados de amostra associados.
- Sequência de nucleotídeos sendo gerada a partir de projetos de sequenciamento de genoma completo em vários estágios de montagem, incluindo contigs [en] completos e sequência anotada e totalmente montada.
- Dados relacionados à transcriptômica, como DNA complementar, com anotação opcional.
- Anotações novas ou ampliadas de sequências de codificação existentes, por exemplo, novas versões de sequência com códons de início ou término corrigidos.
Formato EMBL-Bank
[editar | editar código fonte]O banco de dados de sequências de nucleotídeos do EMBL usa um formato de arquivo plano [en] de texto simples para representar e armazenar dados, normalmente chamado de formato EMBL-Bank.[20] O formato EMBL-Bank usa uma sintaxe [en] diferente dos registros no DDBJ e no GenBank, embora cada formato use determinada nomenclatura padronizada, como taxonomias definidas pelo banco de dados taxonômicos do NCBI. Cada linha de um arquivo no formato EMBL começa com um código de duas letras, como AC
para rotular o número de acesso [en] e KW
para uma lista de palavras-chave relevantes para o registro; cada registro termina com //
.[20]
Arquivo de Leituras de Sequências (SRA)
[editar | editar código fonte]
O ENA opera uma instância do Arquivo de Leituras de Sequências (SRA), um repositório de arquivo de leituras de sequências e análises que se destinam à divulgação pública.[23] Originalmente chamado de Short Read Archive (arquivo de leituras curtas), o nome foi alterado em antecipação às futuras tecnologias de sequenciamento que poderiam produzir leituras de sequências mais longas.[24] Atualmente, o arquivo aceita leituras de sequências geradas por plataformas de sequenciamento [en] de próxima geração, como o Analisador de Genoma Illumina e o ABI SOLiD [en], bem como algumas análises e alinhamentos correspondentes.[25] O SRA opera sob a orientação da Colaboração Internacional de Bancos de Dados de Sequências de Nucleotídeos [en] (INSDC)[23] e é o repositório de crescimento mais rápido no ENA.[14]
Em 2010, o Arquivo de Leituras de Sequências constituía aproximadamente 95% dos dados de pares de bases disponíveis por meio da ENA,[13] abrangendo mais de 500 000 000 000 de leituras de sequências compostas por mais de 60 trilhões (6×1013) de pares de bases.[23] Quase metade desses dados foi depositada em relação ao Projeto 1000 Genomas,[23] no qual os pesquisadores publicaram seus dados de sequência na SRA em tempo real.[26] No total, em setembro de 2010, 65% do Arquivo de Leituras de Sequências eram sequências genômicas humanas, com outros 16% relacionados a leituras de sequências de metagenomas humanos.[23]
O formato de dados preferido para os arquivos enviados à SRA é o formato BAM, que é capaz de armazenar leituras alinhadas e não alinhadas.[23] Internamente, a SRA conta com o NCBI SRA Toolkit, usado em todos os três bancos de dados membros do INSDC, para fornecer compressão de dados flexível, acesso à API e conversão para outros formatos, como o FASTQ.[22]
Acesso aos dados
[editar | editar código fonte]Os dados contidos no ENA podem ser acessados manual ou programaticamente via URL REST por meio do navegador ENA. Inicialmente limitado ao Sequence Read Archive,[14] o navegador ENA agora também oferece acesso ao Trace Archive e ao EMBL-Bank, permitindo a recuperação de arquivos em diversos formatos, incluindo XML, HTML, FASTA e FASTQ.[13] Registros individuais podem ser acessados usando seus números de acesso e outras consultas de texto são permitidas por meio do mecanismo de busca EB-eye [en].[13] Além disso, as pesquisas baseadas em similaridade de sequência implementadas usando gráficos De Bruijn [en] oferecem outro método de recuperação de registros do ENA.[14]
O ENA pode ser acessado por meio das APIs SOAP e REST do EBI, que também oferecem acesso a outros bancos de dados hospedados no EBI, como o Ensembl e o InterPro.[27]
Armazenamento
[editar | editar código fonte]O Arquivo Europeu de Nucleotídeos lida com grandes volumes de dados que representam um desafio significativo de armazenamento.[5][28] Desde 2012, os requisitos de armazenamento do ENA continuam a crescer exponencialmente, com um tempo de duplicação de aproximadamente 10 meses.[5] Para gerenciar esse aumento, o ENA descarta seletivamente os dados menos valiosos da plataforma de sequenciamento e implementa estratégias avançadas de compressão.[23][29] O kit de ferramentas de compactação baseado em referência CRAM foi desenvolvido para reduzir os requisitos de armazenamento da ENA.[5][30]
Financiamento
[editar | editar código fonte]Atualmente, o ENA é financiado conjuntamente pelo Laboratório Europeu de Biologia Molecular, pela Comissão Europeia e pelo Wellcome Trust.[13] A estrutura emergente ELIXIR, coordenada pela diretora do EBI, Janet Thornton, pretende garantir uma infraestrutura de financiamento europeia sustentável para apoiar a disponibilidade contínua de bancos de dados de ciências da vida, como o ENA.[29][31][32]
Referências
[editar | editar código fonte]- ↑ a b Cochrane, G.; Akhtar, R.; Aldebert, P.; Althorpe, N.; Baldwin, A.; Bates, K.; Bhattacharyya, S.; Bonfield, J.; Bower, L. (23 de dezembro de 2007). «Priorities for nucleotide trace, sequence and annotation data capture at the Ensembl Trace Archive and the EMBL Nucleotide Sequence Database». Nucleic Acids Research (em inglês). 36 (Database): D5–D12. ISSN 0305-1048. PMC 2238915
. PMID 18039715. doi:10.1093/nar/gkm1018. Consultado em 18 de fevereiro de 2025
- ↑ a b c «ENA Browser». www.ebi.ac.uk (em inglês). Consultado em 18 de fevereiro de 2025
- ↑ a b Hamm, Gregory H.; Cameron, Graham N. (1986). «The EMBL data library». Nucleic Acids Research (em inglês). 14 (1): 5–9. ISSN 0305-1048. PMC 339348
. PMID 3945550. doi:10.1093/nar/14.1.5. Consultado em 19 de fevereiro de 2025
- ↑ Cochrane, Guy; Cook, Charles E; Birney, Ewan (dezembro de 2012). «The future of DNA sequence archiving». GigaScience (em inglês). 1 (1). ISSN 2047-217X. PMC 3617450
. PMID 23587147. doi:10.1186/2047-217X-1-2. Consultado em 19 de fevereiro de 2025
- ↑ a b c d Cochrane, Guy; Alako, Blaise; Amid, Clara; Bower, Lawrence; Cerdeño-Tárraga, Ana; Cleland, Iain; Gibson, Richard; Goodgame, Neil; Jang, Mikyung (29 de novembro de 2012). «Facing growth in the European Nucleotide Archive». Nucleic Acids Research (em inglês). 41 (D1): D30–D35. ISSN 0305-1048. PMC 3531187
. PMID 23203883. doi:10.1093/nar/gks1175. Consultado em 19 de fevereiro de 2025
- ↑ a b Kneale, G. G.; Kennard, Olga (1 de dezembro de 1984). «The EMBL nucleotide sequence data library». Biochemical Society Transactions (em inglês). 12 (6): 1011–1014. ISSN 0300-5127. doi:10.1042/bst0121011. Consultado em 19 de fevereiro de 2025
- ↑ Cameron, Graham N. (1988). «The EMBL data library». Nucleic Acids Research (em inglês). 16 (5): 1865–1867. ISSN 0305-1048. PMC 338182
. PMID 3353226. doi:10.1093/nar/16.5.1865. Consultado em 19 de fevereiro de 2025
- ↑ Fuchs, R.; Stoehr, P.; Rice, P.; Omond, R.; Cameron, G. (11 de agosto de 1990). «New services of the EMBL Data Library». Nucleic Acids Research (em inglês). 18 (15): 4319–4324. ISSN 0305-1048. PMC 331247
. PMID 2388823. doi:10.1093/nar/18.15.4319. Consultado em 19 de fevereiro de 2025
- ↑ Kahn, Patricia; Hazledine, David (25 de maio de 1988). «NAR's new requirement for data submission to the EMBL data library: information for authors». Nucleic Acids Research (em inglês). 16 (10): I–IV. Consultado em 19 de fevereiro de 2025
- ↑ EMBL-EBI. «What is ENA? | European Nucleotide Archive» (em inglês). Consultado em 19 de fevereiro de 2025
- ↑ Rodriguez-Tome, P (1 de janeiro de 1996). «The European Bioinformatics Institute (EBI) databases». Nucleic Acids Research. 24 (1): 6–12. PMC 145572
. PMID 8594602. doi:10.1093/nar/24.1.6. Consultado em 19 de fevereiro de 2025
- ↑ a b Stoesser, G. (1 de janeiro de 2003). «The EMBL Nucleotide Sequence Database: major new developments». Nucleic Acids Research. 31 (1): 17–22. PMC 165468
. PMID 12519939. doi:10.1093/nar/gkg021. Consultado em 19 de fevereiro de 2025
- ↑ a b c d e f Leinonen, R.; Akhtar, R.; Birney, E.; Bower, L.; Cerdeno-Tarraga, A.; Cheng, Y.; Cleland, I.; Faruque, N.; Goodgame, N. (1 de janeiro de 2011). «The European Nucleotide Archive». Nucleic Acids Research (em inglês). 39 (Database): D28–D31. ISSN 0305-1048. PMC 3013801
. PMID 20972220. doi:10.1093/nar/gkq967. Consultado em 20 de fevereiro de 2025
- ↑ a b c d Leinonen, Rasko; Akhtar, Ruth; Birney, Ewan; Bonfield, James; Bower, Lawrence; Corbett, Matt; Cheng, Ying; Demiralp, Fehmi; Faruque, Nadeem (janeiro de 2010). «Improvements to services at the European Nucleotide Archive». Nucleic Acids Research (em inglês). 38 (suppl_1): D39–D45. ISSN 0305-1048. PMC 2808951
. PMID 19906712. doi:10.1093/nar/gkp998. Consultado em 20 de fevereiro de 2025
- ↑ «About the European Nucleotide Archive». www.ebi.ac.uk (em inglês). Consultado em 20 de fevereiro de 2025
- ↑ a b «The EMBL Nucleotide Sequence Database Release Notes | EBI». web.archive.org (em inglês). 16 de janeiro de 2013. Consultado em 20 de fevereiro de 2025
- ↑ Amid, C.; Birney, E.; Bower, L.; Cerdeno-Tarraga, A.; Cheng, Y.; Cleland, I.; Faruque, N.; Gibson, R.; Goodgame, N. (1 de janeiro de 2012). «Major submissions tool developments at the European nucleotide archive». Nucleic Acids Research (em inglês). 40 (D1): D43–D47. ISSN 0305-1048. PMC 3245037
. PMID 22080548. doi:10.1093/nar/gkr946. Consultado em 20 de fevereiro de 2025
- ↑ Stoesser, G. (1 de janeiro de 2002). «The EMBL Nucleotide Sequence Database». Nucleic Acids Research. 30 (1): 21–26. PMC 99098
. PMID 11752244. doi:10.1093/nar/30.1.21. Consultado em 20 de fevereiro de 2025
- ↑ «Sequence Data Classes — ENA Documentation 1 documentation». ena-docs.readthedocs.io. Consultado em 20 de fevereiro de 2025
- ↑ a b «EMBL-Bank User Manual (Release 129)». EMBL-EBI (em inglês). Setembro de 2016. Consultado em 20 de fevereiro de 2025
- ↑ «NCBI SRA Overview». NCBI (em inglês). 1 de janeiro de 2013. Consultado em 20 de fevereiro de 2025. Arquivado do original em 24 de março de 2015
- ↑ a b Kodama, Y.; Shumway, M.; Leinonen, R.; on behalf of the International Nucleotide Sequence Database Collaboration (1 de janeiro de 2012). «The sequence read archive: explosive growth of sequencing data». Nucleic Acids Research (em inglês). 40 (D1): D54–D56. ISSN 0305-1048. doi:10.1093/nar/gkr854. Consultado em 21 de fevereiro de 2025
- ↑ a b c d e f g Leinonen, R.; Sugawara, H.; Shumway, M.; on behalf of the International Nucleotide Sequence Database Collaboration (1 de janeiro de 2011). «The Sequence Read Archive». Nucleic Acids Research (em inglês). 39 (Database): D19–D21. ISSN 0305-1048. PMC 3013647
. PMID 21062823. doi:10.1093/nar/gkq1019. Consultado em 21 de fevereiro de 2025
- ↑ «NCBI's Sequence Read Archive: A Core Enabling Infrstructure». Bio IT World (em inglês). 2009. Consultado em 20 de fevereiro de 2025. Arquivado do original em 30 de junho de 2016
- ↑ «About : Main : Sequence Read Archive : NCBI/NLM/NIH». archive.ph (em inglês). 19 de abril de 2013. Consultado em 21 de fevereiro de 2025
- ↑ Shumway, Martin; Cochrane, Guy; Sugawara, Hideaki (janeiro de 2010). «Archiving next generation sequencing data». Nucleic Acids Research (em inglês) (suppl_1): D870–D871. ISSN 0305-1048. PMC 2808927
. PMID 19965774. doi:10.1093/nar/gkp1078. Consultado em 21 de fevereiro de 2025
- ↑ Mcwilliam, H.; Valentin, F.; Goujon, M.; Li, W.; Narayanasamy, M.; Martin, J.; Miyar, T.; Lopez, R. (1 de julho de 2009). «Web services at the European Bioinformatics Institute-2009». Nucleic Acids Research (em inglês). 37 (Web Server): W6–W10. ISSN 0305-1048. PMC 2703973
. PMID 19435877. doi:10.1093/nar/gkp302. Consultado em 21 de fevereiro de 2025
- ↑ Cochrane, G.; Akhtar, R.; Bonfield, J.; Bower, L.; Demiralp, F.; Faruque, N.; Gibson, R.; Hoad, G.; Hubbard, T. (1 de janeiro de 2009). «Petabyte-scale innovations at the European Nucleotide Archive». Nucleic Acids Research (em inglês). 37 (Database): D19–D25. ISSN 0305-1048. PMC 2686451
. PMID 18978013. doi:10.1093/nar/gkn765. Consultado em 21 de fevereiro de 2025
- ↑ a b «EMBL-EBI will continue to support the Sequence Read Archive for raw data» (PDF). Press Release, EMBL-EBI (em inglês). 16 de fevereiro de 2011. Consultado em 21 de fevereiro de 2025. Arquivado do original (PDF) em 15 de maio de 2011
- ↑ Hsi-Yang Fritz, Markus; Leinonen, Rasko; Cochrane, Guy; Birney, Ewan (maio de 2011). «Efficient storage of high throughput DNA sequencing data using reference-based compression». Genome Research (em inglês) (5): 734–740. ISSN 1088-9051. PMC 3083090
. PMID 21245279. doi:10.1101/gr.114819.110. Consultado em 21 de fevereiro de 2025
- ↑ «About ELIXIR». ELIXIR-Europe (em inglês). Consultado em 21 de fevereiro de 2025. Arquivado do original em 4 de outubro de 2011
- ↑ Crosswell, Lindsey C.; Thornton, Janet M. (maio de 2012). «ELIXIR: a distributed infrastructure for European biological data». Trends in Biotechnology (em inglês). 30 (5): 241–242. doi:10.1016/j.tibtech.2012.02.002. Consultado em 21 de fevereiro de 2025
Ligações externas
[editar | editar código fonte]- European Nucleotide Archive (em inglês).
- Arquivo Europeu de Nucleotídeos: Visita rápida (em inglês).