Home
Enciclopedia
Base_de_datos_biológica

Base de datos biológica

Una base de datos biológica es una biblioteca de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional. Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.^[1] La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes, efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas.

Para entender las bases de datos biológicas son importantes los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su gestión a largo plazo, forman un área nuclear de la disciplina de la bioinformática.^[2] El contenido de los datos incluye secuencias génicas, descripciones textuales, atributos y clasificaciones ontológicas, anotaciones, y datos en forma tabular. Estos son descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves, y estructuras XML. Son comunes las referencias cruzadas entre bases de datos usando números de acceso (identificadores únicos de registros de secuencias de proteínas o ADN) como claves foráneas.

Producto destacado

Crystalline PV/RR: Acceda a la información de cristalización y formulación a escala de ml

Simplicidad intuitiva para laboratorios de control de calidad (CC)

Plataforma GC 2400 de PerkinElmer

Tabla de contenidos

1 Descripción
2 Bases de datos de secuencias
- 2.1 Problemas por los formatos de entrada
3 Principales bases de datos
4 Véase también
5 Enlaces externos

Descripción

Las bases de datos biológicas se han convertido en un instrumento importante para ayudar a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la evolución de las especies. Este conocimiento ayuda a facilitar la lucha contra las enfermedades, ayuda en el desarrollo de medicamentos, y en el descubrimiento de las relaciones básicas entre las especies en la historia de la vida.

El conocimiento biológico se distribuye entre múltiples bases de datos generales y especializadas. Esto a veces hace que sea difícil garantizar la coherencia de la información. Las bases de datos biológicas tienen referencias cruzadas con otras bases de datos con el número de acceso como una forma de vincular sus conocimientos relacionados con el conjunto.

Un recurso importante para la búsqueda de bases de datos biológicos es un tema anual de la revista Nucleic Acids Research (NAR). Un artículo acerca de las bases de datos en NAR está disponible gratuitamente y se clasifican muchas de las bases de datos en línea a disposición del público relacionadas con la biología y bioinformática.

Bases de datos de secuencias

Uno de los tipos de bases de datos más usuales en bioinformática, son las bases de datos de secuencias. Estas son una gran colección de secuencias de ADN, proteínas y otras, que son almacenadas en computadoras. Una base de datos puede incluir secuencias de un sólo organismo, como la base da datos que contiene todas las proteínas de la Saccharomyces cerevisiae, o puede incluir secuencias de todos los organismo cuyo ADN ha sido secuenciado.

Existen bases de datos primarias, que contienen información directa de la secuencia, estructura o patrón de expresión de ADN o proteína, y secundarias que contienen datos e hipótesis derivados del análisis de las bases de datos primarias, como mutaciones, relaciones evolutivas, agrupación por familias o funciones, implicación en enfermedades, etc.

Problemas por los formatos de entrada

Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individuales hasta grandes centros de secuenciamiento. Como resultado, las secuencias mismas y principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de datos.

Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos arreglada por un humano.

Principales bases de datos

De nucleótidos

La colaboración de las tres bases de datos más importantes hace posible acceder a casi toda la información de secuencias de ADN desde cualquiera de sus tres sedes:

EMBL-BANK en el Instituto europeo de Bioinformática (EBI)
- Enlace externo: EMBL-BANK
DNA Data Bank of Japan (DDBJ) en el Centro de Información Biológica (CIB)
- Enlace externo: DDBJ
GenBank en el Centro Nacional de Información Biotecnológica (NCBI)
- Enlace externo: GenBank Entrez Nucleotide

Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas secuencias, aunque normalmente los europeos utilizan EMBL-BANK y los americanos GenBank.

De proteínas

Bases de datos de secuencias de aminoácidos.

Swissprot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y enlazada a otras bases de datos.
- Enlace externo: Swissprot en el EBI, Swissprot en Expasy
TrEMBL por Translation of EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL-BANK) y que todavía no han podido ser anotadas en Swissprot.
- Enlace externo: TrEMBL
PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación decreciente.
- Enlace externo: PIR
ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swissprot.
- Enlace externo: ENZYME
PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc.
- Enlace externo: PROSITE
INTERPRO integra la información de diversas bases de datos de estructura secundaria como PROSITE, proporcionando enlaces a otras bases de datos e información más extensa.
- Enlace externo: INTERPRO
PDB por Protein Data Bank es la base de datos de estructura terciaria 3-D de proteínas que han sido cristalizadas.
- Enlace externo: PDB

De genomas

Ensembl integra genomas eucariotas grandes, por el momemto contiene genoma humano, ratón, rata, fugu, zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae.
- Enlace externo: Ensembl
Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos.
- Enlace externo: Genome Server
- Enlace externo: TIGR
Wormbase es el portal del genoma de gusano C. elegans.
- Enlace externo: Wormbase
Flybase es el portal de la mosca del vinagre Drosophila melanogaster.
- Enlace externo: Flybase

Otras

Taxonomy es el portal de clasificación taxonómica de organismos
- Enlace externo: Taxonomy Browser
Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con enlaces a artículos completos
- Enlace externo: PubMed
OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con informaciones genéticas.
- Enlace externo: OMIM
Xenobase es el portal del organismo modelo Xenopus laevis
- Enlace externo: Xenbase
TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana
- Enlace externo: Arabidopsis

Véase también

Enlaces externos

Genome Proteome Search Engine para buscar a través de las bases de datos biológicas
DBD: Database of Biological Databases/Bioinformatics Databases
CAMERA Cyberinfrastructure for Metagenomics, repositorio libre de datos y herramientas bioinformáticas para metagenómica
European Bioinformatics Institute databases
genomas completamente secuenciados en NCBI
Base de datos de Standford con el genoma de Saccharomyces

Categoría: Bioinformática

Este articulo se basa en el articulo Base_de_datos_biológica publicado en la enciclopedia libre de Wikipedia. El contenido está disponible bajo los términos de la Licencia de GNU Free Documentation License. Véase también en Wikipedia para obtener una lista de autores.

Último visto

Caffaro Srl - Cesano, Italia