Bioinformática es la rama de las Ciencias de la Computación que estudia sistemas de cómputo y tratamiento de la información para el análisis de datos experimentales (de nivel molecular, principalmente) de sistemas biológicos, así como la simulación de los mismos. Una de las principales aplicaciones de la bioinformática es la simulación, la minería de datos (data mining), y el análisis de los datos obtenidos en el estudio de moléculas relevantes para la vida, principalmente del ADN/ARN/genoma (Proyecto Genoma Humano) o de las proteínas (cuyo conjunto en un determinado organismo biológico forma su proteoma), así como el diseño y desarrollo de herramientas tales como bases de datos, directorios web, etc. Una definición mucho más global es:
Dos escuelas, la de EE.UU. y la del Reino Unido con Australia le dan diferentes coberturas al término.[cita requerida]
En cualquier caso, la acepción de mayor consenso es la que vincula la disciplina al tratamiento de datos originados, en general, en el nivel molecular.
Conocimientos adicionales recomendadosPrincipales áreas de investigaciónAnálisis de secuenciasDesde que el fago Φ-X174 fue secuenciado en 1977, las secuencias de ADN de cientos de organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados para determinar los genes que codifican para ciertas proteínas, también cómo para secuencias reguladoras. Una comparación de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteínas, o relaciones entre especies (el uso de sistémica molecular para construir árboles filogenéticos). Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar secuencias de ADN manualmente. Hoy, programas de computadora son usados para buscar el genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos programas pueden compensar mutaciones (con bases intercambiadas, borradas o insertadas) en la secuencia de ADN, para identificar secuencias que están relacionadas, pero que no son idénticas. Una variante de este alineamiento de secuencias se usa en el proceso de secuenciación. La secuenciación conocida como "shotgun" (que fue usado, por ejemplo, por el Instituto de Investigación Genómica para secuenciar el primer genoma de bacteria, el Haemophilus influenzae) no dá una lista secuencial de nucleótidos, pero en cambio nos dá las secuencias de miles de pequeños fragmentos de ADN (cada uno de aproximadamente 600 a 800 nucleótidos de largo). Las terminaciones de estos fragmentos se superpone y, cuando son alineados de la manera correcta, hacen el genoma completo. El secuenciamiento "shotgun" (conocido en español como secuenciamiento escopeta o por perdigonada) proveé de datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el caos del proyecto Genoma Humano, llevó varios meses de tiempo de procesador (en una circa-2000 vintage DEC Alpha) para ensamblar los fragmentos. El "shotgun sequencing" es el método de elección para todos los genomas secuenciados hoy en día y los algoritmos de ensamble genómico son un área crítica de la investigación en bioinformática. Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática por genes y secuencias reguladoras dentro de un genoma. No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del ADN no sirven a ningún propósito obvio. Este ADN conocido como "ADN basura", puede sin embargo, contener elementos funcionales todavía no reconocidos. La Bioinformática sirve para estrechar la brecha entre los proyectos de genoma y proteoma --por ejemplo, en el uso de secuencias de ADN para identificación de proteínas.
Anotación de genomasEn el contexto de la genómica, anotación es el proceso de marcado de los genes y otras características biológicas de la secuencia de ADN. El primer sistema software de anotación de genomas fue diseñado en 1995 por Owen White, quien fue miembro del equipo que secuenció y analizó el primer genoma en ser descodificado de un organismo independiente, la bacteria Haemophilus influenzae. El Dr. White construyó un software para localizar los genes (lugares en la secuencia de DNA que codifican una proteína), el ARN de transferencia, y otras características, así como para realizar las primeras atribuciones de función a esos genes. La mayoría de los actuales sistemas de anotación genómica trabajan de forma similar, pero los programas disponibles para el análisis del genoma se encuentran en continuo cambio y mejora. Biología evolutiva computacionalLa Biología evolutiva es el estudio del origen ancestral de las especies, así como de su cambio a través del tiempo. La informática ha apoyado a los biólogos evolutivos en diferentes campos clave. Ha permitido a los investigadores:
Los esfuerzos futuros se centrarán en reconstruir el cada vez más complejo árbol filogenético de la vida. El área de investigación de las ciencias de la computación que utiliza algoritmos genéticos se confunde ocasionalmente con la Biología evolutiva computacional, pero ambas áreas no guardan relación. Medición de la biodiversidadLa biodiversidad de un ecosistema puede definirse como el complemento genómico total de todas las especies presentes en un medio ambiente particular, sea este una biopelícula en una mina abandonada, una gota de agua de mar, un puñado de tierra, o la biosfera completa del planeta Tierra. Se utilizan bases de datos para recoger los nombres de las especies, así como de sus descripciones, distribuciones, información genética, estado y tamaños de las poblaciones, necesidades de su hábitat, y cómo cada organismo interactúa con otras especies. Software especializado se usa para encontrar, visualizar y analizar la información; y, lo que es más importante, para compartirla con otros interesados. La simulación computacional puede modelar cosas tales como dinámica poblacional, o calcular la mejora del acervo genético de una variedad (en agricultura), o la población amenazada (en biología de la conservación). Un potencial muy excitante en este campo es la posibilidad de preservar las secuencias completas del ADN, o genomas, de especies amenazadas de extinción, permitiendo registrar los resultados de la experimentación genética de la Naturaleza in silico para su posible reutilización futura, aún si tales especies fueran finalmente perdidas. Proyectos importantes: Species 2000 project; uBio Project. Análisis de la expresión génicaLa expresión génica de muchos genes puede determinarse por la medición de niveles de mRNA mediante múltiples técnicas, incluyendo microarrays de ADN, secuenciación de EST ( Expressed Sequence Tag), análisis en serie de la expresión génica (serial analysis of gene expression - SAGE), MPSS (Massively Parallel Signature Sequencing), o diversas aplicaciones de hibridación in situ. Todas estas técnicas son extremadamente propensas al ruido y/o sujetas a sesgos en la medición biológica, y una de las principales áreas de investigación en la biología computacional trata del desarrollo de herramientas estadísticas para separar la señal del ruido en los estudios de expresión génica con alto volumen de procesamiento. Estos estudios se usan a menudo para determinar los genes implicados en un desorden: podrían, por ejemplo, compararse datos de microarrays de células epiteliales cancerosas con datos de células no cancerosas para determinar las transcripciones que son activadas o reprimidas en una población particular de células cancerosas. Análisis de la regulaciónLa regulación génica es la compleja orquestación de eventos que comienzan con una señal extracelular tal como una hormona, que conducen a un incremento o decremento en la actividad de una o más proteínas. Se han aplicado técnicas bioinformáticas para explorar varios pasos en este proceso. Por ejemplo, el análisis del promotor de un gen implica la identificación y estudio de las secuencias motivo en los alrededores del ADN de la región codificante de un gen. Estos motivos influyen en el alcance según el cual esa región se transcribe en ARNm. Los datos de expresión pueden usarse para inferir la regulación génica: podrían compararse datos de microarrays provinientes de una amplia variedad de estados de un organismo para formular hipótesis sobre los genes involucrados en cada estado. En un organismo unicelular, podrían compararse etapas del ciclo celular a lo largo de variadas condiciones de estrés (choque de calor, inanición, etc.). Podrían aplicarse, entonces, algoritmos de agrupamiento (clustering algorithms, o cluster analysis) a esa información de expresión para determinar qué genes son expresados simultáneamente. Por ejemplo, los promotores de estos genes se pueden buscar según la abundancia de secuencias o elementos regulatorios. Análisis de la expresión de proteínasLos microarrays de proteínas y la espectrometría de masas de alto rendimiento pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. La bioinformática está muy comprometida en dar soporte a ambos procedimientos. La aproximación a los microarrays de proteínas encara similares problemas a los existentes para microarrays destinados a ARNm, mientras que para la espectrometría de masas el problema es casar grandes cantidades de datos de masa contra masas predichas por bases de datos de secuencias de proteínas, además del complicado análisis estadístico de muestras donde se detectan múltiples, pero incompletos, péptidos de cada proteína. Análisis de mutaciones en el cáncerEn el cáncer, los genomas de las células afectadas son reordenados en complejas y/o aún impredecibles maneras. Se utilizan masivos esfuerzos de secuenciación para identificar sustituciones individuales de bases (o puntos de mutación de nucleótidos) todavía desconocidos en una variedad de genes en el cáncer. Los bioinformáticos continúan produciendo sistemas automatizados para gestionar el completo volumen de datos de secuencias obtenidos, y crean nuevos algoritmos y software para comparar los resultados de secuenciación con la creciente colección de secuencias del genoma humano y de los polimorfismos de la línea germinal. Se están utilizando nuevas tecnologías de detección física, como los microarrays de oligonucleótidos para identificar pérdidas y ganancias cromosómicas (técnica denominada hibridación genómica comparativa), y los arrays de polimorfismos de nucleótido simple para detectar puntos de mutación conocidos. Estos métodos de detección miden simultáneamente bastantes cientos de miles de posiciones a lo largo del genoma, y cuando se usan con una alta productividad para analizar miles de muestras, generan terabytes de datos por experimento. De nuevo las masivas cantidades y nuevos tipos de datos generan nuevas oportunidades para los bioinformáticos. A menudo se encuentra en los datos una considerable variabilidad, o ruido, por lo que métodos como el de los modelos ocultos de Markov y el análisis de puntos de cambio están siendo desarrollados para inferir cambios reales en el número de copias de los genes (número de copias de un gen particular en el genotipo de un individuo, cuya magnitud puede ser elevada en células cancerígenas). Otro tipo de datos que requiere novedosos desarrollos informáticos es el análisis de las lesiones encontradas de forma recurrente a través de buen número de tumores. Predicción de la estructura de las proteínas
La predicción de la estructura de las proteínas es otra importante aplicación de la bioinformática. La secuencia de aminoácidos de una proteína, también llamada estructura primaria, puede ser determinada fácilmente desde la secuencia de nucleótidos sobre el gen que la codifica. En la inmensa mayoría de los casos, esta estructura primaria determina únicamente una estructura de la proteína en su ambiente nativo. (Hay, por supuesto, excepciones, como la encefalopatía espongiforme bovina, o "mal de las vacas locas" - ver, también, prion-.) El conocimiento de esta estructura es vital para entender la función de la proteína. En ausencia de mejores términos, la información estructural se clasifica usualmente como estructura secundaria, terciaria y cuaternaria. Una solución general viable para tales predicciones permanece todavía como problema abierto. Por ahora, la mayoría de los esfuerzos han sido dirigidos hacia heurísticas que funcionan la mayoría de las veces. Una de las ideas clave en bioinformática es la noción de homología. En la rama genómica de la bioinformática, se usa la homología para predecir la función de un gen: si la secuencia de gen A, cuya función es conocida, es homóloga a la secuencia de gen B, cuya función es desconocida, puede inferirse que B podría compartir la función de A. En la rama estructural de la bioinformática, la homología se usa para determinar qué partes de una proteína son importantes en la formación de la estructura y en la interacción con otras proteínas. En la técnica denominada modelado de homología, esta información se usa para predecir la estructura de una proteína una vez conocida la estructura de una proteína homóloga. Esta es, actualmente, la única vía para predecir estructuras de proteínas de una manera fiable. Un ejemplo de lo anterior es la similar homología proteínica entre la hemoglobina en humanos y la hemoglobina en las legumbres (leghemoglobina). Ambas sirven al mismo propósito de transportar oxígeno en el organismo. Aunque las dos tienen una secuencia de aminoácidos completamente diferente, sus estructuras son virtualmente idénticas, lo que refleja sus prácticamente idénticos propósitos. Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas (protein threading) y el modelado de novo (desde cero), basado en las características físicas y químicas. Ver también motivo estructural (structural motif) y dominio estructural (structural domain). Genómica comparativaEl núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia entre genes (análisis ortólogo) o entre otras características genómicas de diferentes organismos. Estos mapas intergenómicos son los que hacen posible rastrear los procesos evolutivos responsables de la divergencia entre dos genomas. Una multitud de eventos evolutivos actuando a diferentes niveles organizatos conforman la evolución del genoma. Al nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. Al mayor nivel, amplios segmentos cromosómicos experimentan duplicación, transferencia horizontal, inversión, transposición, borrado e inserción. Finalmente, los genomas enteros están involucrados en procesos de hibridación, poliploidía y endosimbiosis, conduciendo a menudo a una súbita especiación. La complejidad de la evolución del genoma plantea muchos desafíos excitantes a desarrolladores de modelos matemáticos y algoritmos, quienes deben recurrir a un espectro de técnicas algorítmicas, estadísticas y matemáticas que se extienden desde exactas, heurísticas, con parámetros fijados, y mediante algoritmos de aproximación para problemas basados en modelos de parsimonia, hasta algoritmos "Markov Chain Monte Carlo" para análisis Bayesiano de problemas basados en modelos probabilísticos. Muchos de estos estudios están basados en la detección de homología y la computación de familias de proteínas. Modelado de sistemas biológicosLa Biología de sistemas implica el uso de simulaciones por ordenador de subsistemas celulares (tales como redes de metabolitos y enzimas que comprenden el metabolismo, caminos de transducción de señales, y redes de regulación genética), tanto para analizar como para visualizar las complejas conexiones de estos procesos celulares. La vida artificial o la evolución virtual tratan de entender los procesos evolutivos por medio de la simulación por ordenador de sencillas formas de vida (artificial). Análisis de imagen de alto rendimientoSe están usando tecnologías de computación para acelerar o automatizar completamente el procesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas con alto contenido en información. Los modernos sistemas de análisis de imagen incrementan la habilidad del observador para realizar análisis sobre un amplio o complejo conjunto de imágenes, mejorando la precisión, la objetividad (independencia de los resultados según el observador), o la rapidez. Un sistema de análisis totalmente desarrollado podría reemplazar completamente al observador. Aunque estos sistemas no son exclusivos del campo de las imágenes biomédicas, cada vez son más importantes tanto para el diagnóstico como para la investigación. Algunos ejemplos:
Acoplamiento proteina-proteinaEn las últimas dos décadas, decenas de miles de estructuras tridimensionales de proteínas han sido determinadas por cristalografía de rayos X y espectroscopía mediante resonancia magnética nuclear de proteínas (RMN de proteínas). Una cuestión central para los científicos es si resulta viable la predicción de posibles interacciones proteína-proteína solamente basados en esas formas 3D, sin realizar experimentos de interacción proteína-proteína. Se han desarrollado una variedad de métodos para enfrentarse al problema del acoplamiento proteína-proteína, aunque parece que queda todavía mucho trabajo en este campo. Herramientas softwareLas herramientas software para bioinformática van desde simples herramientas de línea de comandos hasta mucho más complejos programas gráficos y servicios web autónomos. La más conocida herramienta de biología computacional entre los los biólogos es, probablemente, BLAST, un algoritmo para determinar la similaridad de secuencias arbitrarias con otras secuencias, probablemente residentes en bases de datos de proteínas o de secuencias de ADN. El NCBI (National Center for Biotechnology Information, EE.UU.), por ejemplo, proporciona una implementación muy utilizada, basada en web, y que trabaja sobre sus bases de datos. Se han desarrollado interfaces basadas en SOAP para una amplia variedad de aplicaciones bioinformáticas, permitiendo que una aplicación, corriendo en un ordenador de cualquier parte del mundo, pueda usar algoritmos, datos y recursos de computación alojados en servidores en cualesquiera otras partes del planeta. La disponibilidad de estos servicios web basados en SOAP a través de sistemas tales como el servicio de registro BioMOBY, demuestra la aplicabilidad de soluciones bioinformáticas basadas en web. Estas herramientas varían desde una colección de herramientas autónomas con un formato de datos común, y bajo una única interface autónoma o basada en web, hasta sistemas integradores y extensibles para la gestión del flujo de trabajo bioinformático. BibliografíaBibliografía básica
Complementos, especialización
En castellano
MIT OCW
Online
Mientras tanto, en otros lugares de la Wikipedia...
Enlaces externosProyectos de Software
Organizaciones
Empresas
Directorios
Publicaciones especializadas
Otros recursos en español
Otros
Categoría: Bioinformática |
Este articulo se basa en el articulo Bioinformática publicado en la enciclopedia libre de Wikipedia. El contenido está disponible bajo los términos de la Licencia de GNU Free Documentation License. Véase también en Wikipedia para obtener una lista de autores. |