LA BIG DATA Y LAS CIENCIAS ÓMICAS:
El genoma de un organismo es la cantidad total de material genético que contiene cada una de las células, el cual se encuentra en la Molécula del ADN organizado en las estructuras moleculares llamadas cromosomas. El genoma contiene una gran cantidad de información ordenada en una secuencia extremadamente larga, de cuatro componentes básicos: adenina, guanina, citosina y timina.
Si físicamente se midiera la longitud del genoma, nos asombraría su tamaño, porque, en el caso del humano, esta tendría alrededor de dos metros, información que debe ser comprimida hasta caber en un espacio tan reducido como el núcleo de una célula.
El estudio del genoma es importante, porque permite saber, aproximadamente, cuántos genes están presentes en él, cuáles son, cómo están organizados (en qué parte de los cromosomas se encuentran) y cómo se regula su expresión; es decir: de que, manera un gen controla la función de una célula. El desarrollo tecnológico actual permite realizar estudios en estos diferentes niveles y genera una inmensa cantidad de información de datos; un enorme reto para la investigación actual de los organismos vivos.
La finalidad de esta información es conocer el funcionamiento del organismo, el cual no puede ser entendido por el análisis de un único tipo de información, ya sea un solo gen, una proteína o un compuesto químico, como se había estudiado hasta hace poco tiempo, porque depende de una regulación en varios niveles. Por tal razón, el estudio de un organismo se aborda, actualmente, desde los niveles mencionados, lo cual genera una gran heterogeneidad de datos que permiten formar redes de asociación entre ellos, para conocer desde la expresión de los genes hasta la producción de proteínas encargadas de cada función en la célula, bajo diferentes condiciones de desarrollo o como respuesta a diferentes factores ambientales. Estas diversas áreas de estudio masivo de datos del genoma son conocidas como ómicas.
Entre las tecnologías ómicas, la bioinformática se distingue porque aporta un conjunto de herramientas y recursos computacionales que permiten adquirir, almacenar, organizar, procesar, analizar, observar, modelar, predecir o relacionar los datos obtenidos con el resto de las tecnologías para generar información valiosa. Su naturaleza es interdisciplinar, pues es un área de confluencia de las ciencias de la vida, las tecnologías de la informática y las comunicaciones, así como de otras ciencias: matemática, estadística, física, química, inteligencia artificial, etc.
En la actualidad los sistemas biológicos pueden indagarse mediante tecnologías de alto rendimiento que generan datos en grandes cantidades y de compleja estructura. Esta complejidad se encuentra dada por la alta dimensionalidad del problema (gran número de variables) y la presencia de interacciones y correlaciones de diversos órdenes tanto entre casos como entre variables y entre fuentes de datos. Unas de las principales aplicaciones de las tecnologías de alto rendimiento como las “ómicas”.
De hecho, actualmente, el cuello de botella en los laboratorios se centra en la gestión e interpretación de los datos que se están generando. Para trabajar con esta enorme cantidad de datos no se pueden utilizar técnicas tradicionales de Ciencia de Datos, por lo que tenemos que usar técnicas de Big Data. Se pretende familiarizar al profesional de la salud con el concepto de Big Data y su metodología, mediante el uso e implementación de técnicas a partir de su programación en lenguaje Python y usando Apache Spark. También se busca la aplicación práctica de los conceptos estudiados en algún problema relacionados con la biología de sistemas.
¿Qué es exactamente big data?
La definición de big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a mayor velocidad. Esto se conoce también como “las tres V”.
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.
Las “tres V” de big data:
Volumen:
La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, secuencias de clics en una página web o aplicación móvil, o equipos con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
Velocidad:
La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
Variedad:
La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales eran estructurados y podían organizarse perfectamente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder entender su significado y admitir metadatos.
El valor y la realidad de big data
En los últimos años, han surgido otras “dos V”: valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.
Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca.
Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, formulen hipótesis informadas y predigan comportamientos.
Pero ¿cómo hemos llegado hasta aquí?
Historia de big data
Si bien el concepto “big data” en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark) sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son los únicos que lo hacen.
Con la llegada de Internet of Things (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. La aparición del machine learning ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible, donde los desarrolladores pueden simplemente incorporar clústeres ad hoc para probar un subconjunto de datos. Además, las bases de datos orientadas a grafos son cada vez más importantes, gracias a su capacidad para mostrar enormes cantidades de datos de forma que la analítica sea rápida y completa.
Cómo funciona big data
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:
1. Integre
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, como extracción, transformación y carga (ETL), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías. Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.
2. Gestione:
El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premises o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
3. Analice:
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus datos a trabajar.
Desafíos de big data
Si bien es cierto que el big data tiene un futuro prometedor, no está exento de desafíos.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos relevantes para el cliente y organizados de tal modo que permitan un análisis significativo— requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan utilizarse. Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío constante.
