La recopilación y el almacenamiento de datos sin procesar es el primer paso crítico en cualquier proceso de investigación.
El papel es cosa del pasado
La tecnología para gestionar los datos de laboratorio ha cambiado en forma considerable; se ha pasado de notas escritas a mano y fotos en gel de electroforesis a servidores digitales alimentados por instrumentos conectados. Ya no se trata de si su laboratorio se transformará de manera digital, sino de qué tan pronto sucederá.
Sin embargo, el concepto básico de gestión de datos ha permanecido, en esencia, inalterado. Todo, desde los datos e imágenes originales hasta las observaciones y anotaciones de los investigadores, se incluye en una especie de "cuaderno" de laboratorio, que sirve como una única mina de información central de hechos, estadísticas, resultados y demás información del proyecto. Se trata de un registro del trabajo experimental y de los resultados, el cual a menudo contiene métodos experimentales, datos originales e incluso metadatos necesarios para contextualizar los resultados.
Los metadatos formales, los parámetros de prueba experimentales o las condiciones de control, a menudo se complementan con observaciones y anotaciones de los investigadores que facilitan el análisis y la interpretación de datos únicos. Estos datos combinados de múltiples fuentes a menudo conducen a la génesis de nuevas ideas y descubrimientos.
El hecho de capturar y catalogar con eficacia esta información es fundamental para el investigador y otras personas que intentan replicar el trabajo y extraer conocimiento de los resultados.
El futuro de los cuadernos electrónicos
Los investigadores de hoy en día confían en los cuadernos de laboratorio electrónicos (ELN) en lugar de depender de hojas de papel encuadernadas en espiral. De hecho, las prácticas digitales son ahora tan comunes en la industria que es más probable que muchos instrumentos tengan cables de fibra óptica, puertos USB y gráficos complejos que impresoras o lecturas numéricas simples. Los ELN se han vuelto esenciales meramente para mantenerse al día con las grandes cantidades de datos generados y recopilados por los laboratorios modernos. Estos conjuntos de datos son mucho más grandes que en el pasado, se mueven más rápido y se intercambian a través de redes globales.
Como resultado, se requieren recursos informáticos potentes, a menudo automatizados, para administrar, analizar y aprovechar los hallazgos en conocimientos prácticos, mucho menos respecto de productos comercializables. Con frecuencia, este proceso se compara con encontrar una aguja en un pajar, excepto que el "pajar" podría ser potencialmente del tamaño de una o más galaxias.
Los desafíos de los datos provenientes de múltiples fuentes
A menudo surgen nuevas ideas y descubrimientos cuando se capturan y comparan datos de diferentes fuentes. Sin embargo, no todas las fuentes manejan los datos de la misma manera; además, los diferentes tipos de datos requieren distintas estrategias de catalogación y digitalización antes de que puedan ser analizados por las herramientas más sofisticadas que existen en la actualidad.
Un ELN típico combina interfaces de usuario con una base de datos centralizada, además de almacenamiento de archivos. Si se hace de la manera correcta, este sistema permite un almacenamiento impecable de las observaciones de laboratorio, los resultados de los experimentos, los flujos de trabajo de ejecución, los metadatos y mucho más en un formato digital optimizado. El objetivo es hacer que el análisis de los datos de su ELN sea lo más simple posible, en el mejor de los casos desde el momento en que se capturan por primera vez en el sistema.
Uno de los mayores desafíos para este objetivo es que, en la actualidad, los datos vienen en más formas que nunca antes. En función de su origen, es posible que no todos los datos se puedan utilizar de inmediato en un motor de análisis… o, en este sentido, que sean incluso legibles para el ojo humano.
La interpretación de dichos datos para que puedan capturarse y retenerse con éxito puede requerir una o ambas de las siguientes estrategias:
- Transformación de datos: digitalizar los datos, o convertirlos a un formato digital diferente, para hacerlos comprensibles para cualquier persona, software u otros sistemas que trabajen con ellos.
- Limpieza de datos: editar o eliminar algunos de los datos para refinarlos hasta los puntos relevantes necesarios para el análisis.
Otra complicación que conlleva el Big Data es, por supuesto, su gran volumen, lo que hace que la entrada de datos por humanos sea poco práctica para muchas tareas. La necesidad de procesar grandes cantidades de datos, a menudo de fuentes fuera de las condiciones controladas de su laboratorio, en general, hace que alguna forma de automatización sea esencial, tanto para manejar la cantidad de información como para minimizar las oportunidades de error humano al ingresar los datos al ELN.
Tres tipos de datos
Las fuentes de datos del ELN se clasifican en tres categorías según su estructura:
· Datos estructurados
Esta categoría se refiere a los datos que ya están configurados en formatos estandarizados y que son legibles por máquina, como hojas de cálculo o bases de datos. Los datos estructurados son la forma más fácil de entender y trabajar con un ELN. Es posible que sea deseable una limpieza de datos según la fuente; no obstante, requiere, en general, poco o ningún procesamiento para ser utilizable cuando se ingresa en el sistema.
· Datos no estructurados
En el otro extremo del espectro se encuentra el tipo de datos más difícil para un entorno de ELN. Los datos no estructurados vienen en formatos que requieren algún tipo de conversión o procesamiento antes de que puedan utilizarse.
Algunos ejemplos comunes son las fotografías y otras imágenes, los mapas, los gráficos y los datos a nivel de secuencia. Cualquier dato que aún no esté en formato digital, como informes impresos o notas escritas a mano, también entra en esta categoría.
· Datos semiestructurados
Esta clasificación combina elementos de datos estructurados y no estructurados. En muchos casos, se trata de algún tipo de datos no estructurados con metadatos, como observaciones de investigadores o datos de instrumentos, adjuntos. Aunque los datos semiestructurados pueden ser utilizables por sí solos, su valor puede mejorarse de manera significativa mediante el uso de software analítico para procesar las partes no estructuradas de los datos cuando se ingresan en el ELN.
Recolección de datos
Cualquiera sea la categoría de datos con la que trabaje, deberá pasar por un proceso llamado extracción, transformación y carga (ETL) antes de que se puedan analizar. Con ETL, los datos se recopilan, se formatean para que sean legibles por una aplicación y, a continuación, se almacenan para su uso.
Un ELN de vanguardia debe tener la capacidad de transformar los datos no estructurados resultantes de experimentos en datos semiestructurados. Esta transformación permite que los métodos analíticos, el análisis inferencial e incluso las tendencias predictivas tengan lugar en tiempo real.
Aunque los datos totalmente estructurados se pueden agregar en forma directa a cualquier base de datos de LIMS, el ELN de LabVantage proporciona una flexibilidad robusta cuando se trata de datos semiestructurados o no estructurados.
El ELN de LabVantage es único porque tiene el soporte fundamental de una aplicación de LIMS para empresas. Los metadatos semiestructurados y los datos estructurados se capturan en forma directa y sin inconvenientes de las fuentes de instrumentos, mediante el propio sistema de gestión de datos científicos (SDMS) de LabVantage.
Una vez que los datos están en una forma utilizable dentro del ELN de LabVantage, el usuario puede optar por manipular aún más los datos o introducirlos de manera directa en un motor de análisis como LabVantage Analytics. Esto ayuda no solo a agilizar las actividades diarias del laboratorio, sino que también proporciona una única fuente unificada de verdad para patentes, publicaciones y solicitudes de nuevos medicamentos en investigación a la FDA.
Por ejemplo, LabVantage no solo le permite agregar archivos adjuntos relacionados con una hoja de trabajo en particular como referencia dentro del ELN, sino que (según el tipo de datos) puede abrir y capturar información de archivos adjuntos de manera directa dentro de la propia hoja de trabajo, lo que hace que la información del archivo adjunto sea mucho más accesible que en la mayoría de los otros ELN.
El trabajo con big data es difícil.
Las empresas se enfrentan a la tarea de combinar e integrar con éxito múltiples tipos de datos y extrapolar resultados significativos. Un ELN, como parte de una solución informática de laboratorio más amplia, debe ser eficiente y ofrecer una extracción de información optimizada. De manera crítica, en el complejo entorno de datos actual, debe estar disponible para almacenar, acceder y analizar grandes cantidades de datos a la vez con el fin de reducir con éxito los costos y acelerar la toma de decisiones.
Obtenga más información sobre el ELN de LabVantage o contáctenos hoy mismo.