Los buscadores crear un sistema capaz de construir modelos de IA para la investigación biológica. BioAutoMATED es una plataforma de aprendizaje automático de código abierto que tiene como objetivo democratizar la IA en los laboratorios de investigación.
La disponibilidad de grandes conjuntos de datos biológicos de alta dimensión en los últimos años ha facilitado el uso generalizado de métodos de aprendizaje automático (ML) para estudiar y predecir fenómenos biológicos, lo que ha resultado en avances emocionantes en genómica y avances futuros prometedores en biología de sistemas, biología sintética y biología sintética. biología. biología estructural. Las bases de datos de secuencias biológicas a mediana y gran escala, como las secuencias de ácidos nucleicos, péptidos y glicanos, son comunes. El uso de ML en estos conjuntos de datos podría ayudar a los investigadores a extraer información biológica y acelerar la construcción de secuencias con características deseables.
Los cursos en línea, el código fuente abierto, los cuadernos interactivos y los paquetes de software han hecho que los análisis computacionales y los enfoques de ML sean más accesibles para los científicos. Sin embargo, a menudo se requiere conocimiento de ML para construir, entrenar e implementar modelos de ML. Varias decisiones tomadas por el usuario pueden tener un impacto significativo en la calidad y el rendimiento de los modelos ML. Comprender qué decisiones de diseño importan y cómo hacer los mejores juicios para un conjunto de datos determinado sigue siendo un desafío importante para los investigadores de ciencias de la vida con conocimientos limitados de ML. Incluso para los profesionales experimentados de ML, es difícil elegir las estrategias algorítmicas correctas y ajustar los parámetros del modelo.
Aprendizaje automático automatizado
Aprendizaje automático automatizado (AutoML) es una forma prometedora de facilitar ML para analizar conjuntos de datos biológicos. AutoML se refiere a estrategias para automatizar el diseño y la implementación de canalizaciones de ML con una intervención humana mínima.
Se requiere la participación del usuario. AutoML de extremo a extremo facilitaría el preprocesamiento de datos, la extracción de características, la selección y optimización de modelos y la evaluación del rendimiento para los científicos de la vida. Los enfoques de AutoML pueden identificar automáticamente arquitecturas de modelos e hiperparámetros de modelos. Además, AutoML puede ser útil para los profesionales de ML más experimentados como un enfoque rápido para construir modelos base para comparar o identificar rápidamente grandes grupos de modelos con un rendimiento prometedor.
Herramientas de AutoML
Actualmente, hay una amplia gama de herramientas de AutoML accesibles. Muchas herramientas conocidas de AutoML solo buscan en clases de modelos de redes neuronales. Sin embargo, los métodos de optimización basados en árboles que buscan entre modelos «superficiales» o más simples basados en kits de aprendizaje, como los clasificadores de bosques aleatorios, son algunas de las herramientas de AutoML más fascinantes. Estas técnicas, que pueden ser más adecuadas para conjuntos de datos biológicos más pequeños y dispersos que las redes neuronales, aún deben combinarse con métodos de búsqueda de arquitectura neuronal para acelerar el análisis de secuencias biológicas.
De hecho, la selección de la arquitectura es fundamental para el rendimiento del modelo, y estudios recientes indican que no existe una única herramienta AutoML «óptima», lo que destaca la importancia de evaluar varias clases de modelos en una sola plataforma. Por lo tanto, es necesario integrar AutoML en un sistema escalable que también pueda manejar el preprocesamiento de datos, la implementación de modelos y la generación de informes del sistema.
BioAutomatizado
Los investigadores presentan BioAutoMATED, una plataforma AutoML para el análisis de secuencias biológicas que incorpora numerosos algoritmos AutoML en un marco cohesivo. A los usuarios se les presentan enfoques prácticos para analizar, interpretar y diseñar automáticamente secuencias biológicas. BioAutoMATED predice la regulación génica, las interacciones péptido-fármaco y la anotación de glicanos, así como el diseño de componentes de biología sintética optimizados que destacan importantes características de secuencia. BioAutoMATED facilita que los científicos de la vida apliquen el aprendizaje automático a su trabajo al automatizar el modelado de secuencias.
Modelos de aprendizaje automático supervisados
Los modelos de aprendizaje automático supervisado del repertorio de BioAutoMATED se dividen en tres tipos:
- Modelos de clasificación binaria (que dividen los datos en dos clases).
- Modelos de clasificación multiclase (que dividen los datos en varias clases).
- Modelos de regresión.
BioAutoMATED puede incluso ayudar a determinar la cantidad de datos necesarios para entrenar correctamente el modelo seleccionado.
Conclusión
En este trabajo, los investigadores presentan BioAutoMATED, una plataforma que integra y despliega herramientas de AutoML para estudiar secuencias biológicas y evaluar su desempeño.
Muchos biólogos que quieren usar ML en su investigación enfrentan importantes barreras de entrada debido a las opciones de diseño detrás de los modelos ML. Las técnicas de AutoML pueden resolver muchos problemas asociados con la introducción de ML en las ciencias biológicas. Sin embargo, debido a que no se ocupan explícitamente de secuencias biológicas (p. ej., secuencias de nucleótidos, aminoácidos o glicanos) y no se pueden comparar fácilmente con otros métodos de AutoML, estos algoritmos rara vez se usan en sistemas y estudios de biología sintética.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch