David Betancur Sánchez es un Data Scientist especializado en NLP, aprendizaje profundo y visión por computadora, con amplia experiencia en el desarrollo de modelos de lenguaje y aplicaciones de inteligencia artificial. Ha contribuido al avance del procesamiento del lenguaje natural en español con modelos como MEL y RigoBERTa, además de liderar proyectos de optimización y ajuste de modelos de IA. Con una sólida formación en Ingeniería Biomédica y un máster en Ciencia de Datos, ha trabajado en sectores como el legal, la salud y la energía, desarrollando soluciones innovadoras basadas en modelos multimodales y sistemas de predicción. Además, ha sido docente y ha participado en iniciativas de divulgación sobre tecnologías de vanguardia en inteligencia artificial.
El artículo "MEL: Legal Spanish Language Model" presenta el desarrollo de MEL, un modelo de lenguaje legal en español basado en XLM-RoBERTa-large. Este modelo se afinó utilizando documentos legales como el Boletín Oficial del Estado y textos del Congreso. Las evaluaciones demostraron que MEL supera a modelos multilingües en tareas de clasificación legal y reconocimiento de entidades nombradas, destacando su eficacia en la comprensión del lenguaje legal en español.
El artículo "RigoBERTa: A State-of-the-Art Language Model For Spanish" presenta RigoBERTa, un modelo de lenguaje en español basado en la arquitectura DeBERTa. Entrenado con un corpus cuidadosamente elaborado, RigoBERTa supera a otros modelos en 10 de 13 tareas de comprensión del lenguaje natural, estableciendo un nuevo estándar en el procesamiento del lenguaje en español.
El artículo "RigoChat 2: un modelo de lenguaje adaptado al español utilizando un conjunto de datos limitado y hardware reducido" demuestra que es posible mejorar un modelo de lenguaje preentrenado de 7.000 millones de parámetros para tareas en español con recursos mínimos y en poco tiempo. Se utilizaron técnicas como LoRA y QLoRA para optimizar el modelo, logrando un rendimiento superior en tareas específicas del idioma sin comprometer sus capacidades generales.
Proyecto INESData es una iniciativa financiado por la Unión Europea (NextGenerationEU) que tiene como objetivo desarrollar una infraestructura que facilite la investigación en espacios de datos dentro de entornos distribuidos. Incluye el desarrollo de modelos de lenguaje especializados en el ámbito legal en español, como el Modelo de Español Legal (MEL), que mejora la comprensión y procesamiento de textos legales en este idioma.