¿Estás interesado en ellos? OFERTAS? Ahorra con nuestros cupones en Whatsapp o TELEGRAMA!

Hay un gran problema que frena el entrenamiento de redes neuronales

En el dinámico mundo deastucia artificial, las empresas tecnológicas líderes se enfrentan a un desafío inesperado que podría frenar el ritmo de la innovación: la creciente dificultad para encontrar datos de calidad para el entrenamiento de sus modelos. Esta escasez de datos está afectando el desarrollo de tecnologías avanzadas como GPT-5, mientras empresas del calibre de Microsoft y OpenAI buscan soluciones innovadoras para superar este obstáculo.

Desafíos del entrenamiento de IA: hay hambre de datos y esto frena el progreso

En una era marcada por un aumento sin precedentes en la potencia informática y el avance de las técnicas de aprendizaje automático, OpenAI y similares se enfrentan a un paradoja: La abundancia de datos en línea no se traduce automáticamente en un recurso utilizable para la capacitación en IA. El necesito datos precisosQue sea relevante y esté actualizado es más crítico que nunca, especialmente cuando se trata de entrenar modelos cada vez más complejos como el planeado GPT-5.

La transición de GPT-4 a GPT-5 ilustra este crecimiento exponencial de la demanda de datos: mientras que el primero requirió “sólo” 12 billones de tokens, las estimaciones para el sucesor rondan el 60-100 billones. La discrepancia entre la disponibilidad y la necesidad de datos de alta calidad surge como un obstáculo importante, estimando un escasez que podría oscilar entre 10 y 20 billones de tokens.

Logotipo de openai en el teléfono inteligente en fondo blanco.

Este déficit de datos de calidad se traduce en un verdadero cuello de botella para el avance de la IA. Los datos a menudo obsoletos o de baja calidad que pueblan la web representan un serio Límite para la efectividad del aprendizaje automático.. Además, las restricciones impuestas por el acceso a los datos por parte de las grandes plataformas no hacen más que agravar el problema, limitando aún más los recursos disponibles para la formación. modelos lingüísticos.

En respuesta a este desafío, las estrategias adoptadas varían desde innovaciones técnicas hasta asociaciones estratégicas. OpenAI, por ejemplo, tiene como objetivo mejorar lautilizando datos de audio y video a través de su herramienta de reconocimiento de voz Whisper, con el fin de ampliar el conjunto de datos disponibles. Paralelamente, la empresa explora la posibilidad de generar datos sintéticos de calidad que pueda servir para colmar el vacío existente.

Gianluca Cobucci
Gianluca Cobucci

Apasionado del código, los lenguajes y lenguajes, las interfaces hombre-máquina. Todo lo que es evolución tecnológica me interesa. Intento divulgar mi pasión con la máxima claridad, apoyándome en fuentes fiables y no "a la primera".

Suscribir
notificar
invitado

0 comentarios
más votado
mas nuevo mayores
Comentarios en línea
Ver todos los comentarios
XiaomiToday.it
Logotipo