Google DeepMind abre la familia de modelos multimodales Gemma 4 de código abierto

robot
Generación de resúmenes en curso

ME Noticias: mensaje, 3 de abril (UTC+8), Google DeepMind ha abierto recientemente Gemma 4, la familia de modelos multimodales. Esta serie de modelos admite entradas de texto e imágenes (los modelos pequeños también admiten audio), genera salidas de texto, e incluye variantes de preentrenamiento y ajuste fino para instrucciones. La ventana de contexto puede llegar hasta 256K tokens y es compatible con más de 140 idiomas. Los modelos emplean dos arquitecturas: densa (Dense) y expertos mixtos (MoE). Hay cuatro tamaños: E2B, E4B, 26B A4B y 31B. Sus capacidades principales incluyen inferencia de alto rendimiento, ampliación del procesamiento multimodal, optimización para el dispositivo, aumento de la ventana de contexto, mejora de las capacidades de codificación y agentes, y soporte nativo de indicaciones del sistema. En los detalles técnicos, el modelo utiliza un mecanismo de atención híbrida: las capas globales adoptan pares clave-valor unificados y una RoPE proporcional (p-RoPE). En particular, los modelos E2B y E4B emplean la técnica de incrustación por capas (PLE), con parámetros efectivos inferiores al total. En cambio, el modelo MoE 26B A4B activa solo 3.8B parámetros durante la inferencia; su velocidad de ejecución es cercana a la de un modelo de 4B parámetros. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado