Uso nativo de computadora en Gemini 3.5 Flash: Google apunta a la automatización de agentes empresariales
Google ha introducido el uso nativo de computadora en Gemini 3.5 Flash como una herramienta incorporada en el modelo, marcando un cambio de ofrecer el uso de computadora como una oferta separada a integrarlo directamente en el modelo Flash principal. La capacidad, disponible desde el 24 de junio de 2026, permite a los desarrolladores crear agentes personalizados que pueden ver, razonar y actuar en entornos de navegador, móvil y escritorio sin necesidad de un modelo dedicado de uso de computadora.
El uso de computadora se ofrecía anteriormente como un modelo independiente Gemini 2.5. Al integrarlo como una herramienta nativa en Gemini 3.5 Flash, Google está simplificando la ruta de desarrollo para flujos de trabajo de agentes empresariales. El modelo ya admite llamadas a funciones y herramientas integradas como la conexión con Búsqueda y Maps. Agregar el uso nativo de computadora significa que los desarrolladores ahora pueden llamar a un solo modelo tanto para el razonamiento como para la interacción con el entorno, reduciendo la complejidad arquitectónica en las implementaciones de agentes.
Qué cambia el uso nativo de computadora en Gemini 3.5 Flash para los desarrolladores
El efecto práctico para los desarrolladores es que Gemini 3.5 Flash ahora puede observar una pantalla, interpretar lo que ve y ejecutar acciones como hacer clic, escribir o navegar, todo dentro de un único pipeline de inferencia. Esto es importante para tareas de automatización a largo plazo donde un agente debe mantener el contexto a lo largo de docenas o cientos de pasos. Las pruebas continuas de software se benefician de un agente que puede moverse a través de una aplicación web, detectar regresiones y registrar problemas sin cambiar entre modelos.
Google describe la nueva capacidad como la que ofrece su mejor rendimiento hasta la fecha para el uso agéntico de computadora. La integración se dirige a la automatización empresarial, las pruebas continuas de software y el trabajo de conocimiento en aplicaciones profesionales. Estas son las categorías donde el uso confiable de computadora tiene el mayor retorno de inversión para las empresas que implementan agentes de IA a escala.
Las empresas pueden acceder al uso nativo de computadora en Gemini 3.5 Flash a través de la API de Gemini y la Plataforma de Agentes Empresariales Gemini. La disponibilidad directa a través de endpoints de API existentes significa que los equipos que ya trabajan con la infraestructura de IA de Google pueden activar la función sin aprovisionar recursos adicionales ni gestionar implementaciones de modelos separados. Para las organizaciones que crean pipelines de agentes, esto se traduce en menos componentes móviles y un modelo de implementación más simple.
Arquitectura de seguridad para agentes autónomos
Los agentes que operan en entornos reales enfrentan riesgos de seguridad específicos, especialmente los ataques de inyección de instrucciones donde una página o entrada maliciosa secuestra las instrucciones del agente. Google ha abordado esto mediante un entrenamiento adversarial dirigido para el uso de computadora en Gemini 3.5 Flash. El modelo fue expuesto deliberadamente a ataques de estilo inyección durante el entrenamiento para desarrollar resistencia a nivel del modelo en lugar de depender únicamente de filtros externos.
Además del entrenamiento a nivel de modelo, Google está lanzando dos sistemas de salvaguarda empresarial opcionales. El primero requiere confirmación explícita del usuario antes de que el agente ejecute acciones sensibles o irreversibles, como enviar una orden de compra o eliminar datos. El segundo detiene automáticamente las tareas si el sistema detecta un intento de inyección indirecta de instrucciones.
Estas salvaguardas complementan un enfoque de defensa en profundidad que incluye el aislamiento del entorno del agente y el mantenimiento de la verificación con supervisión humana. Para las empresas que implementan agentes en industrias reguladas o escenarios orientados al cliente, estos controles abordan las preocupaciones de cumplimiento en torno a la toma de acciones autónomas. La combinación de endurecimiento a nivel de modelo y aplicación de políticas en tiempo de ejecución brinda a las empresas múltiples capas de protección.
La estrategia de mitigación de inyección de instrucciones es particularmente relevante porque el uso nativo de computadora en Gemini 3.5 Flash opera en navegador, móvil y escritorio. Esto expande la superficie de ataque en comparación con las llamadas API solo de texto. El entrenamiento adversarial reduce el riesgo a nivel de modelo, mientras que los sistemas de salvaguarda proporcionan aplicación de políticas en tiempo de ejecución que las empresas pueden configurar por implementación.
Implicaciones estratégicas para el mercado de IA empresarial
La decisión de Google de integrar el uso de computadora en el modelo Flash principal en lugar de mantener una oferta separada señala una estrategia de producto clara. Los modelos independientes de uso de computadora requieren que los desarrolladores gestionen dos endpoints y manejen el paso de contexto entre modelos. La integración nativa simplifica la pila y reduce la barrera para construir agentes que interactúen con interfaces gráficas, haciendo que el desarrollo de agentes empresariales sea más accesible para una gama más amplia de equipos.
Este movimiento posiciona a Gemini 3.5 Flash más directamente frente a las plataformas competidoras de creación de agentes. Otros proveedores ofrecen el uso de computadora a través de agentes separados o marcos de herramientas externos que los desarrolladores deben conectar. Tener la capacidad integrada en una sola llamada API le da a Google una ventaja estructural en facilidad de implementación. Para los compradores empresariales que comparan plataformas, el costo total de propiedad cambia cuando un proveedor maneja todo el pipeline de agentes bajo un solo endpoint.
El mercado de automatización empresarial es la oportunidad inmediata. Solo las pruebas continuas de software constituyen un segmento multimillonario donde los agentes de IA pueden reemplazar o aumentar los flujos de trabajo manuales de control de calidad. La automatización del trabajo de conocimiento, incluidas tareas como la extracción de datos en aplicaciones empresariales, el llenado de formularios y la investigación de varios pasos en herramientas profesionales, es otro caso de uso de alto valor donde el uso nativo de computadora elimina la fricción de integración. La eliminación del paso de contexto entre modelos separados mejora directamente la confiabilidad de estas tareas de larga duración.
Para las empresas que evalúan plataformas de agentes de IA, la elección entre un enfoque nativo y una alternativa ensamblada tiene implicaciones de costo y confiabilidad. Una integración nativa significa un acuerdo de nivel de servicio, una relación de facturación y una postura de seguridad que gestionar. Ensamblar un modelo de razonamiento, un modelo de visión y un modelo de uso de computadora introduce más puntos de falla y mayor latencia, particularmente para tareas que requieren contexto sostenido a lo largo de muchos pasos.
Salvaguardas empresariales en la práctica
El enfoque de seguridad de doble capa refleja los requisitos que los compradores empresariales aportan a las implementaciones de agentes. Un modelo que puede actuar en pantalla es inherentemente de mayor riesgo que uno que solo genera texto. La estrategia de Google de ofrecer barreras configurables en lugar de restricciones codificadas brinda a las empresas la flexibilidad de ajustar los controles de seguridad a su tolerancia al riesgo específica.
La salvaguarda opcional de confirmación del usuario se adapta naturalmente a flujos de trabajo con etapas de revisión, como aprobaciones de adquisiciones o publicación de contenido. La función de detención automática para inyección indirecta de instrucciones es más relevante para agentes autónomos que operan en entornos no confiables, como navegar por la web abierta o procesar contenido enviado por el usuario. Ambas salvaguardas se pueden habilitar de forma independiente, lo que permite a las empresas calibrar la autonomía de sus agentes por caso de uso.
Las organizaciones que adopten el uso nativo de computadora en Gemini 3.5 Flash deben evaluar qué configuración de salvaguarda se adapta a su contexto de implementación. Para agentes totalmente autónomos que se ejecutan en entornos aislados controlados, el entrenamiento a nivel de modelo puede proporcionar protección suficiente. Para agentes que manejan transacciones financieras o datos personales, ambas capas de salvaguarda más verificación humana serían la configuración prudente. La presencia de estos controles de grado empresarial reduce la carga de diligencia debida para las industrias reguladas que consideran la automatización de agentes.
Contexto de mercado más amplio
El lanzamiento es parte de una tendencia más amplia donde los proveedores de modelos fundacionales están absorbiendo las capacidades de los agentes directamente en sus modelos centrales. A medida que el uso de computadora, el uso de herramientas y el razonamiento a largo plazo pasan de servicios separados a características nativas del modelo, la dinámica competitiva del mercado de IA empresarial se desplazará hacia la completitud de la plataforma en lugar del rendimiento de soluciones puntuales. Los proveedores que pueden ofrecer capacidades de razonamiento, visión y acción bajo una sola API tienen una ventaja de costo estructural sobre aquellos que requieren orquestación de múltiples modelos.
Para los líderes tecnológicos que evalúan su estrategia de infraestructura de IA, la aparición del uso nativo de computadora en Gemini 3.5 Flash sugiere una ventana cada vez más estrecha para construir sistemas de agentes sobre pilas de múltiples modelos. El costo de ensamblar modelos separados para razonamiento, visión y uso de computadora pronto podría superar cualquier ventaja de calidad de modelo individual a medida que maduren las integraciones nativas. Las empresas que estandarizan temprano en una plataforma con uso nativo de computadora pueden evitar futuros costos de migración a medida que el mercado se consolide en torno a ofertas integradas.
Sources
Introducing computer use in Gemini 3.5 Flash
Related Articles
- Google presenta Gemini Omni Flash y Managed Agents para la automatización empresarial
- Google presenta Gemini Omni y 3.5 Flash para potenciar la próxima generación de agentes de IA
- Google Cloud presenta Gemini Enterprise Agent Platform
✔Human Verified
Investigado y contrastado con fuentes primarias por el equipo editorial de Bytevyte.