Introducció: La interfície esdevé la plataforma
Cada canvi en la informàtica crea una nova interfície per defecte i, amb ella, un nou focus de poder. La línia d'ordres afavoria l'avantatge tècnic, la GUI afavoria la distribució i la pantalla mòbil afavoria l'agregació. La capa emergent (agents d'IA que poden operar programari en nom nostre) suggereix una nova interfície: la intenció. "Computer Use" de Gemini 2.5 de Google és un exemple primerenc i important. Pot observar, fer clic, escriure i navegar en un navegador, convertint instruccions en accions sense integracions personalitzades.
Aquest article planteja una pregunta estratègica senzilla amb grans implicacions: com utilitzar Gemini 2.5 Computer Use per automatitzar les tasques del navegador avui i què preveu això per a la propietat del flux de treball demà? La resposta combina passos pràctics amb un marc més ampli: quan l'execució s'automatitza, el valor s'acumula a qui posseeix la intenció, l'historial i l'avaluació. En altres paraules, l'automatització del navegador no es tracta només d'estalviar minuts, sinó de reassignar el control.
Antecedents: de RPA a agents, per què és important l'automatització del navegador
L'automatització robòtica de processos (RPA) va professionalitzar la idea que gran part del treball empresarial és determinista. Els scripts replicaven les pulsacions de tecles. El navegador va complicar aquesta imatge: els DOM dinàmics, els fluxos d'autenticació i les interfícies d'usuari d'aplicacions en constant canvi van fer que els scripts de llarga durada fossin fràgils. El resultat va ser un mercat dividit: integracions API-first per a fluxos de treball estables i desplegaments RPA costosos per a casos legats i marginals.
Els agents d'IA col·lapsen aquesta dicotomia. En lloc de selectors fràgils i passos codificats a mà, un model pot llegir el context a la pàgina, inferir la següent millor acció i ajustar-se a canvis menors. La funció Computer Use de Gemini 2.5 va més enllà: està dissenyada per dur a terme interaccions amb el navegador amb una flexibilitat similar a la humana, basada en la comprensió dels objectius de la tasca en lloc d'instruccions fixes.
La utilitat immediata és senzilla: automatitzar les tasques que ja feu a Chrome (omplir formularis, descarregar informes, publicar contingut de manera creuada), sense esperar les integracions del proveïdor. La implicació estratègica és més significativa: el navegador, que ja és el client lleuger per al treball, esdevé programable per llenguatge, no per codi. Això trasllada el poder de les interfícies d'usuari específiques de l'aplicació als agents de resolució d'intencions i augmenta la importància del context i la confiança de les dades.
Un marc pràctic per a l'automatització del navegador amb Gemini 2.5
Hi ha tres capes per obtenir un valor real de Computer Use de Gemini 2.5:
- Especificació d'intenció: definir amb precisió el resultat en llenguatge natural.
- Aprovisionament de context: assegurar-se que el model tingui les entrades correctes (credencials, URL, fitxers i restriccions).
- Governança d'accions: supervisar, restringir i registrar les accions del model per a la fiabilitat i l'auditoria.
Aquests es corresponen amb les preocupacions tradicionals del programari (requisits, dades i control), però la interfície és conversacional.
Especificació d'intenció: escriure indicacions com a especificacions de producte
Les bones indicacions es llegeixen com a criteris d'acceptació. En lloc de "descarregar l'informe", especifiqueu l'objectiu i les restriccions:
- Objectiu: "Inicieu la sessió a example-analytics.com, aneu a Informes > Ingressos mensuals, configureu l'interval de dates per al mes passat, exporteu CSV i deseu-lo a Google Drive a /Finance/Revenue/2025-09.csv."
- Restriccions: "Si es sol·licita l'autenticació de dos factors, feu una pausa i sol·liciteu el codi. Si l'informe no està disponible, torneu un resum dels errors visibles i atureu-vos."
- Criteris d'èxit: "Confirmeu la ruta del fitxer, la mida del fitxer i el recompte de files > 1."
Computer Use de Gemini 2.5 funciona millor quan l'estat final desitjat és explícit. El model pot gestionar la inferència, però la claredat redueix l'ambigüitat i mitiga els intents costosos.
Aprovisionament de context: proporcioneu les eines i les dades adequades
Els agents només són tan capaços com ho permet el seu entorn. Per a les tasques del navegador:
- Accés: utilitzeu un perfil amb credencials desades i bloquejadors de finestres emergents mínims que puguin obstruir l'automatització. Aïlleu un perfil de treball per a la política i l'auditoria.
- URL i artefactes: proporcioneu els enllaços, els noms de fitxer i els formats exactes (CSV, PDF, JSON). Carregueu plantilles si cal omplir formularis.
- Seguretat de les dades: limiteu l'àmbit amb credencials de privilegi mínim. Utilitzeu comptes de servei separats per a tasques d'alt risc.
- Finestres de temps: indiqueu quan s'actualitzen les dades (p. ex., "Els informes es finalitzen diàriament a les 8:05 UTC; torneu a provar després d'aquesta hora si està buit.")
Governança d'accions: observeu, aproveu i registreu
Computer Use pot fer passos visibles: clics, entrades de formulari, descàrregues. Tracteu-lo com un analista júnior amb un compartiment de pantalla:
- Mode de prova: el primer intent retorna un pla pas a pas. L'aproveu abans de l'execució.
- Proteccions: definiu dominis/accions no permesos ("No modifiqueu la configuració del compte", "No aproveu els pagaments").
- Registre: conserveu una transcripció de les accions, els elements DOM en què s'ha fet clic i les sortides finals. Això és important per a l'auditoria i la depuració futura.
Pas a pas: com utilitzar Computer Use de Gemini 2.5 per automatitzar les tasques del navegador
La seqüència següent està dissenyada per ser repetible en totes les tasques: extracció de dades, tramesa de formularis, publicació de contingut i fluxos de treball entre aplicacions.
- Escriviu un resum de la tasca amb l'objectiu, les entrades i les sortides.
- Exemple d'indicació: "Obriu la sessió amb la sessió actual, aneu a Ús > Exporta, configureu l'interval de dates als darrers 7 dies, exporteu com a CSV i pengeu a Google Drive /Ops/Usage/week-of-YYYY-MM-DD.csv. Si apareix 2FA, demaneu-me el codi."
- Executeu una passada només de pla
- Pregunteu a Gemini: "Abans d'actuar, proposeu un pla numerat d'accions que inclogui objectius de navegació i entrades de formulari. Confirmeu el pla abans de l'execució."
- Avalueu els passos per comprovar-ne la precisió; ajusteu la redacció o afegiu restriccions.
- Aproveu el pla. Mantingueu una consola o una barra lateral oberta que mostri el progrés pas a pas.
- Responeu a qualsevol indicació d'autenticació. Proporcioneu codis d'un sol ús mitjançant el mateix xat per mantenir el context coherent.
- Indiqueu a Gemini que verifiqui les sortides: "Confirmeu que el CSV té capçaleres [data, account_id, usage]. Verifiqueu que el recompte de files > 10; si no, torneu a provar una vegada."
- Feu que l'agent resumeixi les mètriques clau (recompte de files, interval de dates) per confirmar els criteris d'èxit.
- Conserveu el flux de treball
- Desa la indicació com a plantilla reutilitzable amb marcadors de posició per a dates o ID.
- Programeu l'execució (si és compatible) o manteniu una llista de verificació per a les execucions manuals.
- Emmagatzemeu els registres amb marques de temps i resums de fitxers per a l'auditoria.
- Itereu per a la robustesa
- Afegiu la gestió d'errors: camins de navegació alternatius si canvien els menús.
- Incloeu dominis de reserva si un servei té URL específiques de la regió.
- Introduïu esperes explícites per a pàgines SPA o taulers que es representen de manera asíncrona.
Casos d'ús habituals: des de la generació d'informes fins a la publicació
Computer Use de Gemini 2.5 és especialment eficaç quan la interfície d'usuari és coherent i les tasques estan ben estructurades.
- Informes recurrents: taulers de control de finances, màrqueting i suport que requereixen la configuració de filtres, l'exportació de fitxers i l'emmagatzematge al núvol.
- Actualitzacions de back-office: introducció d'identificadors d'enviament, actualització d'estats de comanda i conciliació de transaccions a les eines SaaS sense integracions oficials.
- Operacions de contingut: redacció i programació de publicacions a través de CMS i plataformes socials; còpia d'enllaços etiquetats amb UTM; adjuntar imatges aprovades.
- Comparacions de proveïdors i adquisicions: navegació per pàgines de preus, captura de detalls del pla en un full de càlcul i generació de resums.
- QA i compliment: execució de camins de prova estàndard i presa de captures de pantalla com a evidència.
Cada cas es beneficia de l'escriptura de criteris d'èxit precisos (l'artefacte de sortida concret) i proteccions (què no fer).
Tàctiques de fiabilitat: feu que l'automatització sigui avorrida
L'automatització del navegador basada en IA funciona fins que no ho fa; la fiabilitat és una funció del control de la variància. Quatre tàctiques ajuden:
- Utilitzeu perfils de navegador fixos i mides de finestra coherents per reduir la confusió causada pel disseny.
- Fixeu les extensions crítiques i desactiveu les finestres emergents.
- Ancoreu amb punts de referència
- Indiqueu a l'agent que trobi punts de referència fiables: text d'enllaç exacte, etiquetes aria o ID fixos. Quan no estigueu segur, demaneu-li que faci una captura de pantalla i sol·liciteu confirmació.
- Per a les operacions d'escriptura (enviament de formularis), especifiqueu les comprovacions idempotents: "Si existeix un registre amb l'identificador de comanda X, ometeu."
- Per a les descàrregues, especifiqueu el nom del fitxer i el comportament de sobreescriptura.
- Demaneu a l'agent que faci una traça d'execució: les pàgines visitades, els selectors utilitzats i les marques de temps.
- Incloeu la captura automàtica de captures de pantalla en passos clau (abans de l'enviament, després de l'enviament, confirmació de l'exportació).
Seguretat i compliment: la confiança és una característica, no un complement
Permetre que una IA faci funcionar un navegador implica principis d'identitat, governança de dades i privilegi mínim.
- Segregació de credencials: utilitzeu comptes d'àmbit limitat sempre que sigui possible. Per als sistemes financers o de recursos humans, aïlleu-los a rols de només lectura quan les tasques no requereixin escriptures.
- Higiene de la sessió: eviteu la contaminació creuada mitjançant un perfil dedicat. Esborreu les cookies entre proveïdors quan els fluxos de treball ho requereixin.
- PII i dades regulades: indiqueu explícitament a l'agent: "No copieu ni exporteu camps marcats com a SSN o DOB." Considereu la possibilitat de fer correccions o entorns emmascarats per a les proves.
- Auditoria i revocació: manteniu els registres suficients per reconstruir les accions. Assegureu-vos que podeu revocar l'accés immediatament: tracteu els perfils d'agent com si fossin la desactivació d'un empleat.
Marc estratègic: la teoria de l'agregació es troba amb l'ús de l'ordinador
La història de l'agregació afavoreix les entitats que controlen la demanda i les dades, no l'oferta. Amb Computer Use, la capa d'aplicació està cada cop més convertida en una mercaderia per un agent que pot operar qualsevol IU. Això suggereix tres canvis:
- De la lleialtat a l'aplicació a la lleialtat al flux de treball: si un agent pot impulsar diversos productes de manera intercanviable, els usuaris s'uneixen al flux de treball i a l'agent, no a una IU SaaS específica.
- Dels fossats de la IU als fossats de dades/polítiques: el valor enganxós es mou a les dades de primera part (historial, preferències, ajustament precís), motors de polítiques (proteccions, aprovacions) i compliment.
- De les integracions a la resolució d'intencions: la característica principal no és una llista d'API compatibles, sinó la qualitat de la traducció de la intenció de l'usuari a les tasques completades amb una supervisió mínima.
A la pràctica, això significa que els proveïdors d'aplicacions competiran per ser compatibles amb els agents: semàntica estable, etiquetes aria accessibles i fluxos predictibles. Mentrestant, les plataformes d'agents competiran per la fiabilitat, la governança i la memòria (el compost durador de les dades de l'usuari i el context d'horitzó llarg).
Paisatge competitiu i elecció de les eines adequades
Si bé Computer Use de Gemini 2.5 destaca per la seva execució visual nativa, el mercat més ampli inclou alternatives en tres categories:
- Agents centrats en el model: sistemes que combinen un LLM general amb l'ús d'eines (cerca, control del navegador, sistemes de fitxers). El seu avantatge és la generalització i la comprensió del llenguatge.
- Plataformes millorades amb RPA: proveïdors tradicionals de RPA que augmenten amb LLM per fer que els selectors siguin més robustos i els fluxos més adaptables, especialment a les empreses amb aplicacions heretades.
- Automatitzadors verticals: solucions centrades en dominis específics (p. ex., operacions de comerç electrònic, operacions d'anuncis) que inclouen llibres de jugades i compliment.
La selecció s'ha de basar en tres criteris:
- Observabilitat: podeu veure què fa l'agent? Les pistes d'auditoria no són negociables.
- Controlabilitat: podeu definir polítiques, aprovacions i límits basats en rols?
- Extensibilitat: pot l'agent integrar-se amb fitxers, emmagatzematge i fluxos d'autenticació que ja utilitzeu?
Des d'una perspectiva estratègica, considereu Sider.AI. Com a front-end per a l'anàlisi i el flux de treball d'agents, exemplifica com una capa d'assistent pot convertir les sol·licituds no estructurades en sortides estructurades preservant la supervisió, especialment valuosa quan s'uneix la planificació basada en el llenguatge amb l'execució repetible i registrada. La sinergia és senzilla: planifiqueu i valideu en entorns similars a Sider, executeu mitjançant Computer Use i institucionalitzeu els resultats als vostres sistemes de registre. Llibre de jugades d'implementació: del prototip a la producció
Per anar més enllà de les demostracions, tracteu l'automatització del navegador basada en agents com un projecte de programari.
Fase 1: Pilot
- Seleccioneu 1-2 tasques amb alta freqüència i baix risc (exportacions d'informes setmanals, programació de contingut).
- Definiu indicacions amb criteris d'èxit i proteccions explícits.
- Executeu amb l'aprovació humana en el bucle i recopileu registres i captures de pantalla.
Fase 2: Enduriment
- Afegiu reintents, temps d'espera i estratègies de retrocés per a pàgines inestables.
- Parametritzeu les entrades (dates, ID) i emmagatzemeu-les en un fitxer de configuració senzill o en variables d'indicació.
- Introduïu un flux de treball d'aprovació per a les operacions d'escriptura.
Fase 3: Escala
- Agrupeu les tasques relacionades en llibres de jugades (p. ex., "Tancament mensual" inclou tres exportacions i dues càrregues).
- Programeu les finestres d'execució alineades amb la disponibilitat de dades.
- Centralitzeu els registres i les sortides; manteniu un tauler de control de les taxes d'èxit d'execució i el MTTR per a les errades.
Fase 4: Govern
- Formalitzeu els controls d'accés per a les identitats d'agent.
- Reviseu els registres setmanalment; actualitzeu les indicacions quan canvien les IU.
- Executeu exercicis de taula per als modes d'error (rotacions de contrasenyes, introducció de CAPTCHA, redisseny de la IU).
Mesurament del ROI: el temps estalviat és una aposta de taula
L'estalvi de temps és la mètrica òbvia, però no suficient. La millor lent és la reducció de la variància i la compressió del temps de cicle.
- Taxa de reelaboració: percentatge d'execucions que requereixen correcció humana. L'objectiu és una disminució constant a mesura que les indicacions maduren.
- Temps d'avantatge: temps des de la sol·licitud ("obteniu els ingressos del mes passat") fins a la disponibilitat de l'artefacte.
- Taxa d'èxit: execucions completades sense intervenció.
- Cobertura: nombre de fluxos de treball diferents automatitzats en relació amb el grup de candidats.
- Incidents de control: nombre de violacions de polítiques o accés (hauria d'apropar-se asimptòticament a zero).
Feu un seguiment setmanal; l'objectiu estratègic és un sistema que es torni previsiblement avorrit. Aquesta predictibilitat es converteix en la vostra plataforma interna per a automatitzacions més ambicioses.
Exemples d'indicacions i patrons per a Computer Use de Gemini 2.5
A continuació es mostren patrons reutilitzables. Substituïu els elements entre claudàtors per les vostres dades específiques.
Patró: Exportació d'informes
"Planifica primer. Després actua només després que ho aprovi. Objectiu: al navegador, obre [ inicia la sessió amb la sessió actual, aneu a Informes > [Ingressos], configureu l'interval de dates a [Últim mes], exporta com a [CSV] i penja a [Google Drive]/Finance/Revenue/[YYYY-MM].csv. Restriccions: si apareix 2FA, sol·licita el codi. Si la pàgina de l'informe torna buida o error, atura't i resumeix. Criteris d'èxit: confirma que el fitxer existeix, la mida > 1 KB i la primera fila té capçaleres [data, account_id, amount]. Registra cada clic i títol de pàgina durant l'execució."
Patró: Publicació de CMS
"Redacta i programa una publicació a [URL del CMS]. Títol: [Títol]. Cos: [Markdown]. Etiquetes: [Etiquetes]. Configura la data de publicació a [AAAA-MM-DD HH:MM TZ]. Abans de publicar, envia'm una URL de previsualització i espera l'aprovació. Si falta un camp obligatori, atura't i demana una aclaració."
Patró: Col·lecció entre aplicacions
"Recull els preus actuals de [3 proveïdors] de [URL], copia els noms dels plans i el cost mensual, enganxa'ls en un full de Google a [URL del full] i afegeix la data a la columna A. Verifica que cada preu sigui numèric; si no, anota amb 'N/A' i una columna de notes que enllaci a la font."
Patró: Triage de suport
"Obre [URL de tiquets], filtra per 'Prioritat: Alta' i 'Estat: Nou', obre cada tiquet i resumeix el problema en una frase, classifica en [Facturació, Accés, Error] i enganxa el resum en un esborrany de Slack a [URL web de Slack] per a la revisió. Espera la meva aprovació abans d'enviar."
Dificultats i com evitar-les
- Casos marginals d'autenticació: els Captcha, els temps d'espera de SSO i les indicacions de confiança del dispositiu trenquen els fluxos. Mitigació: perfils preautenticats, gestors de contrasenyes i lliurament humà explícit per a passos només de Captcha.
- Latència de SPA: les aplicacions d'una sola pàgina es poden representar tard. Mitigació: indica a l'agent que esperi text o elements específics abans de fer clic.
- Permisos excessivament amplis: un agent potent pot cometre errors costosos. Mitigació: rols de només lectura per defecte; accés d'escriptura d'àmbit només quan sigui necessari.
- Estat ocult: algunes aplicacions conserven els filtres. Mitigació: indica a l'agent que restableixi els filtres al començament de cada execució.
L'arc estratègic: qui posseeix el flux de treball?
Computer Use de Gemini 2.5 exposa una pregunta més gran: si qualsevol agent pot impulsar qualsevol IU, què esdevé escàs? No els botons i les pantalles, sinó el context i la confiança de les dades. El guanyador capturarà tres actius:
- Historial: memòria persistent del que va funcionar, del que va fallar i per què, reduint la fricció futura.
- Política: codificació clara del que està permès, permetent l'autonomia segura.
- Avaluació: mesurament fiable de l'èxit, tancant el bucle.
Les aplicacions continuaran sent importants, però estaran intervingudes per capes d'agent que estandarditzaran les accions. A mesura que s'afebleixen les trinxeres d'integració, la capacitat de defensa es trasllada a qui millor transforma la intenció en resultats fiables, amb les mínimes sorpreses.
Conclusió: utilitzeu Gemini 2.5 avui, prepareu-vos per a la plataforma de demà
La conclusió pràctica és senzilla: comenceu a automatitzar les tasques del navegador que ja feu. Escriviu ordres com ara especificacions, proporcioneu el context adequat, governeu les accions i mesureu els resultats. Espereu variabilitat al principi i dissenyeu per a l'observabilitat.
La conclusió estratègica és més àmplia: Gemini 2.5 Computer Use accelera la transició del treball centrat en les aplicacions a fluxos de treball centrats en la intenció. A mesura que els agents aprenguin a utilitzar el programari que fem servir, el programari que triem serà cada cop més el que funcioni bé amb els agents, i les eines en què confiem seran les que facin que l'automatització sigui llegible i controlable. Considereu la possibilitat d'aparellar entorns de planificació i supervisió com Sider.AI amb eines d'execució com Computer Use; la combinació destaca on s'acumula el valor: no al clic, sinó a la finalització consistent i auditada del treball. Aquesta és la promesa, i el repte competitiu, de la propera interfície. El navegador continuarà sent el llenç. La intenció, no la IU, es converteix en la plataforma.
Preguntes freqüents
P1: Què és Gemini 2.5 Computer Use i per què és important per a l'automatització del navegador?
Gemini 2.5 Computer Use permet que un agent d'IA operi el vostre navegador (fent clic, escrivint i navegant) per completar tasques a partir d'instruccions en llenguatge natural. És important perquè redueix la dependència d'scripts fràgils i trasllada el valor dels fluxos de treball específics de la IU a l'execució basada en la intenció.
P2: Com puc fer que Gemini 2.5 sigui fiable per a tasques repetitives del navegador?
Tracteu les ordres com especificacions: definiu els objectius, les limitacions i els criteris d'èxit. Afegiu proteccions, observabilitat (registres i captures de pantalla) i intents per gestionar la variància de la IU; amb el temps, les taxes de reelaboració haurien de baixar i les taxes d'èxit s'haurien d'estabilitzar.
P3: És Gemini 2.5 Computer Use prou segur per a fluxos de treball sensibles?
La seguretat depèn de la vostra configuració: utilitzeu comptes amb privilegis mínims, perfils de navegador dedicats i restriccions de política explícites. Mantingueu registres d'auditoria i estigueu preparats per revocar l'accés ràpidament; per a dades regulades, limiteu l'abast o utilitzeu entorns de prova emmascarats.
P4: Quines tasques del navegador són millors per automatitzar primer amb Gemini 2.5?
Comenceu amb fluxos de treball d'alta freqüència i baix risc, com ara l'exportació d'informes, la programació de contingut o la recopilació de dades de proveïdors. Aquests tenen IU predictibles i artefactes d'èxit clars, cosa que els fa ideals per perfeccionar les ordres i les proteccions.
P5: Com es compara Gemini 2.5 amb les eines RPA tradicionals per a les tasques web?
L'RPA tradicional depèn de selectors fixos i pot ser fràgil quan les IU canvien. Gemini 2.5 aprofita la comprensió del llenguatge i el context visual per adaptar-se en temps real, cosa que el fa més flexible, tot i que encara necessiteu governança i observabilitat per garantir la fiabilitat.