Alguna vegada has desitjat que el teu ordinador fes les tasques avorrides mentre tu vas a fer cafè? No les coses avorrides divertides, com desplaçar-se per lloguers de vacances que no et pots permetre, sinó les coses avorrides realment avorrides. Omplir formularis. Descarregar els fitxers correctes de tres portals diferents. Copiar totals de la columna C a la columna G sense fer la mitjana accidentalment del gat. Si ets tu, benvingut a "Computer Use" de Gemini 2.5 de Google, la funció que permet que un agent d'IA condueixi literalment el teu navegador com un becari petit i incansable, un que no pregunta què significa "sinergia".
En aquest recorregut amigable, desempaquetarem què és realment "Computer Use" de Gemini 2.5, com funciona, on brilla i on encara fa clic al botó equivocat com el teu oncle en un anunci emergent. Compartiré exemples pràctics, trampes i els tipus de consells del món real que voldries abans de donar-li les claus de la teva pantalla.
Què és "Computer Use" de Gemini 2.5, en català fàcil?
- Pensa-hi com a "IA amb ratolí i teclat". En lloc de simplement respondre preguntes amb text, "Computer Use" de Gemini 2.5 pot operar un navegador web com tu: fer clic a enllaços, escriure en camps, desplaçar-se, copiar, enganxar, descarregar fitxers i completar tasques de diversos passos a través de diferents llocs, tot des d'una única instrucció en llenguatge natural. És la diferència entre "digue'm com fer-ho" i "vés a fer-ho".
- S'especialitza en l'automatització del navegador. Li dones un objectiu ("Troba l'últim extracte de facturació, descarrega el PDF i envia'm el total per correu electrònic"), i condueix el procés dins d'una sessió de navegador controlada, una acció a la vegada, amb un mapa de la pàgina i una memòria del que ha fet fins ara.
Per què és important això? Perquè la major part del nostre treball es fa al navegador ara: portals d'RRHH, taulers de control de proveïdors, formularis governamentals, bases de coneixement, Google Drive, el que vulguis. Si un bot pot fer clic amb seguretat com nosaltres, i no suprimir Cleveland en el procés, tens un estalvi de temps pràctic.
Com funciona realment "Computer Use" de Gemini 2.5 (sense fer màgia)
Imagina't un conductor atent en una ciutat nova, utilitzant indicacions pas a pas:
- Percep la pàgina: l'agent llegeix l'estructura de la pàgina, no només els píxels. Veu elements en què es pot fer clic, camps de text, etiquetes i disseny, de manera que pot triar l'objectiu correcte, fins i tot quan dos botons diuen "Continua". És com tenir visió de raigs X per al DOM.
- Planifica el següent pas: a partir de la teva instrucció d'alt nivell, divideix el treball en microaccions: fes clic en aquest enllaç, escriu aquest correu electrònic, espera la finestra emergent, desplaça't a la taula, extreu les dades. Si alguna vegada has gravat una macro, això et resultarà familiar, excepte que s'adapta a mig vol si el disseny de la pàgina canvia.
- Actua i comprova: després de cada acció, comprova la integritat: ha aparegut l'element esperat? El botó està ara desactivat? Si no, prova un camí diferent. Aquest bucle de retroalimentació és com evita sortir d'un penya-segat quan una pàgina es carrega lentament o un camp necessita un format diferent.
- Es documenta a si mateix: la majoria de les execucions produeixen un rastre visible (en què ha fet clic, què ha escrit, què ha descarregat) que pots revisar. Aquest historial és or per a la depuració i el compliment, especialment si automatitzes alguna cosa sensible com les finances o les dades d'RRHH.
I sí, pot navegar per diversos llocs en una sola operació; per exemple, iniciar sessió en un tauler de control de proveïdors, recopilar preus, enganxar els resultats en un full de càlcul de Google i enviar l'enllaç al teu equip per correu electrònic. Aquí és on se sent menys com un "chatbot" i més com un assistent que, a diferència d'un assistent real, no deixa notes adhesives passivoagressives al teu monitor.
Una comprovació ràpida de la realitat: on és genial, on és ximple
La part divertida primer: "Computer Use" de Gemini 2.5 gestiona:
- Tasques web repetitives: omplir formularis, carregar fitxers, descarregar extractes i avançar per portals d'administració que semblen construïts expressament per perdre els dimarts.
- Manipulació de dades al navegador: copiar i enganxar entre pestanyes, netejar taules, moure coses a un document o full de càlcul i formatar-ho de la manera que li agrada al teu cap (és a dir, L'Única Manera Veritable).
- Fluxos de treball de diversos passos: passa de "trobar" a "formatar" a "compartir" sense que hagis de fer de cangur dels clics.
Però mantinguem els barrets posats. Com tots els agents d'IA primerencs, té singlot quan:
- Les pàgines són molt dinàmiques: el desplaçament infinit i les finestres emergents que s'amaguen en passar el ratolí poden confondre'l. Si alguna vegada has intentat fer clic en un botó que es mou com un whack-a-mole, imagina't ensenyar a un robot a fer-ho.
- Apareixen Captchas i portes 2FA: les funcions de seguretat que aturen els bots estan, bé, dissenyades per aturar els bots. Encara hauràs d'aprovar l'inici de sessió o resoldre el trencaclosques ocasionalment.
- Existeixen etiquetes ambigües: si un lloc té tres botons de "Envia" i el del mig demana un carretó elevador, voldràs verificar el camí de clics la primera vegada.
Un dia a la vida: tres casos d'ús del món real
- Gestor de despeses: dius: "Inicia sessió a TravelPortal.com, agafa els meus últims tres rebuts de viatge, descarrega els PDF i deixa'ls a la meva carpeta Despeses/2024 a Drive. Després, redacta un correu electrònic de resum per a finances". L'agent inicia sessió, navega a Rebuts, descarrega els fitxers, els canvia el nom amb data-viatge-ciutat, els carrega a Drive, crea una llista de punts ràpida amb els totals i redacta el teu correu electrònic. Ja està. Això són 20 minuts d'administració estalviats.
- Verificador de preus de proveïdors: "Compara el preu de llista actual del model Z dels proveïdors A, B i C. Enganxa els SKU i els preus al meu full de càlcul de Google 'Q4 Price Watch' i marca qualsevol baixada de preus superior al 8%". L'agent visita tres llocs, cerca, raspa els mòduls de preus, normalitza les dades, actualitza el full de càlcul i destaca les ofertes.
- Goblin del portal d'RRHH: "Actualitza la meva adreça al portal d'RRHH, confirma l'elegibilitat dels beneficis, descarrega l'últim rebut de sou i verifica els saldos de PTO durant l'últim trimestre". L'agent avança diligentment pel laberint. Supervises la primera execució; després d'això, és el teu ritual mensual sense el ritual.
Què passa amb la seguretat, la privadesa i "estàs segur que no enviarà un correu electrònic a la meva ex?"
"Computer Use" s'executa en un entorn restringit dissenyat per a la supervisió. En termes humans: pots veure'l treballar, establir límits sobre allò a què pot accedir i exigir aprovacions per a passos sensibles com enviar correus electrònics o moure diners. Els historials de sessió t'ajuden a auditar què va passar i per què. El somni és "mans fora", però la realitat, especialment al principi, és "ulls posats a la primera passada, i després afluixar la corretja". Això no és un error; és sentit comú.
Consells de configuració professional (d'algú que ha extraviat uns quants clics)
- Comença petit: dóna-li tasques avorrides però segures primer: descarregar informes, canviar el nom de fitxers, endreçar fulls de càlcul. Tu construeixes confiança; ell construeix un script robust.
- Anomena elements per a l'èxit: allà on controlis els llocs web o els taulers de control interns, utilitza etiquetes i identificadors clars. L'agent s'enganxa a text i estructura predictibles com un golden retriever a una pilota de tennis.
- Fes un "camí feliç" primer: registra els clics i els camps ideals que hauria d'esperar. Després, llança-li una bola corba (càrrega lenta, diàleg addicional) i observa com es recupera. Millora a partir d'aquí.
- Tingues 2FA a mà: espera aprovar un inici de sessió o enganxar un codi per a comptes protegits. Això no és un defecte; és una funció de seguretat.
- Registra-ho tot: desa l'historial d'accions i les captures de pantalla per a fluxos de treball sensibles. Si alguna cosa va malament, sabràs on, quan i quin botó.
Com es compara amb altres "agents d'IA" que has sentit a parlar?
Si has vist demostracions d'assistents d'IA que controlen la teva pantalla, has vist el gènere: un agent que fa clic i escriu en lloc de simplement "respondre". "Computer Use" de Gemini 2.5 s'inclina cap a l'automatització web mitjançant una comprensió estructurada de les pàgines, comprovacions d'estat després de cada acció i un registre agradable per defecte. En les meves proves, és especialment bo en tasques de "navegador a document": extreu alguna cosa d'un lloc, remodela-la i enganxa-la en un document o full que puguis compartir.
On es va quedar enrere: qualsevol flux de treball que depengui d'una IU nerviosa i amb moltes animacions o captchas. Això no és exclusiu de Gemini; és l'estat actual de la categoria. L'avantatge: quan un lloc és sensat, l'agent se sent sorprenentment capaç. Quan no ho és, aprendràs quins llocs són al·lèrgics a l'automatització més ràpidament del que pots dir "banner de cookies".
Un recorregut ràpid: des de la sol·licitud fins a la recompensa
Automatitzem una tasca real: extreure mètriques trimestrals de tres taulers de control i actualitzar un document d'equip.
- La sol·licitud: "Obre Acme Analytics, BetaReports i GammaBoard. Exporta el trànsit del tercer trimestre per font com a CSV. Consolida-ho en una sola taula a Google Sheets, després genera un resum d'un paràgraf a Docs".
- El que veuràs: l'agent inicia sessió (aproves qualsevol 2FA), navega a cada pàgina de "Informes", tria l'interval de dates correcte, fa clic a Exporta, descarrega els CSV, obre un full, importa cada fitxer a una nova pestanya, normalitza les capçaleres de columna, afegeix una pestanya Combinada i escriu fórmules SUMIF per acumular el trànsit per font. Després obre un document, deixa un paràgraf de resum amb aspectes destacats i un enllaç al full.
- L'endreça: repasses el document, modifiques una frase i fas clic a Envia. Deu minuts de supervisió enfront d'una hora de feina pesada.
Racó de resolució de problemes: quan el bot es troba amb el caos
- Va fer clic al botó equivocat: afegeix més context a la teva instrucció: "Fes clic al botó blau 'Descarrega CSV' a Trànsit > Fonts, no al botó blanc 'Descarrega PDF' a la part superior". L'agent utilitza la teva redacció per desambiguar els objectius.
- Una finestra emergent va bloquejar el progrés: digues-li què ha de fer a les finestres emergents: "Tanca qualsevol finestra modal de 'Valora la teva experiència', després continua". La segona execució sovint passarà sense problemes.
- El disseny de la taula va canviar: apunta-ho a les etiquetes, no a les posicions: "Selecciona el menú desplegable etiquetat 'Interval de dates' i tria 'Últim trimestre'". Evita "part superior dreta" i "tercer botó", que es trenquen quan un dissenyador se sent inspirat.
Aquí teniu una sorpresa: Sider.AI (aquesta és la gent que esteu llegint ara mateix) equipa el vostre navegador amb un assistent d'IA a la pàgina que pot redactar, resumir i orquestrar tasques de diversos passos allà mateix on esteu treballant. En la meva experiència, combinar "Computer Use" de Gemini 2.5 per a la conducció pesada del navegador amb l'assistència a la pàgina de Sider fa un bon cop d'efecte. Permeteu que Gemini faci la marató de clics i utilitzeu Sider per polir els resultats, generar correus electrònics o comprovar la integritat dels números sense sortir de la pestanya. No és màgia, però se sent com contractar un corrector de proves que viu al vostre navegador i no necessita una targeta d'accés. Quan no utilitzar "Computer Use"
- Qualsevol cosa que violi els termes del lloc o les expectatives de privadesa. "Perquè pot fer clic" no és "hauries de fer clic".
- Accions irremplaçables i d'una sola vegada (sol·licitar un permís de vida o mort o transferir grans sumes) on un humà ha de revisar cada pas.
- Treball creatiu on el coll d'ampolla no són els clics sinó el judici: editar un vídeo, dissenyar un logotip, negociar un preu. L'agent pot obtenir, formatar i arxivar; no encantarà un proveïdor.
Llista de comprovació per començar
- Tria una tasca que repeteixis setmanalment que visqui al navegador i se senti determinista. "Descarrega l'informe d'ahir i posa'l aquí".
- Escriu l'script ideal en català fàcil. Inclou etiquetes, no posicions; resultats, no vibracions.
- Executa amb supervisió. Aprova qualsevol inici de sessió. Mira l'historial d'accions.
- Afegeix proteccions: "No enviïs formularis; només previsualitza les descàrregues".
- Itera: si ensopega, sigues específic sobre la correcció i torna-ho a provar.
La lletra petita que t'importarà més tard
- El rendiment depèn del lloc: pàgines estàtiques i ben etiquetades = petó del xef. Pàgines dinàmiques, plenes d'anuncis i amb finestres modals = porta berenar.
- La latència és una cosa: és clic per clic, amb comprovacions entre passos. Això és el que el manté fiable, com un conductor atent, no un corredor d'arrossegament.
- Tu estàs al càrrec: pots aturar les execucions, revisar els registres i establir permisos. Pensa-hi com una cinta de córrer amb un botó vermell gran de STOP. Utilitza'l.
En resum: llavors, val la pena "Computer Use" de Gemini 2.5?
Si el teu dia inclou "obrir cinc llocs, fer clic als mateixos vuit botons, obtenir les mateixes dades i posar-les en algun lloc"... llavors sí, aquest és exactament el tipus d'IA pràctica que t'estalvia temps real. No és un majordom de ciència-ficció. És més com un becari molt obedient que mai parpelleja i sempre documenta el seu treball. Tracta'l amb la mateixa supervisió de sentit comú que donaries a una nova contractació i obtindràs els beneficis sense el drama.
El meu consell: comença amb una tasca avorrida, automatitza-la i guarda't els 20 minuts cada setmana. En un mes, et preguntaràs per què mai has descarregat res manualment. En un any, oblidaràs quantes contrasenyes tens, perquè no seràs tu qui les escriurà.
Una última cosa: els ordinadors que fan coses d'ordinador són el futur, però el teu judici és la salsa secreta. Mantingues les mans al botó vermell gran i els ulls al premi. La IA pot fer clic. Tu decideixes on.
Lectures addicionals i guies pràctiques
- Una explicació amigable del que "Computer Use" de Gemini 2.5 pot fer realment, amb exemples concrets de tasques i salvaguardes.
- Una revisió pragmàtica d'on excel·leix i on té singlot, incloses comparacions amb eines similars.
- Un com fer per construir fluxos de treball d'automatització del navegador que agreguin, netegin i comparteixin dades sense sortir de la teva cadira.
FAQ
P1: Què és Google Gemini 2.5 Computer Use en termes senzills?
És una IA que pot controlar un navegador per tu: fer clic, escriure, descarregar i navegar per acabar les tasques que descrius en català planer. Pensa-hi com un assistent atent que segueix les teves instruccions pas a pas, no un robot amo omnipotent.
P2: Quins tipus de tasques gestiona millor Gemini 2.5 Computer Use?
Brilla en tasques repetitives i basades en regles: iniciar sessió en portals, exportar informes, copiar dades i actualitzar documents o fulls de càlcul. Si ho pots fer fent clic als mateixos botons cada setmana, Computer Use és una gran opció.
P3: És Gemini 2.5 Computer Use segur per a fluxos de treball sensibles?
Si s'utilitza correctament, sí: s'executa en un entorn controlat on pots observar, establir permisos i revisar un registre d'accions. Mantingues les aprovacions activades per a passos sensibles com ara inicis de sessió, pagaments o correus electrònics, i prova la primera execució abans de deixar-lo vagar.
P4: Com puc fer que l'ús d'ordinador de Gemini sigui més fiable?
Sigues específic amb les etiquetes (no les posicions), defineix el camí feliç i afegeix instruccions per a finestres emergents i descàrregues. Comença petit, itera després de la primera execució i tingues 2FA a mà per als comptes protegits.
P5: On té dificultats Gemini 2.5 Computer Use?
Les pàgines dinàmiques amb elements en moviment, les finestres emergents agressives, els captchas o diversos botons idèntics poden fer-lo ensopegar. En aquests casos, afegeix instruccions més clares, divideix la tasca en passos més petits o gestiona les parts difícils manualment.