Alguna vegada has desitjat que el teu navegador simplement... omplís el formulari per tu?
Imagina't això: són les 23:58. Has promès enviar el mateix formulari de despeses que la teva empresa ha utilitzat des que Netscape era genial. Estàs mirant fixament 17 caselles: nom, adreça, data, data de nou (en dos formats!), un desplegable que només funciona si fas clic exactament al triangle. Murmures. El teu cafè sospira. Et preguntes si Internet va créixer i es va oblidar de portar-te amb ell.
Entra en acció Gemini 2.5 Computer Use: el model de Google que, amb la configuració adequada, pot operar el teu ordinador com un assistent pacient a qui no li importa fer clics, escriure, desplaçar-se i carregar en nom teu. No només respondre preguntes. No només suggerir pulsacions de tecles. Estem parlant de: realment mou el cursor, obre el lloc, inicia la sessió i omple el formulari web.
Sents que estàs donant les claus del cotxe a un amic que acaba d'aprendre a conduir amb canvi de marxes? Sí. És estranyament emocionant quan funciona? També sí. I aquest és el viatge d'avui: com automatitzar formularis web amb Gemini 2.5 Computer Use en acció: de manera segura, assenyada i amb algunes rialles quan pensa que el botó "Enviar" és en realitat un logotip decoratiu.
En aquesta guia pràctica, et guiaré a través de:
- Què significa realment "Computer Use" per a Gemini 2.5
- Com configurar un flux de treball d'emplenament de formularis que sigui repetible i no aterridor
- Una demostració pas a pas: des de CSV fins a formularis completats
- Trucs per a camps complicats (captchas, selectors de dates, assistents de diversos passos)
- Seguretat, privadesa i els límits molt reals de l'automatització web actual
- Com les eines com Sider.AI poden ser el teu centre de comandament per domar aquest circ
Tot en llenguatge humà senzill. Amb desviaments per als problemes del món real que trobaràs al camí.
Què és Gemini 2.5 Computer Use? Pensa-hi com un becari robot acurat
"Computer Use" és un mode on Gemini 2.5 no només genera text, sinó que controla un navegador i el teu escriptori, sota la teva supervisió. Pot:
- Obrir un lloc web, navegar pels menús i fer clic per tot arreu
- Escriure en camps d'entrada i àrees de text (fins i tot les que apareixen després de tres modals)
- Carregar/descarregar fitxers
- Fer captures de pantalla i raonar sobre el que està veient (això és la màgia)
En termes pràctics, Gemini 2.5 Computer Use pot automatitzar formularis web de principi a fi. Descrius la tasca ("Vés a aquesta URL, inicia la sessió, envia el formulari de quilometratge setmanal per a aquesta llista d'empleats"), li dones les dades i fa els clics i l'escriptura. L'atractiu? No més automatització de cadira giratòria: copiar de fulls de càlcul i enganxar en camps fins que la teva ànima surti del teu cos.
Però, i això és un però de mida de celebritat, la web és un zoològic. Els formularis varien enormement. Alguns requereixen mesos d'un dígit; altres volen el nom complet del mes en noruec. És per això que necessitaràs algunes bones pràctiques i un mapa per a quan el becari robot es confongui.
Les feines adequades per a Gemini 2.5: quan l'automatització brilla (i quan no)
Utilitza Gemini 2.5 Computer Use per a:
- Formularis interns repetitius (informes de despeses, actualitzacions de recursos humans, incorporació, reclamacions de viatge)
- Portals de proveïdors amb dissenys consistents i camps predictibles
- Migracions d'entrada de dades (CSV a formulari web, base de dades a aplicació SaaS)
- Actualitzacions de diversos registres on el camí és el mateix; només els valors canvien
Evita (o prepara't per a més acompanyament) quan:
- Hi ha un captcha o una defensa agressiva contra bots (el gorila amb una llanterna)
- Es requereix autenticació de dos factors per a cada acció
- El disseny de la pàgina canvia radicalment per registre
- L'accessibilitat és deficient (camps sense etiquetar, coses clicables que no són botons)
Regla general: si un humà acurat pot fer-ho amb un ritme, Gemini 2.5 normalment pot aprendre-ho. Si un humà acurat necessita endevinar cada pas, el model podria passar temps de qualitat fent clic en adorns decoratius.
El teu kit d'inici: eines i preparació
Necessitaràs:
- Un navegador que Gemini pugui controlar (normalment Chrome/Chromium mitjançant una capa d'automatització segura)
- Credencials de només lectura per al lloc de destinació si és possible (mentalitat de mínim privilegi)
- Un compte de prova net o un entorn de sandbox (perquè no demanis accidentalment 12.000 widgets)
- Les teves dades en un format ordenat (CSV, JSON o un full de Google), amb capçaleres que coincideixin amb les etiquetes del formulari
- Una llista de verificació dels camps del formulari en l'ordre en què apareixen
Opcional, però molt útil:
- Captures de pantalla del formulari amb les etiquetes encerclades com un entrenador que diagrama una jugada
- Un petit conjunt de 3 a 5 files de mostra per a proves
- Un fitxer de registre on enregistres l'estat de cada execució i qualsevol error
Tutorial: Gemini 2.5 Computer Use omplint un formulari de despeses de mostra
Farem això com un programa de cuina. Al final, tindràs 40 formularis enviats i cap suflé col·lapsat.
Escenari: el teu equip envia reemborsaments de quilometratge setmanals. El formulari web té:
- Nom de l'empleat (camp de text)
- Final de la setmana (selector de dates)
- Total de milles (numèric)
- Tarifa (desplegable: 0,50, 0,58, 0,62)
- Envia, després un codi de confirmació
Les teves dades viuen en un CSV:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
Pas 1: prepara Gemini 2.5 amb context
- Proporciona l'URL del lloc, qualsevol pas d'inici de sessió i les etiquetes exactes tal com estan escrites a la pàgina.
- Inclou les capçaleres CSV i una descripció de com assignar-les als camps.
- Digues què fer quan falten camps o estan bloquejats (per exemple, saltar la fila, registrar l'error).
Fragment d'instrucció d'exemple:
"Obre Inicia la sessió amb el compte de prova. Per a cada fila CSV, introdueix Nom → Nom de l'empleat, week_ending → Final de la setmana (AAAA-MM-DD), total_miles → Total de milles, rate → Desplegable de tarifa, notes → Notes, receipt_path → Carrega. Envia. Després de l'enviament, copia el codi de confirmació i registra'l al costat de la fila."
Pas 2: una prova en sec amb una fila
- Demana a Gemini que realitzi un sol registre, lentament, narrant cada acció. Vigila'l com un falcó.
- Confirma que selecciona el desplegable correcte i no escriu les notes al camp "Total de milles" (passa!).
- Si el selector de dates obre un giny de calendari, indica: "Escriu la data directament al camp en AAAA-MM-DD; no facis clic al calendari."
Pas 3: afegeix proteccions
- Digues-li com detectar l'èxit: per exemple, busca la paraula "Confirmació" i un patró de codi com EXP-####.
- Digues-li com detectar el fracàs: si apareix "Error" o "Torna-ho a provar", fes una captura de pantalla i salta a la fila següent.
- Limita el ritme: "Espera 500-800 ms després de cada càrrega de pàgina. Si el botó està desactivat, torna a comprovar els camps obligatoris."
Pas 4: mode per lots
- Ara dius: "Processa les cinc files següents." Observa. Si es comporta, puja a 20.
- Mantén un registre: número de fila, estat, codi de confirmació, ruta de la captura de pantalla.
Pas 5: resum
- Exporta el registre com a CSV. Fes que Gemini el torni a enganxar o desa'l a la teva carpeta. Comprova alguns enviaments al portal.
El que has fet és ensenyar a Gemini 2.5 Computer Use un ritual. A diferència dels scripts fràgils, veu la pàgina, s'adapta a petits canvis d'interfície d'usuari i continua. És com treballar amb un assistent acurat; mostres, després confies, però encara comproves la feina.
Les parts enganxoses: selectors de dates, càrregues de fitxers, assistents de diversos passos
Com gestionar els vilans habituals en els formularis web:
- Selectors de dates: indica a Gemini que escrigui la data a la caixa d'entrada utilitzant el format acceptat del lloc. Si el lloc prohibeix l'escriptura, digues: "Obre el calendari, navega fins al mes correcte utilitzant les fletxes esquerra/dreta i, a continuació, fes clic a la data." Inclou exemples: "Per a 2025-10-03, selecciona 3 d'octubre de 2025."
- Validació numèrica: alguns camps rebutgen comes o més de dos decimals. Aclareix: "Introdueix el total de milles com un nombre enter sense comes." Si veus text d'error vermell, digues a Gemini com esborrar-lo.
- Desplegables: molts són ginys personalitzats amb llistes ocultes. Digues: "Fes clic al desplegable de tarifa; si les opcions no s'obren, fes clic a la icona de galó. Tria el text '0,58'. Si no és visible, desplaça't dins de la llista desplegable."
- Càrregues de fitxers: assenyala a Gemini la ruta exacta del fitxer. Si apareix el diàleg del sistema operatiu, digues-li que escrigui la ruta al camp del nom del fitxer i premi Intro. Si es permeten diversos fitxers, especifica si ha de deixar de fer-ho després d'un.
- Formularis de diversos passos: digues a Gemini que esperi que el botó "Següent" s'activi. Si la pàgina canvia, confirma buscant un encapçalament com "Pas 2: Detalls".
- Captchas i MFA: el teu senyal per allunyar-te. Demana una pausa perquè un humà pugui fer el captcha o aprovar la notificació push. Llavors, deixa que Gemini reprengui.
- Finestres emergents d'autocompletar: si una bombolla de suggeriments del navegador se superposa al camp, indica a Gemini que premi Esc abans d'escriure.
Una comprovació de la realitat sobre la velocitat i la precisió
Gemini 2.5 Computer Use no és un cotxe de carreres, és més com un ciclista molt pacient que obeeix tots els senyals d'stop. No superarà un dimoni de la velocitat humà amb el cap abaixat, però estalvia la teva atenció. Més important encara, no es torna descuidat en el desè formulari idèntic.
Consells de precisió:
- Comença amb cinc registres. Corregeix els problemes. Llavors, escala.
- Afegeix "comprovacions de sentit comú" després de cada enviament: confirma els totals, verifica que la fila nova aparegui a la pàgina d'historial del portal.
- Mantén les dades netes a la font: unifica els formats de data; prevalida els números.
- Registra-ho tot. Si no pots auditar-ho, no pots confiar-hi.
La seguretat primer: permisos, privadesa i límits
Donar el control del teu navegador a una IA és com donar la teva targeta de crèdit al teu fill en una botiga de queviures. Estableix regles.
- Utilitza un perfil de navegador separat amb galetes i permisos limitats.
- Crea un usuari de prova de "mínim privilegi": sense accés d'administrador, àmbit limitat.
- No emmagatzemis mai contrasenyes reals en text pla dins de les indicacions. Utilitza un gestor de secrets segur si està disponible.
- Si el flux toca dades personals (SSN, detalls de salut), aclara-ho primer amb el teu equip de compliment.
- Enregistra la pantalla o fes captures de pantalla periòdiques durant les proves per a l'auditoria.
- Construeix un gran botó vermell de "Atura": una instrucció que el model sempre obeeix, o una drecera de teclat que atura el control.
De full de càlcul a formulari: una plantilla d'indicació reutilitzable
Aquí tens una plantilla reutilitzable que pots adaptar per a Gemini 2.5 Computer Use. Copia, modifica i desa-la per al teu proper lot.
"Tasca: envia formularis de despeses del CSV adjunt a
Regles:
- Narreu les accions. Mou-te lentament. Espera fins a 1,5 s per als elements.
- Assignació: nom → Nom de l'empleat; week_ending → Final de la setmana (AAAA-MM-DD escrit directament); total_miles → Total de milles (enter); rate → Desplegable de tarifa; notes → Notes; receipt_path → Carrega.
- Comprovació d'èxit: després de l'enviament, captura el codi de confirmació (patró EXP-####). Comprovació de fracàs: si apareix 'Error' o 'Torna-ho a provar', fes una captura de pantalla, registra el número de fila i el text d'error, llavors salta.
- Ritme: processa 5 files alhora. Després de cada lot, genera un registre CSV amb columnes: fila, estat, confirmation_code, screenshot_path, notes.
- Seguretat: si es demana MFA o captcha, pausa i alerta'm. No continuïs.
Comença amb un sol registre i espera la meva confirmació abans de continuar."
Aquesta única indicació redueix 90 minuts de treball a 15 minuts de supervisió reflexiva.
Notes laterals de resolució de problemes (perquè alguna cosa anirà malament)
- Escriu al camp incorrecte: digues-li que faci referència a l'etiqueta del camp per proximitat de text: "Escriu a l'entrada a la dreta de l'etiqueta 'Nom de l'empleat'." Si falten etiquetes, fes referència pel text de marcador de posició.
- El botó no s'activa: normalment, un camp obligatori està buit o té espais en blanc. Digues a Gemini que verifiqui que cada camp obligatori tingui un valor no buit i que desenfoqui l'entrada (Tab) per activar la validació.
- La pàgina té un aspecte diferent avui: demana a Gemini que torni a detectar el formulari escanejant els encapçalaments i les paraules clau comunes. Si la variància de disseny és habitual, mantén un breu "perfil de formulari" per a cada versió.
- Descarrega un rebut en blanc: assegura't que el pas de càrrega es completi abans d'enviar; espera el xip del nom del fitxer o l'etiqueta "carregat".
- El portal et desconnecta: afegeix un pas de "keepalive" entre registres: actualitza la pàgina de sessió o torna a iniciar la sessió quan caduca una galeta.
Comparació d'enfocaments: Gemini 2.5 vs scripts vs RPA
- Scripts tradicionals (Selenium, Playwright): extremadament ràpids, molt precisos, molt fràgils. Una classe CSS canviada i tota la cursa de dòmino cau. Excel·lent per a aplicacions controlades.
- Plataformes RPA: potents, amb diagrames de flux visuals i governança empresarial. La configuració pot ser un projecte. Meravellós si l'utilitzaràs diàriament.
- Gemini 2.5 Computer Use: raonament flexible, amb els ulls a la pàgina. Més lent, però menys fràgil. Ideal per a execucions ad hoc, portals de tercers desordenats i migracions puntuals.
Pensa en Gemini com el treballador de concerts versàtil que pot entrar en una oficina nova i esbrinar quin calaix amaga les grapes, amb una mica d'orientació.
On encaixa Sider.AI (i realment ajuda)
Aquí hi ha una sorpresa: Sider.AI funciona molt bé com el teu centre de comandament per a aquests fluxos de treball. Pots mantenir les teves plantilles d'indicacions, els teus CSV, els teus registres i les teves captures de pantalla en un sol lloc, i demanar a l'assistent que uneixi els passos. No substituirà el control pràctic de la pàgina de Gemini 2.5 Computer Use, però pot: - Emmagatzemar i versionar les teves indicacions com un llibre de cuina d'automatitzacions
- Resumir els registres d'execució en un informe senzill de "qui ha tingut èxit, qui ha fallat, què fer a continuació"
- Generar indicacions de resolució de problemes personalitzades quan un portal canvia
- Ajudar-te a convertir un full de càlcul desordenat en un CSV net i llest per a l'automatització
Utilitzats junts, Sider.AI és el porta-retalls i el llibre de jugades; Gemini 2.5 és el quarterback al camp. Moviments avançats: lògica condicional, ramificació i verificació
Un cop confies en els conceptes bàsics, afegeix intel·ligència:
- Ramificació: "Si el desplegable de tarifa no té l'opció desitjada, tria la coincidència més propera ≥ tarifa sol·licitada; en cas contrari, marca la fila."
- Adjunts condicionals: "Carrega un rebut només si total_miles ≥ 50; en cas contrari, deixa-ho en blanc."
- Camps derivats: "Calcula el reemborsament = total_miles × tarifa; verifica que el total calculat del portal coincideixi amb un marge de 0,01 $; si no, fes una captura de pantalla i salta."
- Verificació entre pàgines: després de l'enviament, obre "Historial", troba l'entrada d'avui i valida que el nom i el total coincideixin amb el CSV.
Aquestes comprovacions transformen una demostració divertida en alguna cosa que el teu gerent aprova.
Un desviament ràpid: teatre de seguretat vs proteccions reals
Trobaràs portals que utilitzen trencaclosques, lliscadors de fer clic i arrossegar o endevinalles emergents dignes d'un Hobbit. Alguns són defenses de bots reals; alguns són maquillatge de pàgina. No lluitis contra les bones. Planifica una pausa amb un humà al bucle. Fes que Gemini anunciï: "S'ha detectat un captcha: llest per a la teva ajuda", llavors reprèn.
La protecció real prové de la teva configuració: perfils separats, permisos limitats, registres d'auditoria i condicions d'aturada clares.
Mesurar l'èxit: què sembla "bo"
Una automatització de formularis web saludable amb Gemini 2.5 Computer Use té aquest aspecte:
- 95%+ de les files processades sense modificacions manuals
- Els errors són predictibles i registrats (dates que no coincideixen, fitxers que falten)
- Pots tornar a executar des de l'última fila fallida sense tocar les anteriors
- Un humà pot auditar captures de pantalla i registres per entendre exactament què va passar
Quan arribes a aquestes marques, has convertit la feina pesada en un flux de treball ordenat i revisable.
El mini llibre de jugades: de zero a "Envia" en 12 passos
- Identifica un sol formulari avorrit que fas setmanalment.
- Neteja les teves dades. Dates, números, rutes de fitxers.
- Crea un compte de prova i un sandbox si està disponible.
- Obre Gemini 2.5 Computer Use en un perfil de navegador controlat.
- Descriu el formulari i proporciona assignacions de camps.
- Executa un registre: a càmera lenta, narrat, amb els teus ulls posats en ell.
- Afegeix comprovacions d'èxit i fracàs.
- Construeix un registre de lots i fes una captura de pantalla en qualsevol anomalia.
- Processa cinc registres; llavors vint.
- Afegeix petites proteccions (Esc per tancar autocompletes; escriu dates directament).
- Exporta el registre; comprova a l'atzar a l'historial del portal.
- Desa la teva indicació i l'estructura de dades per a la setmana que ve. El futur jo t'escriurà una nota d'agraïment.
Una última cosa: no lluitis contra la pàgina, ensenya la pàgina a tu
A la web li encanta guardar secrets. Els botons s'amaguen darrere de les icones; els camps esperen per renyar-te fins que facis clic fora. Gemini 2.5 Computer Use no corregeix màgicament la web, sinó que l'aprèn pacientment. La victòria no és la velocitat; és la serenitat. Reclames una hora que solies passar tabulant per les caixes i en canvi la passes decidint si les notes haurien de dir "Visites de clients a la zona B" o la més atrevida "Extravagància de la zona B".
Així que tria un formulari. Posa Gemini 2.5 Computer Use al seient del conductor, amb cinturons de seguretat, i deixa que faci els clics. Quan aparegui aquest codi de confirmació i ningú hagi hagut de moure un desplegable, sentiràs que Internet es va disculpar pel selector de dates del 2007.
Conclusions clau
- Gemini 2.5 Computer Use pot automatitzar formularis web veient i operant la teva pàgina com un assistent acurat.
- Comenceu petit, afegiu proteccions i amplieu només quan sigui avorrit, en el bon sentit.
- Utilitzeu dades netes, assignacions de camps explícites i comprovacions d'èxit/error.
- Accepteu que els captchas i l'MFA són moments d'intervenció humana.
- Combineu-ho amb Sider.AI per gestionar les indicacions, els registres i la neteja: el porta-retalls a les mans de Gemini.
Ara aneu a ensenyar a aquest formulari qui mana. O més aviat, qui delega educadament.
Preguntes freqüents
P1: Què és l'ús d'ordinador de Gemini 2.5, en un llenguatge planer?
És un mode en què Gemini pot controlar el vostre navegador: fent clic, escrivint, penjant, de manera que pot automatitzar formularis web. Penseu en ell com un becari atent que segueix les vostres instruccions i narra els moviments.
P2: Pot Gemini 2.5 automatitzar realment formularis web amb càrregues de fitxers i selectors de dates?
Sí, amb instruccions clares. Digueu-li que escrigui les dates directament, que gestioni explícitament el menú desplegable de tarifes i que enganxi les rutes de fitxers al diàleg de càrrega; aquests detalls marquen la diferència.
P3: Com puc mantenir l'automatització de formularis web segura i conforme?
Utilitzeu un perfil de navegador independent, comptes amb privilegis mínims i registres per a cada execució. Eviteu posar contrasenyes a les indicacions; atureu-vos per als captchas i l'MFA i, a continuació, reprengueu.
P4: És Gemini 2.5 més ràpid que els scripts tradicionals com Selenium?
Normalment no, però és més adaptable a pàgines desordenades i treballs puntuals. Els scripts són més ràpids i fràgils; Gemini és més lent, però menys probable que es trenqui quan canvia el CSS del lloc.
P5: On ajuda Sider.AI en aquest flux de treball?
Sider.AI pot emmagatzemar les vostres indicacions, netejar els vostres CSV, resumir els registres i generar consells per solucionar problemes. És l'organitzador i el redactor en cap del vostre llibre de jugades d'automatització mentre Gemini fa clic.