Önskar du någonsin att din webbläsare bara kunde... fylla i formuläret åt dig?
Föreställ dig det här: Klockan är 23:58. Du har lovat att skicka in samma utgiftsrapport som ditt företag har använt sedan Netscape var coolt. Du kisar mot 17 rutor – namn, adress, datum, datum igen (i två format!), en rullgardinsmeny som bara fungerar om du klickar exakt på triangeln. Du muttrar. Ditt kaffe suckar. Du undrar om internet växte upp och glömde att ta med dig.
Stig in i Gemini 2.5 Computer Use – Googles modell som, med rätt inställningar, kan använda din dator som en tålmodig assistent som inte har något emot att klicka, skriva, scrolla och ladda upp åt dig. Inte bara svara på frågor. Inte bara föreslå tangenttryckningar. Vi pratar om: den faktiskt flyttar markören, öppnar webbplatsen, loggar in och fyller i webbformuläret.
Känns det som att lämna över dina bilnycklar till en vän som precis har lärt sig köra manuellt? Ja. Är det konstigt spännande när det fungerar? Också ja. Och det är dagens åktur: hur man automatiserar webbformulär med Gemini 2.5 Computer Use i praktiken – säkert, vettigt och med några skratt när den tror att "Skicka"-knappen faktiskt är en dekorativ logotyp.
I den här praktiska guiden går jag igenom:
- Vad "Computer Use" faktiskt betyder för Gemini 2.5
- Hur man skapar ett arbetsflöde för formulärifyllning som är repeterbart och inte skrämmande
- En steg-för-steg-demo: från CSV till ifyllda formulär
- Knep för knepiga fält (captchas, datumväljare, flerstegsguider)
- Säkerhet, integritet och de mycket verkliga begränsningarna för dagens webbautomatisering
- Hur verktyg som Sider.AI kan vara din kommandocentral för att tämja den här cirkusen
Allt på vanlig mänsklig svenska. Med avstickare för de verkliga fallgroparna du kommer att möta på vägen.
Vad är Gemini 2.5 Computer Use? Tänk på det som en noggrann robotpraktikant
"Computer Use" är ett läge där Gemini 2.5 inte bara genererar text – den styr en webbläsare och ditt skrivbord, under din övervakning. Den kan:
- Öppna en webbplats, navigera i menyer och klicka runt
- Skriva i inmatningsfält och textrutor (även de som dyker upp efter tre modaler)
- Ta skärmdumpar och resonera om vad den ser (det är magin)
I praktiken kan Gemini 2.5 Computer Use automatisera webbformulär från början till slut. Du beskriver uppgiften ("Gå till den här URL:en, logga in, skicka in den veckovisa körjournalen för den här listan med anställda"), ger den datan och den gör klickandet och skrivandet. Appellen? Inget mer "svivel-chair automation" – kopiera från kalkylblad och klistra in i fält tills din själ lämnar din kropp.
Men – och detta är ett jättestort men – webben är en djurpark. Formulär varierar kraftigt. Vissa kräver ensiffriga månader; andra vill ha hela månadens namn på norska. Det är därför du behöver några bästa metoder och en karta för när robotpraktikanten blir förvirrad.
De rätta jobben för Gemini 2.5: När automatisering glänser (och när den inte gör det)
Använd Gemini 2.5 Computer Use för:
- Repetitiva interna formulär (utgiftsrapporter, HR-uppdateringar, onboarding, reseräkningar)
- Leverantörsportaler med konsekventa layouter och förutsägbara fält
- Data-entry-migreringar (CSV till webbformulär, databas till SaaS-app)
- Uppdateringar av flera poster där vägen är densamma; bara värdena ändras
Undvik (eller förbered dig på mer handledning) när:
- Det finns en captcha eller aggressivt botskydd (dörrvakten med en ficklampa)
- Tvåfaktorsautentisering krävs för varje åtgärd
- Sidlayouten ändras radikalt per post
- Tillgängligheten är dålig (omärkta fält, klickbara saker som inte är knappar)
Tumregel: Om en noggrann människa kan göra det i en rytm, kan Gemini 2.5 vanligtvis lära sig det. Om en noggrann människa behöver gissa varje steg, kan modellen spendera kvalitetstid på att klicka på dekorativa utsmyckningar.
Din startkit: Verktyg och förberedelser
Du behöver:
- En webbläsare som Gemini kan styra (vanligtvis Chrome/Chromium via ett säkert automatiseringslager)
- Skrivskyddade inloggningsuppgifter för målsidan om möjligt (minsta privilegier)
- Ett rent testkonto eller en sandlådemiljö (så att du inte råkar beställa 12 000 widgets)
- Din data i ett prydligt format (CSV, JSON eller ett Google Sheet), med rubriker som matchar formulärets etiketter
- En checklista över formulärfälten i den ordning de visas
Valfritt men mycket användbart:
- Skärmdumpar av formuläret med etiketter inringade som en tränare som ritar ett spel
- En liten uppsättning med 3–5 exempelrader för testkörningar
- En loggfil där du registrerar varje körningsstatus och eventuella fel
Genomgång: Gemini 2.5 Computer Use fyller i ett exempel på en utgiftsrapport
Vi gör det här som ett matlagningsprogram. I slutet har du fått 40 formulär inskickade och inga suffléer har kollapsat.
Scenario: Ditt team skickar in veckovisa körjournaler för ersättning. Webbformuläret har:
- Anställds namn (textfält)
- Veckan som slutar (datumväljare)
- Totalt antal miles (numeriskt)
- Taxa (rullgardinsmeny: 0.50, 0.58, 0.62)
- Skicka in, sedan en bekräftelsekod
Din data finns i en CSV-fil:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
Steg 1: Förbered Gemini 2.5 med kontext
- Ange webbplatsens URL, eventuella inloggningssteg och de exakta etiketterna som de står skrivna på sidan.
- Inkludera CSV-rubrikerna och en beskrivning av hur du mappar dem till fält.
- Säg vad du ska göra när fält saknas eller är blockerade (t.ex. hoppa över raden, logga felet).
Exempel på instruktion:
"Öppna Logga in med testkontot. För varje CSV-rad, ange Namn → Anställds namn, week_ending → Veckan som slutar (YYYY-MM-DD), total_miles → Totalt antal miles, rate → Taxa rullgardinsmeny, notes → Anteckningar, receipt_path → Ladda upp. Skicka in. Efter inlämning, kopiera bekräftelsekoden och registrera den bredvid raden."
Steg 2: En torr repetition med en rad
- Be Gemini att utföra en enda post, långsamt, och berätta om varje åtgärd. Titta på den som en hök.
- Bekräfta att den väljer rätt rullgardinsmeny och inte skriver anteckningarna i fältet "Totalt antal miles" (det händer!).
- Om datumväljaren öppnar en kalendervy, instruera: "Skriv in datumet direkt i fältet i formatet YYYY-MM-DD; klicka inte på kalendern."
Steg 3: Lägg till skyddsräcken
- Berätta för den hur den ska upptäcka framgång: t.ex. leta efter ordet "Bekräftelse" och ett kodmönster som EXP-####.
- Berätta för den hur den ska upptäcka fel: om "Fel" eller "Försök igen" visas, ta en skärmdump och hoppa till nästa rad.
- Begränsa takten: "Vänta 500–800 ms efter varje sidladdning. Om knappen är inaktiverad, kontrollera igen om obligatoriska fält."
Steg 4: Batchläge
- Nu säger du: "Bearbeta de nästa fem raderna." Observera. Om den beter sig, höj till 20.
- Håll en logg: radnummer, status, bekräftelsekod, sökväg till skärmdump.
Steg 5: Avslutning
- Exportera loggen som CSV. Låt Gemini klistra tillbaka den eller spara den i din mapp. Kontrollera några inskickade formulär på portalen.
Det du har gjort är att lära Gemini 2.5 Computer Use en ritual. Till skillnad från sköra skript ser den sidan, anpassar sig till små UI-förändringar och fortsätter. Det är som att arbeta med en noggrann assistent; du visar, sedan litar du på – men du kontrollerar fortfarande arbetet.
De knepiga bitarna: Datumväljare, filuppladdningar, flerstegsguider
Hur man hanterar de vanliga skurkarna i webbformulär:
- Datumväljare: Instruera Gemini att skriva in datumet i inmatningsrutan med hjälp av webbplatsens accepterade format. Om webbplatsen förbjuder inmatning, säg: "Öppna kalendern, navigera till rätt månad med hjälp av vänster/höger-pilarna och klicka sedan på datumet." Inkludera exempel: "För 2025-10-03, välj 3 oktober 2025."
- Numerisk validering: Vissa fält avvisar kommatecken eller mer än två decimaler. Förtydliga: "Ange Totalt antal miles som ett heltal utan kommatecken." Om du ser röd feltext, berätta för Gemini hur du rensar den.
- Rullgardinsmenyer: Många är anpassade widgets med dolda listor. Säg: "Klicka på Taxa-rullgardinsmenyn; om alternativen inte öppnas, klicka på chevron-ikonen. Välj texten '0.58.' Om den inte syns, scrolla inom rullgardinsmenyn."
- Filuppladdningar: Peka Gemini till den exakta filsökvägen. Om OS-dialogrutan visas, säg till den att skriva in sökvägen i fältet för filnamn och trycka på Enter. Om flera filer är tillåtna, ange om den ska sluta efter en.
- Flerstegsformulär: Säg till Gemini att vänta tills knappen "Nästa" blir aktiverad. Om sidan ändras, bekräfta genom att leta efter en rubrik som "Steg 2: Detaljer."
- Captchas och MFA: Din signal att avbryta. Be om en paus så att en människa kan göra captchan eller godkänna push-notifikationen. Låt sedan Gemini fortsätta.
- Autocomplete-popupfönster: Om en webbläsares förslagsbubbla överlappar fältet, instruera Gemini att trycka på Escape innan den skriver.
En realitetskontroll av hastighet och noggrannhet
Gemini 2.5 Computer Use är inte en racerbil – det är mer som en mycket tålmodig cyklist som följer varje stoppskylt. Den kommer inte att slå en mänsklig fartdåre med huvudet nedåt, men den sparar din uppmärksamhet. Viktigare är att den inte blir slarvig på det tionde identiska formuläret.
Tips för noggrannhet:
- Börja med fem poster. Åtgärda problem. Skala sedan.
- Lägg till "sanity checks" efter varje inskick: bekräfta summor, verifiera att den nya raden visas på portalens historiksida.
- Håll datan ren vid källan: förena datumformat; förvalidera nummer.
- Logga allt. Om du inte kan granska det, kan du inte lita på det.
Säkerheten först: Behörigheter, integritet och gränser
Att lämna över kontrollen av din webbläsare till en AI är som att ge ditt barn ditt kreditkort i en mataffär. Sätt upp regler.
- Använd en separat webbläsarprofil med begränsade cookies och behörigheter.
- Skapa en "minsta privilegier"-testanvändare – ingen administratörsåtkomst, begränsat omfång.
- Lagra aldrig riktiga lösenord i klartext i prompter. Använd en säker hemlighetshanterare om tillgängligt.
- Om flödet berör personuppgifter (personnummer, hälsouppgifter), rensa det med ditt compliance-team först.
- Spela in skärmen eller ta periodiska skärmdumpar under testkörningar för granskning.
- Bygg en stor röd "Stopp"-knapp: en instruktion som modellen alltid lyder, eller en tangentbordsgenväg som stoppar kontrollen.
Från kalkylblad till formulär: En återanvändbar promptmall
Här är en återanvändbar mall som du kan anpassa för Gemini 2.5 Computer Use. Kopiera, justera och spara den för din nästa batch.
"Uppgift: Skicka in utgiftsrapporter från den bifogade CSV-filen på
Regler:
- Berätta om åtgärder. Rör dig långsamt. Vänta upp till 1,5 sekunder på element.
- Mappning: name → Anställds namn; week_ending → Veckan som slutar (YYYY-MM-DD skrivs in direkt); total_miles → Totalt antal miles (heltal); rate → Taxa rullgardinsmeny; notes → Anteckningar; receipt_path → Ladda upp.
- Framgångskontroll: Efter inskick, fånga bekräftelsekod (mönster EXP-####). Felkontroll: om 'Fel' eller 'Försök igen' visas, ta en skärmdump, logga radnumret och feltexten och hoppa sedan över.
- Takt: Bearbeta 5 rader åt gången. Efter varje batch, mata ut en CSV-logg med kolumner: rad, status, confirmation_code, screenshot_path, notes.
- Säkerhet: Om du blir ombedd om MFA eller captcha, pausa och meddela mig. Fortsätt inte.
Börja med en enda post och vänta på min bekräftelse innan du fortsätter."
Den här enda prompten reducerar 90 minuters slit till 15 minuters eftertänksam tillsyn.
Felsökning av sidnoteringar (eftersom något kommer att gå snett)
- Den skriver i fel fält: Säg till den att referera till fältets etikett med textens närhet: "Skriv i inmatningen till höger om etiketten 'Anställds namn'." Om etiketter saknas, referera med platshållartext.
- Knappen aktiveras inte: Vanligtvis är ett obligatoriskt fält tomt eller blanksteg. Säg till Gemini att verifiera att varje obligatoriskt fält har ett icke-tomt värde och att tona ut inmatningen (Tab) för att utlösa validering.
- Sidan ser annorlunda ut idag: Be Gemini att återupptäcka formuläret genom att skanna efter rubriker och vanliga nyckelord. Om layoutvarians är vanligt, underhåll en kort "formulärprofil" för varje version.
- Laddar ner ett tomt kvitto: Säkerställ att uppladdningssteget slutförs före inskickning; vänta på filnamnsmarkören eller "uppladdad"-taggen.
- Portalen loggar ut dig: Lägg till ett "keepalive"-steg mellan posterna – uppdatera sessionssidan eller logga in igen när en cookie upphör att gälla.
Jämföra tillvägagångssätt: Gemini 2.5 vs skript vs RPA
- Traditionella skript (Selenium, Playwright): Blixtsnabba, mycket exakta, mycket sköra. En ändrad CSS-klass och hela dominoeffekten faller. Perfekt för kontrollerade appar.
- RPA-plattformar: Kraftfulla, med visuella flödesscheman och företagsstyrning. Installationen kan vara ett projekt. Underbart om du kommer att använda det dagligen.
- Gemini 2.5 Computer Use: Flexibelt, resonemang med ögonen på sidan. Långsammare, men mindre skört. Idealisk för ad hoc-körningar, stökiga tredjepartsportaler och engångsmigreringar.
Tänk på Gemini som den mångsidiga gig-arbetaren som kan gå in på ett nytt kontor och lista ut vilken låda som gömmer gemen – med lite vägledning.
Var Sider.AI passar in (och faktiskt hjälper)
Här är en överraskning: Sider.AI fungerar mycket bra som din kommandocentral för dessa arbetsflöden. Du kan hålla dina promptmallar, dina CSV-filer, dina loggar och dina skärmdumpar på ett ställe – och be assistenten att sätta ihop stegen. Det kommer inte att ersätta Gemini 2.5 Computer Uses praktiska sidkontroll, men det kan: - Lagra och versionshantera dina prompter som en kokbok med automatiseringar
- Sammanfatta körningsloggar till en enkel rapport om "vem lyckades, vem misslyckades, vad händer härnäst"
- Generera skräddarsydda felsökningsprompter när en portal ändras
- Hjälpa dig att konvertera ett rörigt kalkylblad till en ren, automatiseringsklar CSV-fil
Tillsammans är Sider.AI klippbordet och playbooken; Gemini 2.5 är quarterbacken på planen. Avancerade drag: Villkorsstyrd logik, förgrening och verifiering
När du väl litar på grunderna, lägg till intelligens:
- Förgrening: "Om Taxa-rullgardinsmenyn saknar det önskade alternativet, välj den närmaste matchningen ≥ begärd taxa; annars flagga raden."
- Villkorliga bilagor: "Ladda upp ett kvitto endast om total_miles ≥ 50; annars lämna tomt."
- Härledda fält: "Beräkna ersättning = total_miles × taxa; verifiera att portalens beräknade summa matchar inom $0.01; om inte, ta skärmdump och hoppa över."
- Verifiering över flera sidor: Efter inskick, öppna "Historik", hitta dagens post och validera att namnet och summan matchar CSV-filen.
Dessa kontroller förvandlar en rolig demo till något som din chef godkänner.
En snabb avstickare: Säkerhetsteater vs riktigt skydd
Du kommer att stöta på portaler som använder pussel, klick-och-dra-reglage eller popup-gåtor värdiga en Hobbit. Vissa är riktiga botskydd; vissa är sidmakeup. Kämpa inte mot de bra. Planera för en människa-i-loopen-paus. Låt Gemini meddela: "Captcha upptäckt – redo för din hjälp", fortsätt sedan.
Det verkliga skyddet kommer från din inställning: separata profiler, begränsade behörigheter, granskningsloggar och tydliga stoppvillkor.
Mäta framgång: Vad "bra" ser ut som
En hälsosam webbformulärsautomatisering med Gemini 2.5 Computer Use ser ut så här:
- 95%+ av raderna bearbetas utan manuella justeringar
- Fel är förutsägbara och loggas (felaktiga datum, saknade filer)
- Du kan köra om från den sista misslyckade raden utan att röra de tidigare
- En människa kan granska skärmdumpar och loggar för att förstå exakt vad som hände
När du träffar dessa märken har du konverterat tråkigt arbete till ett prydligt, granskningsbart arbetsflöde.
Mini-playbooken: Från noll till "Skicka" i 12 steg
- Identifiera ett enda, tråkigt formulär du gör varje vecka.
- Rensa din data. Datum, nummer, filsökvägar.
- Skapa ett testkonto och en sandlåda om tillgängligt.
- Öppna Gemini 2.5 Computer Use i en kontrollerad webbläsarprofil.
- Beskriv formuläret och ange fältmappningar.
- Kör en post – slow motion, berättad, med dina ögon på den.
- Lägg till kontroller för framgång och misslyckande.
- Bygg en batchlogg och skärmdump vid eventuella anomalier.
- Bearbeta fem poster; sedan tjugo.
- Lägg till små skyddsräcken (Escape för att stänga autocompletes; skriv datum direkt).
- Exportera loggen; stickprovskontrollera i portalens historik.
- Spara din prompt och datastruktur för nästa vecka. Framtida du kommer att skriva dig en tacklapp.
En sista sak: Kämpa inte mot sidan – lär sidan till dig
Webben älskar att hålla hemligheter. Knappar gömmer sig bakom ikoner; fält väntar med att skälla på dig tills du klickar bort. Gemini 2.5 Computer Use fixar inte webben magiskt – den lär sig den tålmodigt. Vinsten är inte hastighet; det är lugn. Du återtar en timme du brukade spendera på att tabba dig igenom rutor och istället spenderar du den på att bestämma om anteckningarna ska säga "Kundbesök i zon B" eller den mer vågade "Zon B extravaganza."
Så välj ett formulär. Sätt Gemini 2.5 Computer Use i förarsätet – med säkerhetsbälten – och låt den göra klickandet. När den bekräftelsekoden dyker upp och ingen behövde vicka på en rullgardinsmeny, kommer du att känna att internet bad om ursäkt för datumväljaren från 2007.
Viktiga slutsatser
- Gemini 2.5 Computer Use kan automatisera webbformulär genom att se och använda din sida som en noggrann assistent.
- Börja smått, lägg till skyddsräcken och skala upp först när det är tråkigt – på ett bra sätt.
- Använd ren data, tydliga fältmappningar och kontroller för lyckade/misslyckade försök.
- Acceptera att captchas och MFA är tillfällen då mänsklig interaktion krävs.
- Kombinera med Sider.AI för att hantera prompter, loggar och rensning – som klippbordet till Geminis händer.
Nu kan du lära det där formuläret vem som bestämmer. Eller snarare, vem som artigt delegerar.
FAQ
F1: Vad är Gemini 2.5 Datoranvändning, på ren svenska?
Det är ett läge där Gemini faktiskt kan styra din webbläsare – klicka, skriva, ladda upp – så att den kan automatisera webbformulär. Tänk på det som en noggrann praktikant som följer dina instruktioner och berättar vad den gör.
F2: Kan Gemini 2.5 verkligen automatisera webbformulär med filuppladdningar och datumväljare?
Ja, med tydliga instruktioner. Säg åt den att skriva datum direkt, hantera rullgardinsmenyn för Taxa tydligt och klistra in filsökvägar i uppladdningsdialogen – dessa detaljer gör skillnaden.
F3: Hur håller jag automatiseringen av webbformulär säker och kompatibel?
Använd en separat webbläsarprofil, konton med minsta möjliga behörighet och loggar för varje körning. Undvik att lägga lösenord i prompter; pausa för captchas och MFA och återuppta sedan.
F4: Är Gemini 2.5 snabbare än traditionella skript som Selenium?
Vanligtvis inte, men den är mer anpassningsbar till röriga sidor och engångsjobb. Skript är snabbare och skörare; Gemini är långsammare men mindre benägen att gå sönder när webbplatsens CSS ändras.
F5: Var hjälper Sider.AI till i detta arbetsflöde?
Sider.AI kan lagra dina prompter, rensa dina CSV-filer, sammanfatta loggar och generera felsökningstips. Det är organisatören och chefredaktören för din automationshandbok medan Gemini gör klickandet.