Vai esat kādreiz vēlējies, lai jūsu dators vienkārši paveiktu garlaicīgās lietas, kamēr jūs gatavojat kafiju? Ne jau jautrās garlaicīgās lietas, piemēram, slīdēšanu cauri brīvdienu īres piedāvājumiem, ko nevarat atļauties, bet gan patiesi garlaicīgās lietas. Formu aizpildīšanu. Pareizo failu lejupielādi no trim dažādiem portāliem. Kopēšanu no kolonnas C uz kolonnu G, nejauši neaprēķinot vidējo kaķim. Ja tas esat jūs, laipni lūdzam Google Gemini 2.5 “Computer Use” (datora lietošana) funkcijai, kas ļauj AI aģentam burtiski vadīt jūsu pārlūkprogrammu kā sīkam, nenogurstošam praktikantam — tādam, kas nejautā, ko nozīmē “sinerģija”.
Šajā draudzīgajā apskatā mēs izskaidrosim, kas īsti ir Gemini 2.5 Computer Use, kā tas darbojas, kur tas spīd un kur tas joprojām noklikšķina uz nepareizās pogas, piemēram, jūsu onkulis uz uznirstošās reklāmas. Es dalīšos ar praktiskiem piemēriem, nepilnībām un reāliem padomiem, kas jums būtu nepieciešami, pirms nodot tam jūsu ekrāna atslēgas.
Kas ir Gemini 2.5 “Computer Use” vienkāršā valodā?
- Domājiet par to kā par “AI ar peli un tastatūru”. Tā vietā, lai tikai atbildētu uz jautājumiem ar tekstu, Gemini 2.5 Computer Use var darboties ar tīmekļa pārlūkprogrammu tāpat kā jūs: noklikšķināt uz saitēm, rakstīt laukos, ritināt, kopēt, ielīmēt, lejupielādēt failus un pabeigt daudzpakāpju uzdevumus dažādās vietnēs — to visu no vienas dabiskās valodas instrukcijas. Tā ir atšķirība starp “pasaki man, kā to izdarīt” un “ej un izdari to”.
- Tas specializējas pārlūkprogrammas automatizācijā. Jūs tam norādāt mērķi (“Atrodiet jaunāko rēķinu, lejupielādējiet PDF un nosūtiet man kopējo summu pa e-pastu”), un tas vada procesu kontrolētā pārlūkprogrammas sesijā, pa vienai darbībai, ar lapas karti un atmiņu par to, kas līdz šim ir paveikts.
Kāpēc tas ir svarīgi? Tāpēc, ka lielākā daļa mūsu darba tagad notiek pārlūkprogrammā: Personāla portāli, piegādātāju informācijas paneļi, valdības veidlapas, zināšanu bāzes, Google Drive, jūs to nosaucat. Ja bots var droši klikšķināt apkārt tāpat kā mēs — un procesā neizdzēst Klīvlendu —, jums ir praktisks laika taupītājs.
Kā Gemini 2.5 Computer Use faktiski darbojas (bez roku mājieniem)
Iedomājieties uzmanīgu autovadītāju jaunā pilsētā, kurš izmanto detalizētas norādes:
- Tas uztver lapu: Aģents lasa lapas struktūru, nevis tikai pikseļus. Tas redz noklikšķināmus elementus, teksta laukus, etiķetes un izkārtojumu, lai tas varētu izvēlēties pareizo mērķi — pat tad, ja abas pogas saka “Turpināt”. Tas ir kā rentgena redze DOM.
- Tas plāno nākamo soli: No jūsu augsta līmeņa instrukcijas tas sadala darbu mikro darbībās: noklikšķiniet uz šīs saites, ierakstiet šo e-pastu, pagaidiet uznirstošo logu, ritiniet līdz tabulai, iegūstiet datus. Ja esat kādreiz ierakstījis makro, tas šķiet pazīstams — izņemot to, ka tas pielāgojas lidojuma laikā, ja mainās lapas izkārtojums.
- Tas rīkojas un pārbauda: Pēc katras darbības tas pārbauda saprātu: Vai parādījās paredzētais elements? Vai poga tagad ir atspējota? Ja nē, tas mēģina citu ceļu. Šī atgriezeniskās saites cilpa ir tas, kā tas izvairās no nobraukšanas no klints, kad lapa ielādējas lēni vai laukam ir nepieciešams cits formāts.
- Tas dokumentē sevi: Lielākā daļa izpildījumu rada redzamu taku — uz ko tas noklikšķināja, ko tas ierakstīja, ko tas lejupielādēja —, ko varat pārskatīt. Šī vēsture ir zelta vērtībā atkļūdošanai un atbilstības nodrošināšanai, īpaši, ja jūs automatizējat kaut ko jutīgu, piemēram, finanšu vai personāla datus.
Un jā, tas var pārvietoties starp vairākām vietnēm vienā piegājienā — teiksim, pieslēgties piegādātāja informācijas panelim, apkopot cenas, ielīmēt rezultātus Google Sheet un nosūtīt jūsu komandai saiti pa e-pastu. Šeit tas jūtas mazāk kā “čatbots” un vairāk kā palīgs, kurš — atšķirībā no īsta palīga — neatstāj pasīvi agresīvas piezīmes uz jūsu monitora.
Ātra realitātes pārbaude: kur tas ir lielisks, kur tas ir dīvains
Vispirms jautrākā daļa: Gemini 2.5 Computer Use apstrādā:
- Atkārtotus tīmekļa darbus: aizpildiet veidlapas, augšupielādējiet failus, lejupielādējiet izrakstus un soļojiet cauri administratīvajiem portāliem, kas, šķiet, ir īpaši izveidoti, lai izšķiestu otrdienas.
- Datu apstrādi pārlūkprogrammā: kopējiet un ielīmējiet starp cilnēm, notīriet tabulas, pārvietojiet lietas uz dokumentu vai lapu un formatējiet to tā, kā patīk jūsu priekšniekam (jeb Vienīgais Pareizais Veids).
- Daudzpakāpju darbplūsmas: Pārejiet no “atrast” uz “formatēt” uz “kopīgot”, neliekot jums pieskatīt klikšķus.
Bet turēsim cepures galvā. Tāpat kā visiem agrīnajiem AI aģentiem, tam gadās kļūdas, kad:
- Lapas ir ārkārtīgi dinamiskas: Bezgalīgs ritināšana un uznirstošie logi, kas paslēpjas virsrakstā, var to sajaukt. Ja esat kādreiz mēģinājis noklikšķināt uz pogas, kas pārvietojas kā kurmītis, iedomājieties, kā iemācīt robotam to darīt.
- Parādās Captcha un 2FA vārti: Drošības funkcijas, kas aptur botus, ir paredzētas, lai apturētu botus. Jums joprojām būs jāapstiprina pieteikšanās vai laiku pa laikam jāatrisina mīkla.
- Pastāv neskaidras etiķetes: Ja vietnē ir trīs pogas “Iesniegt” un vidējā pasūta iekrāvēju, pirmajā reizē vēlēsities pārbaudīt klikšķu ceļu.
Diena no dzīves: trīs reāli lietošanas gadījumi
- Izdevumu pārvaldnieks: Jūs sakāt: “Pieslēdzieties TravelPortal.com, paņemiet manus pēdējos trīs ceļojuma kvītis, lejupielādējiet PDF un nometiet tos manā mapē Izdevumi/2024 Drive. Pēc tam sagatavojiet kopsavilkuma e-pastu finanšu nodaļai.” Aģents pieslēdzas, pārvietojas uz Kvītīm, lejupielādē failus, pārdēvē tos ar datumu-ceļojumu-pilsētu, augšupielādē Drive, izveido ātru sarakstu ar summām un sagatavo jūsu e-pastu. Ta-da. Tie ir 20 minūtes ietaupīta administratora darba.
- Piegādātāja cenu pārbaudītājs: “Salīdziniet Modeļa Z pašreizējo saraksta cenu no Piegādātāja A, B un C. Ielīmējiet SKU un cenas manā Google Sheet ‘Q4 Price Watch’ un atzīmējiet visus cenu kritumus virs 8%.” Aģents apmeklē trīs vietnes, meklē, nokasa cenu moduļus, normalizē datus, atjaunina lapu un iezīmē piedāvājumus.
- Personāla portāla goblins: “Atjauniniet manu adresi personāla portālā, apstipriniet pabalstu atbilstību, lejupielādējiet jaunāko algas lapu un pārbaudiet PTO atlikumus par pēdējo ceturksni.” Aģents paklausīgi soļo cauri labirintam. Jūs uzraugāt pirmo izpildījumu; pēc tam tas ir jūsu ikmēneša rituāls bez rituāla.
Kā ar drošību, privātumu un “vai esat pārliecināts, ka tas nenosūtīs e-pastu manam bijušajam?”
Computer Use darbojas ierobežotā vidē, kas paredzēta uzraudzībai. Cilvēku valodā: Jūs varat vērot to darbībā, noteikt ierobežojumus tam, kam tas var piekļūt, un pieprasīt apstiprinājumus jutīgiem soļiem, piemēram, e-pastu sūtīšanai vai naudas pārskaitīšanai. Sesiju vēstures palīdz jums auditēt, kas notika un kāpēc. Sapnis ir “bez roku palīdzības”, bet realitāte — īpaši sākumā — ir “acis uz pirmo reizi, pēc tam atslābiniet pavadu”. Tā nav kļūda; tas ir veselais saprāts.
Pro iestatīšanas padomi (no kāda, kurš ir palaidis garām dažus klikšķus)
- Sāciet ar mazumiņu: Vispirms piešķiriet tam garlaicīgus, bet drošus uzdevumus: pārskatu lejupielādi, failu pārdēvēšanu, izklājlapu sakārtošanu. Jūs veidojat uzticību; tas veido stabilu skriptu.
- Nosauciet elementus panākumiem: Tur, kur jūs kontrolējat vietnes vai iekšējos informācijas paneļus, izmantojiet skaidras etiķetes un ID. Aģents pieķeras paredzamam tekstam un struktūrai kā zeltainais retrīvers pieķeras tenisa bumbiņai.
- Vispirms izveidojiet “laimīgu ceļu”: Ierakstiet ideālus klikšķus un laukus, ko tam vajadzētu sagaidīt. Pēc tam iemetiet tam līkni (lēna ielāde, papildu dialoglodziņš) un vērojiet, kā tas atgūstas. Uzlabojiet no turienes.
- Turiet 2FA pa rokai: Sagaidiet, ka apstiprināsiet pieteikšanos vai ielīmēsiet kodu aizsargātiem kontiem. Tā nav kļūda; tā ir drošības funkcija.
- Reģistrējiet visu: Saglabājiet darbību vēsturi un ekrānšāviņus jutīgām darbplūsmām. Ja kaut kas noiet greizi, jūs zināt, kur, kad un kuru pogu.
Kā tas salīdzinās ar citiem “AI aģentiem”, par kuriem esat dzirdējis?
Ja esat redzējis AI asistentu demonstrācijas, kas kontrolē jūsu ekrānu, jūs esat redzējis žanru: aģents, kas klikšķina un raksta, nevis tikai “atbild”. Gemini 2.5 Computer Use tiecas uz tīmekļa automatizāciju, izmantojot strukturētu lapu izpratni, stāvokļa pārbaudes pēc katras darbības un labu reģistrēšanu pēc noklusējuma. Manā testēšanā tas ir īpaši labs “pārlūkprogramma–dokuments” darbos — paņemiet kaut ko no vietnes, pārveidojiet to un ielīmējiet dokumentā vai lapā, ko varat kopīgot.
Kur tas atpalika: jebkura darbplūsma, kas paļaujas uz nervozu, animācijas smagu UI vai captchas. Tas nav unikāli Gemini; tas ir pašreizējais kategorijas stāvoklis. Pozitīvais: kad vietne ir veselīga, aģents jūtas šokējoši spējīgs. Kad tā nav, jūs ātrāk uzzināsiet, kuras vietnes ir alerģiskas pret automatizāciju, nekā jūs varat pateikt “sīkdatņu reklāmkarogs”.
Ātrs ceļvedis: no uzvednes līdz atalgojumam
Automatizēsim reālu uzdevumu: ceturkšņa metrikas iegūšanu no trim informācijas paneļiem un komandas dokumenta atjaunināšanu.
- Pieprasījums: “Atveriet Acme Analytics, BetaReports un GammaBoard. Eksportējiet Q3 datplūsmu pēc avota kā CSV. Apvienojiet vienā tabulā Google Sheets, pēc tam ģenerējiet viena rindkopas kopsavilkumu Docs.”
- Ko jūs redzēsiet: Aģents pieslēdzas (jūs apstiprināt jebkuru 2FA), pārvietojas uz katru “Pārskatu” lapu, izvēlas pareizo datumu diapazonu, noklikšķina uz Eksportēt, lejupielādē CSV, atver Lapu, importē katru failu jaunā cilnē, normalizē kolonnu galvenes, pievieno cilni Apvienots un raksta SUMIF formulas, lai apkopotu datplūsmu pēc avota. Pēc tam tas atver Dokumentu, iemet kopsavilkuma rindkopu ar svarīgākajiem punktiem un saiti uz Lapu.
- Sakārtošana: Jūs pārlūkojat Dokumentu, pielāgojat teikumu un nospiežat Sūtīt. Desmit minūtes uzraudzības pret stundu smaga darba.
Problēmu novēršanas stūris: kad bots satiek haosu
- Tas noklikšķināja uz nepareizās pogas: Pievienojiet vairāk konteksta savai instrukcijai: “Noklikšķiniet uz zilās pogas ‘Lejupielādēt CSV’ sadaļā Datplūsma > Avoti, nevis uz baltās ‘Lejupielādēt PDF’ augšpusē.” Aģents izmanto jūsu formulējumu, lai nošķirtu mērķus.
- Uznirstošais logs bloķēja progresu: Pasakiet tam, ko darīt uznirstošajos logos: “Aizveriet jebkuru modālu ‘Novērtējiet savu pieredzi’, pēc tam turpiniet.” Otrais izpildījums bieži vien tiks veikts veiksmīgi.
- Tabulas izkārtojums mainījās: Norādiet to uz etiķetēm, nevis pozīcijām: “Atlasiet nolaižamo izvēlni ar nosaukumu ‘Datumu diapazons’ un izvēlieties ‘Pēdējais ceturksnis’.” Izvairieties no “augšējā labajā” un “trešā poga”, kas sabojājas, kad dizaineris jūtas iedvesmots.
Šeit ir pārsteigums: Sider.AI (tie ir cilvēki, ko jūs pašlaik lasāt) aprīko jūsu pārlūkprogrammu ar AI asistentu lapā, kas var izveidot melnrakstus, apkopot un organizēt daudzpakāpju uzdevumus tieši tur, kur jūs strādājat. Manā pieredzē apvienojot Gemini 2.5 Computer Use smagai pārlūkprogrammas vadīšanai ar Sider iekšlapu palīdzību, tiek iegūts jauks viens-divi sitieni. Jūs ļaujat Gemini veikt klikšķu maratonu un izmantojat Sider, lai pulētu rezultātus, ģenerētu e-pastus vai pārbaudītu skaitļus, neatstājot cilni. Tā nav maģija, bet tas jūtas kā pieņemt darbā korektoru, kurš dzīvo jūsu pārlūkprogrammā un kuram nav nepieciešama piekļuves karte. Kad neizmantot Computer Use
- Jebkas, kas pārkāpj vietnes noteikumus vai privātuma cerības. “Tāpēc, ka tas var klikšķināt” nenozīmē “jums vajadzētu klikšķināt”.
- Neaizstājamas, vienreizējas darbības — pieteikšanās atļaujai dzīvībai vai nāvei vai lielu summu pārskaitīšana —, kur cilvēkam ir jāpārskata katrs solis.
- Radošs darbs, kur šaurā vieta nav klikšķi, bet gan spriedums: video rediģēšana, logotipa izstrāde, cenas sarunas. Aģents var paņemt, formatēt un iesniegt; tas neapburs pārdevēju.
Darba sākšanas kontrolsaraksts
- Izvēlieties vienu uzdevumu, ko atkārtojat katru nedēļu, kas dzīvo pārlūkprogrammā un šķiet deterministisks. “Lejupielādējiet vakardienas pārskatu un ievietojiet to šeit.”
- Uzrakstiet ideālu skriptu vienkāršā valodā. Iekļaujiet etiķetes, nevis pozīcijas; rezultātus, nevis noskaņas.
- Palaidiet ar uzraudzību. Apstipriniet visas pieteikšanās. Skatiet darbību vēsturi.
- Pievienojiet aizsargmargas: “Neiesniedziet veidlapas; tikai priekšskatiet lejupielādes.”
- Atkārtojiet: Ja tas klūp, esiet konkrēts par korekciju un mēģiniet vēlreiz.
Sīkais drukas teksts, par kuru jūs rūpēsities vēlāk
- Veiktspēja ir atkarīga no vietnes: Statiskas, labi marķētas lapas = šefpavāra skūpsts. Dinamiskas, ar reklāmām aplipinātas, modālas laimīgas lapas = atnesiet uzkodas.
- Latence ir lieta: Tas ir klikšķis pēc klikšķa, ar pārbaudēm starp soļiem. Tas ir tas, kas to uztur uzticamu — kā uzmanīgs autovadītājs, nevis dragreiss.
- Jūs esat atbildīgs: Jūs varat apturēt izpildījumus, pārskatīt žurnālus un iestatīt atļaujas. Domājiet par to kā par skrejceliņu ar lielu sarkanu pogu STOP. Izmantojiet to.
Secinājums: Tātad, vai Gemini 2.5 Computer Use ir tā vērts?
Ja jūsu dienā ietilpst “atvērt piecas vietnes, noklikšķināt uz astoņām pogām, iegūt tos pašus datus un ievietot tos kaut kur” … tad jā, šis ir tieši tāds praktisks AI, kas ietaupa jums reālu laiku. Tas nav zinātniskās fantastikas sulainis. Tas ir vairāk kā ļoti paklausīgs praktikants, kurš nekad nemirkšķina un vienmēr dokumentē savu darbu. Izturieties pret to ar tādu pašu veselo saprātu, kādu jūs piešķirtu jaunam darbiniekam, un jūs iegūsiet priekšrocības bez drāmas.
Mans padoms: sāciet ar vienu garlaicīgu darbu, automatizējiet to un ietaupiet 20 minūtes katru nedēļu. Pēc mēneša jūs brīnīsities, kāpēc jūs kādreiz kaut ko lejupielādējāt manuāli. Pēc gada jūs aizmirsīsiet, cik daudz jums ir paroļu, jo jūs nebūsiet tas, kurš tās rakstīs.
Viena pēdējā lieta: datori, kas dara datoru lietas, ir nākotne, bet jūsu spriedums ir slepenā mērce. Turiet rokas uz lielās sarkanās pogas un acis uz balvu. AI var klikšķināt. Jūs izlemjat, kur.
Papildu lasāmviela un praktiski ceļveži
- Draudzīgs skaidrojums par to, ko Gemini 2.5 Computer Use faktiski var darīt, ar konkrētiem uzdevumu un aizsardzības pasākumu piemēriem.
- Pragmatisks pārskats par to, kur tas izceļas un kur tas klūp, ieskaitot salīdzinājumus ar līdzīgiem rīkiem.
- Pamācība par pārlūkprogrammas automatizācijas darbplūsmu veidošanu, kas apkopo, notīra un koplieto datus, neizejot no sava krēsla.
FAQ
Q1:Kas ir Google Gemini 2.5 Computer Use vienkāršiem vārdiem?
Tas ir AI, kas var kontrolēt pārlūkprogrammu jūsu vietā — klikšķinot, rakstot, lejupielādējot un pārvietojoties, lai pabeigtu uzdevumus, ko aprakstāt vienkāršā valodā. Domājiet par to kā par uzmanīgu palīgu, kas soli pa solim seko jūsu norādījumiem, nevis par brīvi ripojošu robotu valdnieku.
Q2:Kādus uzdevumus Gemini 2.5 Computer Use apstrādā vislabāk?
Tas spīd atkārtotos, uz noteikumiem balstītos pārlūkprogrammas darbos: pieslēgšanās portāliem, pārskatu eksportēšana, datu kopēšana un dokumentu vai lapu atjaunināšana. Ja jūs varat to izdarīt, katru nedēļu noklikšķinot uz tām pašām pogām, Computer Use ir lieliski piemērots.
Q3:Vai Gemini 2.5 Computer Use ir drošs jutīgām darbplūsmām?
Pareizi lietojot, jā — tas darbojas kontrolētā vidē, kurā varat vērot, iestatīt atļaujas un pārskatīt darbību žurnālu. Ieslēdziet apstiprinājumus jutīgiem soļiem, piemēram, pieteikšanās, maksājumi vai e-pasta ziņojumi, un pārbaudiet pirmo izpildījumu, pirms ļaut tam klīst.
Q4:Kā padarīt Gemini Computer Use uzticamāku?
Esiet konkrēts ar etiķetēm (nevis pozīcijām), definējiet laimīgo ceļu un pievienojiet norādījumus uznirstošajiem logiem un lejupielādēm. Sāciet ar mazumiņu, atkārtojiet pēc pirmās izpildes un turiet 2FA pa rokai aizsargātiem kontiem.
Q5:Kur Gemini 2.5 Computer Use cīnās?
Dinamiskas lapas ar kustīgiem elementiem, agresīvi uznirstošie logi, captchas vai vairākas identiskas pogas var to paklupt. Šajos gadījumos pievienojiet skaidrākus norādījumus, sadaliet uzdevumu mazākos soļos vai apstrādājiet sarežģītās daļas manuāli.