Sider.ai
  • 채팅
  • Wisebase
  • 도구
  • 확대
  • 클라이언트
  • 가격
지금 다운로드
로그인

Sider와 함께 더 빠르게 배우고, 더 깊이 생각하며, 더 스마트하게 성장하세요.

제품
앱
  • 확장 프로그램
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
도구
  • 웹 크리에이터New
  • AI 슬라이드New
  • AI 에세이 작성기
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI 이미지 생성기
  • 이탈리안 브레인롯 생성기
  • 배경 제거기
  • 배경 변경기
  • 사진 지우개
  • 텍스트 제거기
  • 인페인트
  • 이미지 업스케일러
  • 생성하기
  • AI 번역기
  • 이미지 번역기
  • PDF 번역기
Sider
  • 문의하기
  • 도움말 센터
  • 다운로드
  • 가격
  • 교육 계획
  • 새로운 소식
  • 블로그
  • 커뮤니티
  • 파트너
  • 제휴
  • 초대하기
©2026 모든 권리 보유
이용 약관
개인정보 보호정책
  • 홈 페이지
  • 블로그
  • AI 도구
  • Google Gemini 2.5 '컴퓨터 사용': 뒤로 가기를 클릭하는 브라우저 (그리고 이것이 당신에게 의미하는 것)

Google Gemini 2.5 '컴퓨터 사용': 뒤로 가기를 클릭하는 브라우저 (그리고 이것이 당신에게 의미하는 것)

업데이트 날짜: 2025년 10월 13일

11 분


커피를 마시러 간 동안 컴퓨터가 지루한 일을 대신 처리해주길 바란 적이 있나요? 휴가를 가서 감당할 수 없는 숙소를 검색하는 것 같은 재미있는 지루함 말고, 정말 지루하고 따분한 일 말이죠. 양식을 작성하거나, 서로 다른 세 개의 포털에서 올바른 파일을 다운로드하거나, 고양이를 평균값에 포함시키지 않고 C열의 합계를 G열로 복사하는 것 말입니다. 만약 그렇다면, Google의 Gemini 2.5 "Computer Use"를 사용해보세요. 이 기능은 AI 에이전트가 문자 그대로 작고 지칠 줄 모르는 인턴처럼 브라우저를 조작할 수 있게 해줍니다. "시너지"가 무슨 뜻인지 묻지도 않죠.
이번 소개에서는 Gemini 2.5 Computer Use가 실제로 무엇인지, 어떻게 작동하는지, 어떤 장점이 있는지, 그리고 팝업 광고에서 삼촌처럼 잘못된 버튼을 누르는 경우는 언제인지 살펴보겠습니다. 화면 제어 권한을 넘겨주기 전에 알아야 할 실용적인 팁과 실제 사례, 주의 사항을 공유하겠습니다.
Gemini 2.5 "Computer Use", 쉬운 말로 설명하면 무엇일까요?
  • "마우스와 키보드를 가진 AI"라고 생각하세요. 텍스트로 질문에 답하는 대신, Gemini 2.5 Computer Use는 웹 브라우저를 사용자가 하는 방식대로 조작할 수 있습니다. 링크를 클릭하고, 필드에 입력하고, 스크롤하고, 복사, 붙여넣기, 파일을 다운로드하고, 서로 다른 사이트에서 여러 단계의 작업을 완료할 수 있습니다. 이 모든 것이 자연어 명령 하나로 가능합니다. 이는 "어떻게 하는지 알려줘"와 "가서 해줘"의 차이입니다.
  • 이 기능은 브라우저 자동화에 특화되어 있습니다. 사용자에게 목표("최신 청구서를 찾아서 PDF를 다운로드하고, 총액을 이메일로 보내줘")를 주면, 제어된 브라우저 세션 내에서 페이지 맵과 지금까지 수행한 작업에 대한 기억을 바탕으로 한 번에 하나의 작업을 수행합니다.
왜 중요할까요? 대부분의 작업이 이제 브라우저에서 이루어지기 때문입니다. HR 포털, 공급업체 대시보드, 정부 양식, 지식 베이스, Google Drive 등 모든 것이 해당됩니다. 봇이 우리처럼 안전하게 클릭할 수 있다면(그리고 그 과정에서 Cleveland를 삭제하지 않는다면), 실질적인 시간 절약 효과를 얻을 수 있습니다.
Gemini 2.5 Computer Use의 실제 작동 방식 (허황된 설명 없이)
새로운 도시에서 턴바이턴 내비게이션을 사용하는 신중한 운전자를 상상해 보세요.
  1. 페이지를 인식합니다: 에이전트는 픽셀뿐만 아니라 페이지 구조를 읽습니다. 클릭 가능한 요소, 텍스트 필드, 레이블 및 레이아웃을 파악하여 "계속"이라고 표시된 두 개의 버튼이 있는 경우에도 올바른 대상을 선택할 수 있습니다. DOM에 대한 엑스레이 시력을 가진 것과 같습니다.
  1. 다음 단계를 계획합니다: 사용자의 높은 수준의 지침에서 작업을 작은 작업으로 나눕니다. 이 링크를 클릭하고, 해당 이메일을 입력하고, 팝업을 기다리고, 테이블로 스크롤하고, 데이터를 추출합니다. 매크로를 녹화해 본 적이 있다면 익숙하게 느껴질 것입니다. 단, 페이지 레이아웃이 변경되면 중간에 조정됩니다.
  1. 실행하고 확인합니다: 각 작업 후에는 정상인지 확인합니다. 예상 요소가 나타났습니까? 버튼이 비활성화되었습니까? 그렇지 않은 경우 다른 경로를 시도합니다. 이 피드백 루프는 페이지 로드 속도가 느리거나 필드에 다른 형식이 필요한 경우 절벽에서 벗어나는 것을 방지하는 방법입니다.
  1. 스스로 문서를 작성합니다: 대부분의 실행은 검토할 수 있는 가시적인 흔적(클릭한 항목, 입력한 항목, 다운로드한 항목)을 생성합니다. 이 기록은 특히 재무 또는 HR 데이터와 같이 민감한 작업을 자동화하는 경우 디버깅 및 규정 준수에 매우 유용합니다.
물론, 한 번에 여러 사이트를 탐색할 수 있습니다. 예를 들어, 공급업체 대시보드에 로그인하고, 가격을 수집하고, 결과를 Google Sheets에 붙여넣고, 팀에 링크를 이메일로 보낼 수 있습니다. 이 부분은 "챗봇"이라기보다는 실제 비서와 달리 모니터에 공격적인 메모를 남기지 않는 비서처럼 느껴집니다.
빠르게 현실 점검: 뛰어난 점, 어색한 점
재미있는 부분부터 시작해볼까요? Gemini 2.5 Computer Use는 다음을 처리합니다.
  • 반복적인 웹 작업: 양식 작성, 파일 업로드, 명세서 다운로드, 화요일을 낭비하도록 특별히 만들어진 것 같은 관리 포털 탐색.
  • 브라우저 내 데이터 처리: 탭 간 복사-붙여넣기, 테이블 정리, 문서 또는 시트로 이동, 상사가 좋아하는 방식으로 포맷 (일명, 유일한 정답).
  • 다단계 워크플로: 사용자가 클릭을 감독하지 않고도 "찾기"에서 "포맷"으로, "공유"로 이동합니다.
하지만 냉정함을 유지합시다. 모든 초기 AI 에이전트와 마찬가지로 다음과 같은 경우에 문제가 발생합니다.
  • 페이지가 매우 동적입니다: 무한 스크롤과 마우스 오버 시 숨겨지는 팝오버는 혼란을 줄 수 있습니다. 두더지 잡기 게임처럼 움직이는 버튼을 클릭하려고 시도한 적이 있다면 로봇에게 가르치는 것을 상상해 보세요.
  • 캡차 및 2FA 게이트가 나타납니다: 봇을 막기 위해 설계된 보안 기능은 봇을 막도록 설계되었습니다. 여전히 로그인을 승인하거나 퍼즐을 풀어야 하는 경우가 있습니다.
  • 모호한 레이블이 존재합니다: 사이트에 "제출" 버튼이 세 개 있고 가운데 버튼이 지게차를 주문하는 경우 처음에는 클릭 경로를 확인해야 합니다.
하루 일과: 세 가지 실제 사용 사례
  1. 경비 처리 도우미: "TravelPortal.com에 로그인하여 지난 3번의 여행 영수증을 가져와 PDF를 다운로드하고 Drive의 경비/2024 폴더에 넣으세요. 그런 다음 재무 부서에 보낼 요약 이메일을 작성하세요."라고 말합니다. 에이전트는 로그인하여 영수증으로 이동하고 파일을 다운로드하여 날짜-여행-도시로 이름을 바꾸고 Drive에 업로드하고 총액이 포함된 빠른 글머리 기호 목록을 만들고 이메일을 초안합니다. 짜잔. 20분 분량의 관리 업무가 절약됩니다.
  1. 공급업체 가격 확인 도우미: "공급업체 A, B, C의 모델 Z의 현재 가격을 비교합니다. SKU와 가격을 'Q4 가격 감시' Google Sheet에 붙여넣고 8% 이상 가격이 하락하면 표시하세요." 에이전트는 세 개의 사이트를 방문하여 검색하고 가격 모듈을 스크랩하고 데이터를 정규화하고 시트를 업데이트하고 거래를 강조 표시합니다.
  1. HR 포털 도깨비: "HR 포털에서 주소를 업데이트하고, 혜택 자격을 확인하고, 최신 급여 명세서를 다운로드하고, 지난 분기의 PTO 잔액을 확인하세요." 에이전트는 성실하게 미로를 헤쳐나갑니다. 처음 실행을 모니터링합니다. 그 후에는 의례 없는 월례 행사가 됩니다.
안전, 개인 정보 보호 및 "전 여자친구/남자친구에게 이메일을 보내지 않을 거라고 확신하십니까?"는 어떻게 되나요?
Computer Use는 감독을 위해 설계된 제한된 환경에서 실행됩니다. 쉬운 말로 설명하면 다음과 같습니다. 작업 과정을 지켜보고 액세스할 수 있는 항목에 제한을 설정하고 이메일을 보내거나 돈을 이체하는 것과 같은 중요한 단계에 대한 승인을 요구할 수 있습니다. 세션 기록은 발생한 상황과 이유를 감사하는 데 도움이 됩니다. 꿈은 "핸즈 오프"이지만 현실은 특히 초기에는 "처음에 주의 깊게 살펴보고, 그 후에는 고삐를 늦추는 것"입니다. 이는 버그가 아니라 상식입니다.
전문가 설정 팁 (몇 번 클릭을 잘못한 사람이 알려주는)
  • 작게 시작하세요: 보고서 다운로드, 파일 이름 바꾸기, 스프레드시트 정리와 같이 지루하지만 안전한 작업부터 시작하세요. 사용자는 신뢰를 쌓고, 에이전트는 강력한 스크립트를 구축합니다.
  • 성공을 위해 요소 이름을 지정하세요: 웹사이트 또는 내부 대시보드를 제어하는 경우 명확한 레이블과 ID를 사용하세요. 에이전트는 테니스 공을 좋아하는 골든 리트리버처럼 예측 가능한 텍스트와 구조에 달라붙습니다.
  • 먼저 "해피 패스"를 만드세요: 예상되는 이상적인 클릭과 필드를 기록하세요. 그런 다음 예상치 못한 상황(느린 로드, 추가 대화 상자)을 던져보고 어떻게 복구하는지 확인하세요. 거기서부터 개선하세요.
  • 2FA를 편리하게 준비하세요: 보호된 계정의 경우 로그인을 승인하거나 코드를 붙여넣어야 할 수 있습니다. 이는 결함이 아니라 안전 기능입니다.
  • 모든 것을 기록하세요: 중요한 워크플로의 경우 작업 기록과 스크린샷을 저장하세요. 문제가 발생하면 언제, 어디서, 어떤 버튼을 눌렀는지 알 수 있습니다.
다른 "AI 에이전트"와 어떻게 비교되나요?
화면을 제어하는 AI 비서 데모를 본 적이 있다면, 그것이 바로 이 장르입니다. 단순히 "응답"하는 대신 클릭하고 입력하는 에이전트 말이죠. Gemini 2.5 Computer Use는 페이지에 대한 구조화된 이해, 각 작업 후 상태 확인, 기본적으로 제공되는 로깅을 통해 웹 자동화를 지향합니다. 제 테스트에서는 특히 사이트에서 무언가를 가져와서 모양을 바꾸고 공유할 수 있는 문서 또는 시트에 넣는 "브라우저-문서" 작업에 뛰어납니다.
뒤쳐지는 부분: 애니메이션이 많은 UI 또는 캡차에 의존하는 워크플로. 이는 Gemini만의 문제가 아니라 현재 이 범주의 상태입니다. 장점은 사이트가 정상적일 때 에이전트가 놀라울 정도로 유능하게 느껴진다는 것입니다. 그렇지 않은 경우 "쿠키 배너"라고 말하기도 전에 어떤 사이트가 자동화에 알레르기가 있는지 알게 될 것입니다.
빠른 둘러보기: 프롬프트에서 결과까지
실제 작업을 자동화해 보겠습니다. 세 개의 대시보드에서 분기별 지표를 가져와 팀 문서에 업데이트하는 것입니다.
  1. 요청: "Acme Analytics, BetaReports 및 GammaBoard를 엽니다. Q3 트래픽을 소스별로 CSV로 내보냅니다. Google Sheets의 단일 테이블로 통합한 다음 Docs에서 한 단락 요약을 생성합니다."
  1. 보게 될 내용: 에이전트는 로그인하고(2FA를 승인), 각 "보고서" 페이지로 이동하고, 올바른 날짜 범위를 선택하고, 내보내기를 클릭하고, CSV를 다운로드하고, 시트를 열고, 각 파일을 새 탭으로 가져오고, 열 머리글을 정규화하고, 결합된 탭을 추가하고, SUMIF 공식을 작성하여 소스별로 트래픽을 롤업합니다. 그런 다음 Docs를 열고 요약 단락과 시트 링크를 넣습니다.
  1. 정리 작업: 문서를 대충 훑어보고 문장을 수정하고 보내기를 누릅니다. 1시간의 고된 작업 대신 10분 동안 모니터링합니다.
문제 해결 코너: 봇이 혼란을 만났을 때
  • 잘못된 버튼을 클릭했습니다: 지침에 더 많은 컨텍스트를 추가하세요. "트래픽 > 소스 아래에 있는 파란색 'CSV 다운로드' 버튼을 클릭하고 상단에 있는 흰색 'PDF 다운로드' 버튼을 클릭하지 마세요." 에이전트는 사용자의 표현을 사용하여 대상을 명확히 합니다.
  • 팝업이 진행을 막았습니다: 팝업에서 수행할 작업을 알려주세요. "'경험 평가' 모달을 닫은 다음 계속하세요." 두 번째 실행은 종종 순조롭게 진행됩니다.
  • 테이블 레이아웃이 변경되었습니다: 위치가 아닌 레이블을 가리키세요. "'날짜 범위'라고 표시된 드롭다운을 선택하고 '지난 분기'를 선택하세요." 디자이너가 영감을 받으면 깨지는 "오른쪽 상단" 및 "세 번째 버튼"을 피하세요.
Sider.AI는 어때요? 여기서 도움이 되나요?
놀라운 사실: Sider.AI(지금 읽고 있는 바로 그 회사)는 작업 중인 페이지에서 바로 초안을 작성하고, 요약하고, 다단계 작업을 오케스트레이션할 수 있는 페이지 내 AI 비서를 브라우저에 제공합니다. 제 경험상, 브라우저를 많이 사용하는 Gemini 2.5 Computer Use와 Sider의 페이지 내 지원을 결합하면 좋은 시너지 효과를 낼 수 있습니다. Gemini에게 클릭 마라톤을 맡기고, Sider를 사용하여 탭을 벗어나지 않고도 출력을 다듬고, 이메일을 생성하고, 숫자의 정확성을 확인합니다. 마법은 아니지만 브라우저에 살면서 출입증이 필요 없는 교정자를 고용한 것 같은 느낌입니다.
Computer Use를 사용하지 않아야 할 때
  • 사이트 약관 또는 개인 정보 보호 기대치를 위반하는 모든 것. "클릭할 수 있기 때문"이 "클릭해야 한다"는 의미는 아닙니다.
  • 인간이 모든 단계를 검토해야 하는 생사를 가르는 허가를 신청하거나 거액을 이체하는 것과 같은 대체 불가능한 일회성 작업.
  • 병목 현상이 클릭이 아닌 판단에 있는 창의적인 작업: 비디오 편집, 로고 디자인, 가격 협상. 에이전트는 가져오고, 포맷하고, 파일을 정리할 수 있지만 공급업체를 매료시키지는 못합니다.
시작하기 위한 체크리스트
  • 브라우저에 있고 결정적이라고 느껴지는 주간 반복 작업을 하나 선택하세요. "어제 보고서를 다운로드하여 여기에 넣으세요."
  • 이상적인 스크립트를 쉬운 영어로 작성하세요. 위치가 아닌 레이블을 포함하세요. 분위기가 아닌 결과를 포함하세요.
  • 감독하에 실행하세요. 로그인을 승인하세요. 작업 기록을 확인하세요.
  • 안전 장치를 추가하세요. "양식을 제출하지 말고 다운로드만 미리 보기를 하세요."
  • 반복하세요. 문제가 발생하면 수정 사항에 대해 구체적으로 설명하고 다시 시도하세요.
나중에 신경 쓸 미세 글꼴
  • 성능은 사이트에 따라 다릅니다. 정적이고 레이블이 잘 지정된 페이지 = 셰프의 키스. 동적이고 광고가 난무하며 모달이 많은 페이지 = 간식을 가져오세요.
  • 대기 시간은 문제입니다. 단계 사이에 확인이 있는 클릭 단위입니다. 이것이 신중한 운전자이지 드래그 레이서가 아닌 이유입니다.
  • 사용자가 책임자입니다. 실행을 중지하고, 로그를 검토하고, 권한을 설정할 수 있습니다. 큰 빨간색 STOP 버튼이 있는 런닝머신이라고 생각하세요. 사용하세요.
결론: 그렇다면 Gemini 2.5 Computer Use는 그만한 가치가 있을까요?
하루 일과에 "다섯 개의 사이트를 열고, 똑같은 여덟 개의 버튼을 클릭하고, 똑같은 데이터를 가져와서 어딘가에 넣는 것"이 포함되어 있다면... 그렇다면 이것은 실제로 시간을 절약해주는 실용적인 AI입니다. 공상 과학 집사는 아닙니다. 깜박거리지 않고 항상 작업 내용을 문서화하는 매우 순종적인 인턴에 더 가깝습니다. 신입 사원에게 주는 것과 동일한 상식적인 감독으로 대하면 드라마 없이 혜택을 얻을 수 있습니다.
제 조언은 지루한 작업 하나를 시작하여 자동화하고 매주 20분을 확보하세요. 한 달 후에는 왜 수동으로 다운로드했는지 궁금해질 것입니다. 1년 후에는 비밀번호를 얼마나 많이 가지고 있는지 잊어버릴 것입니다. 사용자가 직접 입력하지 않아도 되기 때문입니다.
마지막으로, 컴퓨터가 컴퓨터 작업을 수행하는 것이 미래이지만 판단력이 비법입니다. 큰 빨간색 버튼을 손에 쥐고 목표를 주시하세요. AI는 클릭할 수 있습니다. 어디를 클릭할지는 사용자가 결정합니다.
추가 자료 및 실습 가이드
  • Gemini 2.5 Computer Use가 실제로 할 수 있는 일에 대한 사용하기 쉬운 설명(작업 및 안전 장치의 구체적인 예 포함).
  • 유사한 도구와의 비교를 포함하여 뛰어난 점과 문제가 있는 부분을 다룬 실용적인 검토.
  • 의자에서 일어나지 않고도 데이터를 집계, 정리 및 공유하는 브라우저 자동화 워크플로 구축 방법.

FAQ

Q1:Google Gemini 2.5 Computer Use를 간단히 설명하면 무엇인가요? 사용자를 대신하여 브라우저를 제어할 수 있는 AI입니다. 클릭, 입력, 다운로드 및 탐색을 통해 사용자가 쉬운 영어로 설명하는 작업을 완료합니다. 자유롭게 움직이는 로봇 지배자가 아닌, 사용자의 지시를 단계별로 따르는 신중한 비서라고 생각하세요.
Q2:Gemini 2.5 Computer Use는 어떤 종류의 작업을 가장 잘 처리하나요? 반복적이고 규칙 기반인 브라우저 작업, 즉 포털 로그인, 보고서 내보내기, 데이터 복사, 문서 또는 시트 업데이트에 뛰어납니다. 매주 같은 버튼을 클릭하여 작업을 수행할 수 있다면 Computer Use가 적합합니다.
Q3:Gemini 2.5 Computer Use는 민감한 워크플로에 안전한가요? 제대로 사용하면 안전합니다. 사용자가 감시하고, 권한을 설정하고, 작업 로그를 검토할 수 있는 제어된 환경에서 실행됩니다. 로그인, 결제 또는 이메일과 같은 민감한 단계에 대한 승인을 유지하고, 실행하기 전에 먼저 테스트하세요.
Q4:Gemini의 Computer Use를 더 안정적으로 만들려면 어떻게 해야 하나요? (위치가 아닌) 레이블을 구체적으로 지정하고, 해피 패스를 정의하고, 팝업 및 다운로드에 대한 지침을 추가하세요. 작게 시작하고, 처음 실행 후 반복하고, 보호된 계정에 대한 2FA를 편리하게 유지하세요.
Q5:Gemini 2.5 Computer Use는 어떤 부분에서 어려움을 겪나요? 움직이는 요소가 있는 동적 페이지, 공격적인 팝오버, 캡차 또는 여러 개의 동일한 버튼은 문제를 일으킬 수 있습니다. 이러한 경우 더 명확한 지침을 추가하고, 작업을 더 작은 단계로 나누거나, 까다로운 부분을 수동으로 처리하세요.

최근 기사
ChatPDF 마스터하기: 방대한 문서에서 빠르게 인사이트 얻는 법

ChatPDF 마스터하기: 방대한 문서에서 빠르게 인사이트 얻는 법

빠르고 정확한 문서 번역을 위한 최고의 X 자동 번역 대안

빠르고 정확한 문서 번역을 위한 최고의 X 자동 번역 대안

이란에서 삼성 AI 번역이 불가능한가요? 실용적인 해결 방법

이란에서 삼성 AI 번역이 불가능한가요? 실용적인 해결 방법

페르시아어 번역 도구: 빠르고 정확한 작업을 위한 실용 가이드

페르시아어 번역 도구: 빠르고 정확한 작업을 위한 실용 가이드

깊이 있고 인용된 연구를 위한 최고의 Grok 대안

깊이 있고 인용된 연구를 위한 최고의 Grok 대안

실제로 사용할 AI 이미지 생성기 상위 15가지 기능

실제로 사용할 AI 이미지 생성기 상위 15가지 기능