[기획] "어느 AI가 일을 더 잘하오", 챗GPT와 제미나이 바이브코딩 비교

구글이 자체 인공지능(AI) 모델 제미나이 신규 버전 3.0을 선보였습니다. 최신 추론 능력을 기반으로 복잡한 문제 해결에 특화된 모델로, 벤치마크에서 모든 분야에서 우수한 성적을 냈다고 합니다. 구글 측은 이미지나 비디오, 오디오 등 다양한 데이터를 해석하는 멀티모달 기능과 함께, 프로그램 개발을 돕는 코딩 능력이 높아져 개발 생산성을 높일 것이라고 강조했습니다.

실제로 예전 제미나이 2.0 버전 모델은 바이브코딩의 기능 측면에서 취약한 부분이 많았습니다. 일부 논리적 구조(알고리즘)가 제대로 적용되지 않거나, 간단한 프로젝트라도 몇 번의 개선을 지시(프롬프트)하는 순간 완전히 다른 결과물이 나오는 경우가 있었습니다. 물론, 이는 사용자의 숙달된 지시 능력이 없어서 발생한 문제일 수도 있습니다. 하지만 라이벌은 챗GPT가 '대충 말해도, 찰떡같이 알아듣는' 능력이 빼어나 비교대상이 될 수밖에 없었습니다.

그렇다면 모두 최신 모델로 업그레이드된 2025년 11월28일 기준으로 일을 잘하는 소, 아니 AI는 어느 쪽일까요? 그동안 챗GPT 플러스를 기준으로 진행했던 프로젝트를 이용해 챗 GPT와 제미나이의 기능을 비교해봤습니다.

◆ "이 코드 어때?" 제미나이의 챗GPT 코드리뷰 결과는?

협업 개발 현장에서 진행되는 코드리뷰는 작성된 코드(코딩)가 적절한지부터 순서, 효율성 등을 전반적으로 검토하는 단계입니다. 숙련된 개발자가 초보 개발자를 돕는 일종의 멘토링 과정이기도 합니다. 최근에는 AI의 코딩 능력이 향상되면서, 이런 코드리뷰를 AI가 대신하는 경우가 늘어나고 있다고 합니다. 이런 코딩 능력을 알아보고, 앞으로 어떤 AI로 바이브코딩을 진행할지 결정하기 위해 최신 챗GPT(버전 5.1 Thinking)과 제미나이(버전 3.1 사고모드)를 경쟁시켜 봤습니다. 가장 먼저 시도한 건 서로의 코드리뷰와 함께, 개선할 점을 물어봤습니다.

먼저 지난 시간까지 만든 코드를 제미나이에게 주고, 코드리뷰를 부탁했습니다. 제미나이는 이를 "매우 잘 만든, 완성도 높은 프로토타입"이라고 평가했습니다. 외부 이미지를 쓰지 않고, 수학적 표현으로 도트 이미지와 난이도를 구현한 점을 인상적인 부분으로 꼽았습니다. 이밖에 전역 변수와 절차적 생성이 적절하고, 모니터 주사율에 따라 게임 속도가 바뀌지 않도록 신경 쓴 부분도 강점으로 꼽았습니다. 이 밖에 로직이나 물리 처리 등 제가 챗GPT에게 부탁해서 바꾼 부분들이 주로 높은 평가를 받았네요.

제미나이가 평가한 '스페이스 어웨이' 게임 코드 리뷰 리포트 일부(출처=제미나이).

제미나이는 코드를 높은 평가 했음에도, 개선하면 더 좋아질 부분이 많다고 분석했습니다. 대표적인 부분이 바로 클래스(Class)화를 통한 확장성 확보, 시각적 피드백 개선을 통한 게임의 재미 추가입니다. 특히, 후자는 감성의 영역인 만큼 챗GPT에게 기본적인 코딩을 시키고, 직접 수치를 바꿔가며 개선해 온 지점이기도 했는데요. 실제로 이런 부분을 제미나이가 나서서 만들 수 있는지, 코드를 요청했습니다.

제미나이가 만든 코드는 전역 변수 영역을 클래스로 묶었습니다. 각 함수에서 호출 가능 여부를 결정하게 만든 점이 인상적입니다. 일반적으로 팀 단위 프로세스에서 개발할 때 공용 클래스를 설정하고 이용하는 방식인데, 이를 참고한 것으로 추정됩니다. 더 많은 개발자가 투입되는 복잡한 게임이나 프로젝트에는 이 방식 더 어울려 보입니다. 실제로 제미나이가 짜준 프로젝트는 원활하게 작동하며, 도트 표현이나 중력 가속도, 떨어지는 높이 등이 더 적절하게 세팅됐다는 인상이 강했습니다.

◆ 제미나이 코드를 평가한 챗GPT "구조는 좋은데..."

이번에는 제미나이가 만든 '스페이스 어웨이' 코드를 챗GPT에게 평가해달라고 요청했습니다. 항상 좋은 말만 하는 제미나이 답게 구조화된 설계나 연출강화, 고정된 화면 비율을 통한 모바일 기기 대응, 바뀐 물리 체계와 히트박스 체계 등을 높이 평가했습니다.

그렇다면 코드적으로 이 프로젝트는 완성된 걸까요? 챗GPT의 생각은 아니었습니다. 아쉬운 점 3가지를 꼽으며 개선 포인트 역시 고쳐야 한다고 분석했습니다. 먼저 프레임레이트(FPS)가 프레임 기준으로 계산돼 기기별로 속도 차이가 발생할 수 있다는 점을 문제로 지적했습니다. 이밖에 고정된 화면 해상도를 기기 특성을 반영한 수학적 공식으로 바꾸어 일정하게 만들기, 별 반짝임 처리, 난이도 곡선 등 기존 프로젝트에서 제가 요청했던 부분이 빠졌다고 지적했습니다.

이런 차이가 발생한 이유는 아무래도 테스트 단계에서 발생하는 변수, 이번에는 이용자의 실수(휴먼 에러)가 원인으로 추정됩니다. 코드리뷰를 요청할 때 '스페이스 어웨이' 바이브코딩을 요청하고, 개선해왔던 채팅창을 이용했거든요. 따라서 제가 챗GPT에게 요청한 부분들을 새로운 코드에 제대로 반영됐는지 검토하고, 이런 부분을 다시 개선해야 한다는 요청이 나온 것 같습니다. 제미나이에게 코드를 제공할 때는 아무런 배경 정보가 없는 상황에서 '코드리뷰'만을 요청했으니 일반적인 관점에서 제가 평가해주길 바라는 부분을 추론해서 답을 줬겠지요.

◆ 기능 개발은 챗GPT가, 코드 고도화는 제미나이가 '한수 위'

챗GPT와 제미나이가 만든 코드를 조합된 '스페이스 어웨이' 게임 화면.

그래서 이번에는 제미나이가 지적한 부분을 직접 수정해달라고 요청했습니다. 그런데 이날 챗GPT의 상태가 안 좋은 건지, 코드 생성에 무려 6분56초나 걸렸네요. 제미나이의 사고모드는 내부 타이머가 없어서 정확한 시간을 알려주진 않았지만, 체감상 1분 미만이었습니다.

'스페이스 어웨이' 코드로 테스트해본 챗GPT와 제미나이는 각각 장단점이 뚜렷했습니다. 먼저, 제미나이는 최신 3.1모델 기준으로 사고의 속도가 빠르고, 팀 단위 프로젝트를 고려해 알아서 코드를 완성했다는 부분에서 높은 점수를 주고 싶습니다. 특히, 많은 개발자들이 유지보수의 핵심으로 꼽는 주석(코드 설명)을 꼼꼼히 작성해준 부분이 무엇보다 훌륭했습니다. 사실 코드가 점점 복잡해지면서 내용을 해석하는 데 어려움이 커졌는데, 제미나이가 추가한 주석 덕분에 어떤 코드인지를 명확히 볼 수 있었습니다.

챗GPT는 최근 많은 이용자가 몰리면서 사고 속도가 느려진 것처럼 느껴졌습니다. 주석 처리도 요청이 없으면 하지 않는다는 기준을 따르며, 요청해도 주석을 그다지 꼼꼼하게 달아주지 않습니다. 전반적으로 프롬프트(명령)를 1차적으로 해석해서, 가장 빠른 결과를 도출한다는 기본적인 원칙에 집중한 것 같습니다. 단, 사용성은 챗GPT가 훨씬 좋았습니다. '스페이스 어웨이' 프로젝트는 현 단계에서 웹 브라우저에서 할 수 있는 html 언어와 자바스크립트로 개발 중이라, 미리보기를 요청하면 같은 대화에서 캔버스에 재생되는 게임을 플레이하며 코드를 수정할 수 있습니다. 다른 이용자의 의견을 들을 수 있는 배포 기능도 공유하기를 통해서 손쉽게 해결할 수 있다는 점이 무엇보다 매력적입니다.

제미나이는 캔버스와 같은 미리보기 기능을 지원하지 않는다고 답했지만, 확장기능에서 캔버스(Canvas)를 설정한 뒤 미리보기를 해줘를 부탁하면 외부 공유가 가능한 캔버스가 열린다(출처=제미나이).

반면, 제미나이는 개인화 같은 이용자 편의 기능이 부족한 편이었습니다. 후발주자라서 기본적인 추론 성능과 속도에 치중한 나머지 아직은 사용자 인터페이스(UI)와 경험(UX) 측면에서 부족함이 있어 아쉬움을 키웁니다. 캔버스를 통한 내부 테스트는 별도의 프롬프트를 입력해야 했으며, 캔버스에서 재생되는 시점에 불피요한 요소들이 같이 출력되는 등 아직 완성과는 거리가 있어 보입니다.

물론, 두 모델 모두 기본적인 바이브코딩 능력은 출중했습니다. 나머지는 이용자가 어떤 개발 환경을 더 좋아할 것이냐 하는 선호도 문제가 될 것 같습니다. 만일, 제가 현업으로 '스페이스 어웨이'를 만드는 중이라면 알파버전 코드와 테스트는 챗GPT에서, 상용화 직전 고도화와 이미지 생성은 제미나이에서 만들 것 같네요. 이 차이는 편의성을 기준으로 평가한 것이기에 "어느 AI가 더 일을 잘하오"란 질문에는 "둘 다 각자의 영역에서 일을 잘합니다"라고 말할 수 밖에 없을 것 같습니다.

서삼광 기자 (seosk@dailygame.co.kr)

데일리 숏

HOT뉴스

최신뉴스

주요뉴스

유머 게시판