근데 2026년 들어서 A/B 테스트 환경이 꽤 많이 바뀌었다. Google Optimize가 2023년 9월에 완전 종료된 이후로 대안 도구들이 자리잡았고, GA4의 통합 분석이 표준이 됐다. 사실 작년 하반기부터는 AI 기반 다변량 테스트 도구들이 본격 보급되면서 테스트 설계 방식 자체가 달라지고 있다. 그래서 2024년 이전 가이드만 보고 따라하면 헛수고하는 경우가 많다.
A/B 테스트가 왜 광고 ROAS의 출발점인가
광고 운영하다 보면 입찰 전략, 키워드 매칭, 소재 ABG 테스트에 시간을 다 쏟게 되는데, 정작 랜딩페이지 전환율은 그대로 둔다. 그러면 어떻게 되냐. 클릭당 비용은 계속 오르고, 전환은 그만큼 안 따라온다.
예를 들어 우리가 작년에 맡았던 B2B SaaS 클라이언트는 광고비 월 4,800만 원을 쓰면서 전환율이 1.2%였다. 광고 최적화로 1.6%까지 끌어올렸는데, 그 다음 랜딩페이지를 4주간 A/B 테스트해서 3.1%까지 갔다. 광고비는 그대로인데 리드가 거의 두 배가 된 거다. 솔직히 광고 만지는 것보다 페이지 만지는 게 효율이 훨씬 좋을 때가 많다.
구글 공식 가이드(support.google.com/google-ads/answer/2404182)도 “광고 품질평가점수의 핵심 지표 중 하나는 방문 페이지 경험”이라고 못 박고 있다. 페이지가 후지면 입찰가도 올라간다는 뜻. 그러니까 A/B 테스트는 단순히 전환율 게임이 아니라 광고비 절감까지 직결되는 작업이다.
2026년 기준 – 무엇이 달라졌나
과거에는 Google Optimize 무료로 거의 모든 테스트가 끝났다. 근데 지금은 다르다. 2026년 현재 주로 쓰는 도구는 VWO, Optimizely, Convert.com, AB Tasty 같은 상용 도구들이고, GA4 + Looker Studio 조합으로 직접 트래킹 설계하는 케이스도 늘었다. Google Ads의 “Experiments” 기능도 한층 정교해져서 캠페인 레벨 A/B는 그쪽에서 처리할 수 있다.
또 하나 큰 변화는 프라이버시. 2024년 Chrome 서드파티 쿠키 제한이 본격화되고 2025년 한국 개인정보보호법 개정안 시행 이후로, 사용자 식별 기반 테스트가 까다로워졌다. 그래서 서버사이드 트래킹과 동의 기반 측정(Consent Mode v2)이 표준이 됐다.
테스트 전 반드시 확인할 5가지
본격 테스트 들어가기 전에 우리가 항상 체크하는 게 있다. 이거 안 하고 테스트 돌리면 결과가 나와도 신뢰할 수가 없다.
1. 최소 표본 크기 계산
이게 진짜 중요하다. 일주일에 방문자 300명짜리 페이지에서 A/B 테스트 한다고 두 그룹으로 쪼개면 그룹당 150명. 전환율 2%라면 그룹당 전환 3건. 이걸로 무슨 통계적 유의성을 따지나.
구글에서 “AB test sample size calculator” 치면 무료 계산기 많이 나오는데, 우리는 보통 Evan Miller의 계산기를 쓴다. 기준 전환율 3%, 검출하고 싶은 향상 폭 20%(즉 3.6%까지 끌어올리고 싶다), 신뢰도 95%, 검정력 80%로 잡으면 그룹당 약 4,300명이 필요하다. 결국 양 그룹 합쳐서 8,600명 트래픽이 모일 때까지 테스트를 돌려야 한다는 뜻.
2. 단일 변수 테스트 원칙
헤드라인 바꾸면서 CTA 색깔도 바꾸고 이미지도 교체하면, 어느 게 효과 본 건지 모른다. 다변량 테스트(MVT)는 트래픽이 충분히 많을 때만 의미가 있고, 보통 광고 랜딩페이지는 그 정도 트래픽이 안 나온다. 그러니까 한 번에 하나씩.
3. 명확한 가설 설정
“헤드라인을 바꾸면 좋을 것 같다”는 가설이 아니다. “현재 헤드라인은 제품 기능 위주인데, 고객 페인 포인트 중심 헤드라인으로 바꾸면 스크롤 도달률이 40% 이상에서 60% 이상으로 오를 것이다. 근거 – 히트맵 분석 결과 현재 첫 폴드 이탈률이 58%다.” 이런 식으로.
4. 측정 지표 정의
전환율만 보면 안 된다. 마이크로 전환(스크롤 깊이, 비디오 재생, 폼 시작), 매크로 전환(폼 제출, 결제 완료), 그리고 부가 지표(이탈률, 체류시간)를 같이 봐야 한다. 가끔 매크로 전환이 안 늘었는데 마이크로 전환이 오른 경우가 있다. 그럼 폼 단에서 막힌다는 신호다.
5. 테스트 기간 설정
최소 1주일, 보통 2-3주. 요일별 트래픽 변동이 크기 때문에 7일은 무조건 넘겨야 한다. 우리는 보통 14일 기본으로 잡고, 통계적 유의성이 안 나오면 21일까지 연장한다.
실제로 효과가 큰 테스트 요소 7가지
우리가 수년간 테스트하면서 패턴이 보이는데, 영향력이 큰 순서대로 정리하면 이렇다. 페이지마다 다르긴 하지만 평균적으로 이 순서가 맞다.
지금 운영 중인 랜딩페이지에서 어디부터 손봐야 할지 막막하다면, terg.kr의 무료 진단을 받아보시는 게 빠릅니다.
실제 광고 데이터와 페이지 분석을 토대로 우선순위가 높은 개선 포인트를 알려드립니다. 무료 진단 신청하기
헤드라인 – 가장 영향력 큰 변수
첫 폴드 헤드라인 하나 바꿔서 전환율 60% 오른 케이스를 우리도 작년에 봤다. 인테리어 시공 업체였는데, 원래 “프리미엄 인테리어 시공 전문”이라는 평범한 헤드라인을 “30평 아파트, 견적 받고 3주 안에 입주”로 바꿨다. 구체적 숫자와 시간이 들어가니까 전환율이 1.8%에서 2.9%로 올랐다.
헤드라인 테스트할 때 우리가 자주 쓰는 패턴은 4가지다. 기능 중심 vs 베네핏 중심, 추상적 vs 구체적 숫자, 일반형 vs 질문형, 그리고 페인 포인트 중심 vs 결과 중심. 이 중 두 개씩 매칭해서 테스트한다.
CTA 버튼 – 문구가 색깔보다 중요
“빨간색 vs 초록색” 같은 색깔 테스트는 사실 영향력이 작다. 우리 경험상 5-10% 정도. 근데 CTA 문구는 30% 이상 차이가 나는 경우가 많다. “신청하기”보다 “무료 견적 받기”가, “구매하기”보다 “30일 무료체험 시작”이 훨씬 잘 먹힌다.
2026년 들어서 마이크로카피(버튼 아래 작은 안내문)도 중요해졌다. “신용카드 정보 필요 없음”, “1분 안에 완료”, “스팸 발송 안 함” 같은 안심 문구가 클릭율을 평균 12-18% 올린다는 게 우리 테스트 결과다.
폼 필드 수
이건 진짜 단순하다. 필드 줄이면 전환율 오른다. HubSpot 공식 리포트도 그렇고, 우리 자체 테스트 결과도 그렇다. 필드 11개에서 4개로 줄였더니 전환율이 120% 늘어난 케이스가 있었다. 근데 너무 줄이면 리드 질이 떨어지니까 균형이 필요하다.
우리가 권하는 건 2단계 폼이다. 1단계는 이메일이나 연락처 같은 최소 정보만 받고, 2단계에서 추가 정보 받는 방식. 1단계 이탈자도 리타게팅 풀에 들어가니까 손해가 적다.
소셜 프루프 위치
고객 후기, 로고, 통계 같은 신뢰 요소. 이걸 첫 폴드에 두느냐 폼 바로 위에 두느냐로 결과가 갈린다. 우리 경험으로는 B2B는 첫 폴드에 고객사 로고, 폼 위에 케이스 스터디 한 줄이 가장 잘 먹힌다. B2C는 폼 직전에 별점/후기를 넣는 게 효과가 크다.
비디오 vs 정적 이미지
비디오를 자동재생(음소거)으로 첫 폴드에 깔면 체류시간은 늘지만 전환율은 의외로 떨어지는 경우가 많다. 사용자가 비디오 보다가 폼 작성 동선을 놓치는 거다. 우리는 보통 비디오를 중간 섹션에 두고, 클릭 재생으로 둔다.
가격 표시 여부
B2B는 가격 안 보이는 게 리드 양이 많고, B2C는 가격 보이는 게 전환율이 높다. 근데 B2B에서도 “월 30만 원부터”처럼 시작가만 보여주면 리드 질이 올라가는 효과가 있다.
모바일 페이지 속도
이건 테스트라기보다 기본인데, 2026년 기준 모바일 LCP가 2.5초 넘어가면 그 위에서 뭘 해도 다 무너진다. 코어 웹 바이탈 통과부터 하고 A/B 테스트해야 한다.
2026년 도구 비교 – 어떤 걸 써야 하나
도구 선택은 트래픽 규모와 예산에 따라 달라진다. 우리가 클라이언트 규모별로 추천하는 조합은 이렇다.
월 방문자 1만 명 미만 – 직접 구축
이 규모에서는 상용 도구 비용이 부담스럽다. Google Tag Manager + GA4 + Looker Studio로 직접 만든다. 페이지 두 버전을 만들어서 광고 그룹별로 다른 URL을 보내면 된다. Google Ads의 Experiments 기능 쓰면 캠페인 레벨에서 자동으로 50:50 분할도 된다.
월 방문자 1-10만 명 – VWO 또는 Convert.com
이 구간에서는 상용 도구가 무조건 이득이다. VWO는 시각 편집기가 좋아서 디자이너 없이도 테스트가 가능하고, Convert.com은 가성비가 좋다. 월 사용료는 30-80만 원 수준.
월 방문자 10만 명 이상 – Optimizely 또는 AB Tasty
엔터프라이즈급. 서버사이드 테스트, 다변량 테스트, AI 기반 개인화까지 다 된다. 비용은 월 200만 원부터인데, 트래픽 많으면 충분히 회수된다.
흔히 저지르는 실수와 해결법
실수 1 – 너무 빨리 끝내기
3일 만에 한쪽이 20% 우위니까 위너 선언. 이거 진짜 흔한 실수다. 일주일도 안 됐는데 결과 나왔다고 좋아하면 안 된다. 통계적 유의성(p-value 0.05 미만)이 나와도 표본이 적으면 우연일 가능성이 크다. 우리는 최소 일주일 + 최소 표본 + p-value 둘 다 충족돼야 종료한다.
실수 2 – 동시에 여러 테스트 돌리기
헤드라인 테스트 돌리는 중에 광고 소재도 바꾸고 입찰가도 만지면, 변수가 너무 많아서 뭐가 영향을 줬는지 알 수가 없다. 한 번에 하나씩이 원칙이다.
실수 3 – 모바일/데스크톱 따로 안 보기
전체 합쳐서 보면 무승부인데 모바일만 보면 B가 압승, 데스크톱은 A가 압승인 경우가 흔하다. 디바이스별로 결과 쪼개서 봐야 진짜 인사이트가 나온다.
실수 4 – 통계 무시하고 직관으로 결정
“내 눈에는 A가 더 예뻐”가 의사결정의 근거가 되면 안 된다. 데이터가 말하는 대로 가야 한다. 근데 동시에, 데이터가 통계적으로 유의하지 않으면 양쪽 다 채택 안 하고 다음 테스트로 넘어가는 게 맞다.
실수 5 – 테스트 결과를 문서화 안 함
3개월 지나면 무슨 가설로 뭘 테스트했는지 다 까먹는다. 우리는 모든 테스트를 Notion에 가설/방법/결과/배운점 4단으로 기록한다. 6개월 뒤에 비슷한 가설 떠올랐을 때 “아 이거 작년에 해봤네”하고 시간 절약된다.
실전 워크플로우 – 우리가 클라이언트한테 적용하는 4주 사이클
이론은 됐고 실제로 어떻게 굴리느냐. 우리가 쓰는 4주 사이클 공개한다.
1주차 – 진단과 가설 수립
히트맵(Hotjar, Microsoft Clarity), GA4 행동 흐름, 폼 분석, 광고 데이터 다 모은다. 어디서 사람들이 빠지는지 본다. 그리고 가설 3-5개 뽑아서 우선순위 매긴다. 우선순위 기준은 ICE(Impact × Confidence × Ease).
2주차 – 테스트 설계와 구현
가장 우선순위 높은 가설 하나 선택. 표본 크기 계산, 측정 지표 정의, 테스트 페이지 제작. 도구에 등록하고 QA. 광고 트래픽은 그대로 두고 분할만 도구에서 한다.
3-4주차 – 운영과 모니터링
매일 보지는 않는다(매일 보면 빨리 끝내고 싶어진다). 주 2회만 체크. 통계적 유의성 + 최소 표본 + 최소 기간 다 충족되면 종료. 안 되면 4주차 끝까지 돌리고 그래도 안 나오면 No Decision으로 종료하고 다음 가설로 넘어간다.
5주차 시작 = 다음 사이클
이긴 버전을 컨트롤로 두고 새 가설로 다시 시작. 이렇게 한 달에 한 사이클씩 돌리면 1년에 12번. 각 사이클에서 평균 10-15% 전환율 개선이면 누적해서 큰 차이가 난다.
업계별 우선순위가 다르다
모든 페이지에 같은 공식이 안 먹힌다. 업종별로 손볼 우선순위가 좀 다르다.
B2B SaaS – 1순위 헤드라인 메시지, 2순위 데모 신청 폼 단순화, 3순위 가격 페이지 투명성
이커머스 – 1순위 제품 사진과 동영상 품질, 2순위 결제 단계 축소, 3순위 배송 정보 노출
로컬 비즈니스(병원, 인테리어, 법률) – 1순위 첫 폴드 신뢰 요소(자격증, 경력), 2순위 후기/케이스 사진, 3순위 카카오톡/전화 CTA 추가
교육/온라인 강의 – 1순위 강사 권위, 2순위 커리큘럼 미리보기, 3순위 환불 보장 정책
측정 인프라 – 2026년 표준 셋업
2024년 GA4 전환 마무리되고, 2025년 한국 개인정보법 개정으로 동의 기반 측정이 강제된 이후 표준 셋업이 정착됐다. 우리가 클라이언트한테 깔아주는 기본 구성은 이렇다.
필수 – GA4 + Google Tag Manager + Consent Mode v2
GA4에서 전환 이벤트 정의하고, GTM으로 데이터 레이어 푸시. Consent Mode v2로 동의 안 한 사용자도 익명 집계는 가능하게.
권장 – Microsoft Clarity (무료)
히트맵, 세션 녹화, 깔때기 분석까지 무료다. Hotjar 유료 플랜이 부담되면 Clarity로 충분하다. 우리도 작은 클라이언트는 Clarity로 간다.
심화 – 서버사이드 GTM
쿠키 차단 영향 줄이고 측정 정확도 높이려면 서버사이드 GTM 필수다. 월 2-5만 원 정도면 운영 가능하다. 광고비 월 1,000만 원 이상 쓰는 클라이언트는 무조건 권한다.
랜딩페이지 A/B 테스트, 어디서부터 시작할지 막막하신가요?
terg.kr은 광고 운영과 랜딩페이지 최적화를 함께 진행하는 디지털 마케팅 대행사입니다. 실제 광고 데이터를 기반으로 우선순위 높은 개선 포인트를 찾아드리고, 4주 단위 사이클로 전환율을 끌어올립니다. 무료 진단 후 단계별 로드맵을 제안드리니, 부담 없이 신청해 보세요.
자주 묻는 질문
Q1. A/B 테스트 결과가 통계적으로 유의하지 않으면 어떻게 해야 하나요?
두 가지 선택지가 있어요. 첫째, 테스트 기간을 연장한다. 표본이 적어서 그럴 수 있으니까. 둘째, 가설 자체가 약했다고 판단하고 다음 가설로 넘어간다. 우리는 최대 4주까지 돌리고 그래도 안 나오면 두 번째 길로 갑니다. 무한정 돌리면 다른 테스트 기회비용이 커지거든요.
Q2. 트래픽이 너무 적은데 A/B 테스트가 의미가 있나요?
월 방문자 3,000명 미만이면 솔직히 A/B 테스트보다 정성 분석이 낫습니다. 사용자 인터뷰, 히트맵 분석, 세션 녹화 보기. 통계적 유의성 안 나오는 테스트 돌리는 시간에 직접 사용자한테 물어보는 게 빨라요. 트래픽 1만 명 넘어가면 그때부터 본격 A/B 테스트 의미가 있어요.
Q3. Google Optimize 대신 어떤 무료 도구를 쓰면 되나요?
2023년 9월 종료 이후 완전한 무료 대안은 없어요. Microsoft Clarity는 분석만 무료고 A/B 테스트 기능은 없고요. 가장 가까운 무료 대안은 GA4 + Google Tag Manager로 직접 분할하는 방법인데, 기술적 셋업이 좀 필요합니다. 예산 있으면 VWO나 Convert.com 추천드려요. Convert는 월 1만 원대 시작 플랜도 있어서 부담 적어요.
Q4. 모바일과 데스크톱을 따로 테스트해야 하나요?
이상적으로는 따로 하는 게 맞아요. 사용자 행동 패턴이 완전히 달라요. 모바일은 첫 폴드 안에서 결정이 나는 경우가 많고, 데스크톱은 스크롤하면서 정보를 더 본 후 결정합니다. 트래픽이 충분하면 디바이스별 분할 테스트, 부족하면 합쳐서 하되 결과 분석할 때 디바이스별로 쪼개서 보세요.
Q5. A/B 테스트로 매출이 얼마나 오를 수 있나요?
업종마다 다르지만 평균적으로 첫 6개월 안에 전환율 20-50% 개선이 일반적이에요. 광고비 그대로 두고 전환율 30% 오르면 실질 매출은 30% 늘어나는 거니까 ROAS가 그만큼 올라갑니다. 다만 한 번 큰 폭으로 오르면 점점 한계 효용은 줄어들어요. 그래서 1년 차에는 큰 폭, 2년 차부터는 5-15% 점진 개선이 현실적인 목표입니다.


















