~고군분투 인생살이~

[A/B TEST] A/B 테스팅이란 글을 읽고 노트.. 본문

카테고리 없음

[A/B TEST] A/B 테스팅이란 글을 읽고 노트..

소금깨 2022. 6. 29. 18:04
 

A/B 테스팅이란

A/B 테스팅 개념 및 예시를 소개한다

boxnwhis.kr

A/B TEST?

- 웹 사이트 방문자를 임의의 두 집단으로 나누고, 한 집단에게는 기존 사이트를 보여주고 다른 집단에게는 새로운 사이트를 보여준 다음, 두 집단 중 어떤 집단이 더 높은 성과를 보이는지 측정하여, 새 사이트가 기존 사이트에 비해 좋은지를 정량적으로 평가하는 방식.

- 여기서 말하는 성과란? : 새 사이트가 목표로 했던 바에 따라 다르다. 보통은 회원 가입율, 재방문율, 구매 전환율 등의 지표를 본다.

 

- 무작위 비교 연구라 불리는 방법을 인터넷 마케팅에 적용한 것이라고 생각하면 된다.

 

- 활용 범위 : 웹사이트의 마케팅, 디자인, 인터페이스, 상품 배치 등의 개선 혹은 모바일 앱, 게임 분야에서도 널리 사용.

 

A/B TEST를 왜 하는 건가?

- 상관 관계로부터 인과관계를 찾아내기 위함이다.

- 그래야만 "원인"에 해당하는 요소에 개입을 하여 "결과"에 해당하는 요소가 원하는 방향으로 변화되도록 할 수 있기 때문이다. 

- 혹은, 이미 "결과"에 변화가 생겼을 때 이 변화의 "원인"이 우리가 했던 그 개입 때문이 맞는지 아닌지 판단하기 위함이다.

 

- 실험에서 굳이 대조군을 두는 이유는, 시간 혹은 환경 등 독립변수를 제외 한 종속 변수에 영향을 줄 수 있는 왜생변수의 영향을 최대한 통제하기 위해서이다.

- 만약 A 사이트가 사이트 디자인을 바꾼 다음 날 갑자기 매출이 10%가량 늘었다고 가장해보자, 그렇다면 정말 해당 결과는 "디자인의 변화"로 인해 벌어진 결과라고 확신할 수 있을까? 만약 다음 날 경쟁 쇼핑몰이 문을 닫아서라면? 혹은 새 디자인이 적용된 바로 그 날, 경쟁력 있는 상품이 입고 되었다면? 혹은 갑자기 경기가 좋아졌다면? 등 이러한 외부 요인으로 인해 결과에 왜곡이 일어날 수 있기 때문에 피실험자들을 무작위로 A(디자인 적용 전) 또는 B(디자인 적용 후) 집단으로 나누어 실험을 진행한 한다면 왜생 변수의 영향을 최대한으로 통제할 수 있기 때문에 인과관계가 성립할 가능성이 높아질 수 있다. 

 

주의할 점들 

A/B 테스팅을 통해 인과관계를 찾아내려면 두 집단을 임의적으로 나누어야 한다. 이를 임의적 할당(random assignment)이라고 한다. 예를 들어

  • 남성은 A 집단, 여성은 B 집단
  • 짝수 시간대 방문자는 A 집단, 홀수 시간대 방문자는 B 집단
  • 첫 일주일 동안 방문한 사용자는 A 집단, 그 다음 일주일 동안 방문한 사용자는 B 집단

등 임의적이지 않은 방식을 사용할 경우 두 집단의 차이가 무엇 때문에 발생하는지 가려낼 수 없게 된다.

A/B 테스팅을 통해 찾아낸 결과가 범용성을 지니려면 애초에 실험에 참가한 집단이 모집단을 대표할 수 있어야한다. 이를 임의적 추출(random sampling)이라고 한다. 예를 들어 초등학교 학생들을 대상으로 한 실험의 결과를 초중고등학교 학생 모두에게 적용하거나, 페이스북 사용자를 대상으로 한 실험의 결과를 트위터에 적용하거나 하면 추출된 집단의 성격과 모집단의 성격에 차이가 있기 때문에 기대와 다른 결과가 나올 수 있다.

 

단점

1. 테스트를 많이/자주하면 단기적으로 손해가 발생할 수 있다.

- 만약 테스팅을 진행하기 위해 2주동안 전체 방문자를 A와 B집단으로 나누었는데, B 집단에서의 매출이 기존에 비해 절반밖에 나오지 않는다면 그 기간 동안의 매출 손해를 감수해야 하는 문제점이 발생한다.

 

2. A/B 테스팅의 결과는 계절 변화나 취향 변화 등 시간의 흐름에 따라 바뀔 수 있다.

- 통제실험은 시공간의 보편성에 대한 가정을 깔고있다. 하지만, 비지니스 맥락에서는 해당 가정이 보장되기 어렵다.

  어제의 세상과 오늘의 세상이 다르고, 미국과 한국이 다르다. 결국 확실성을 유지하기 위해서는 실험을 지속적으로 반복해야 하는데 첫번째 단점과 엮어서 생각해본다면 곤란한 얘기가 된다.

 

3. A/B 테스팅만 해서는 지역최적점에 머물게 될 위험이 있다. 

- A/B 테스팅이라는 것은 기존 상태에서 작은 변화(되도록 하나의 변수만 살짝 바꾸기)를 가하며 점진적으로 더 나은 상태를 찾아가는 방식으로 진행된다. 하지만 이 방식으로는 지역최적점에 수렴할 수 있을 뿐 전역적인 최적점을 찾을 수 없다.

 

첫번째와 두번째 문제에 대해서는 Multi-armed Bandit 알고리즘이라고 불리는 효과적인 해결책이 있다. _ 강화학습을 여기서도 쓸 수 있구나..? 

Comments