Jun 09, 2020 โ€ข5 min read โ˜•

๐Ÿ“ˆ Online controlled experiment(A/B ํ…Œ์ŠคํŠธ)๋ž€ ๋ฌด์—‡์ผ๊นŒ?

Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing๋ผ๋Š” ์ฑ…์„ ์ฝ๊ณ  ์š”์•ฝํ•˜๊ณ  ์žˆ๋‹ค. ์ด ํฌ์ŠคํŠธ์—์„œ๋Š” 1์žฅ: Introduction and Motivation์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๊ณ  ์žˆ๋‹ค.

trustworthy

Trustworthy Online Controlled Experiments ์ฑ… ํ‘œ์ง€

๊ธ€์—์„œ ์–˜๊ธฐํ•˜๋Š” ์‹คํ—˜์€ online controlled experiment๋ฅผ ์˜๋ฏธํ•œ๋‹ค. online controlled experiment์€ ๋•Œ๋กœ A/B ํ…Œ์ŠคํŠธ๋ผ๊ณ ๋„ ๋ถˆ๋ฆฐ๋‹ค.

๐Ÿ“• ์ฑ… ๋‚ด์šฉ์— ๋“ค์–ด๊ฐ€๊ธฐ ์•ž์„œ, A/Bํ…Œ์ŠคํŠธ๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋Š” ์‹คํ—˜(=online controlled experiment)๊ฐ€ ๋ฌด์—‡์ด๊ณ  ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€ ์„ค๋ช…ํ•˜๋ ค๊ณ  ํ•œ๋‹ค. A/B ํ…Œ์ŠคํŠธ๋ผ๊ณ  ํ•˜๋ฉด ํŠน์ • ๋ณ€์ˆ˜๋ฅผ (ex. ์•ฑ ํ™”๋ฉด, ๋ฒ„ํŠผ ์ƒ‰๊น”, ๊ด‘๊ณ  ์œ„์น˜ ๋“ฑ) 2 ๊ฐ€์ง€ ๋ฒ„์ „์œผ๋กœ ๋งŒ๋“ค๊ณ  ํ…Œ์ŠคํŠธ์˜ ๋Œ€์ƒ์ด 2๊ฐ€์ง€ ๋ฒ„์ „์— ๋Œ€ํ•ด ์–ด๋–ค ๋ฐ˜์‘์„ ๋ณด์ด๋Š”์ง€ ํ…Œ์ŠคํŠธ๋ฅผ ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

๋‚ด ์ด์ „ ๊ฐœ์ธ ๋ธ”๋กœ๊ทธ๋กœ A/B ํ…Œ์ŠคํŠธ๋ฅผ ํ•œ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค. A ํ™”๋ฉด์ด ๊ธฐ์กด ํ™”๋ฉด์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

  1. ์ฒ˜์Œ์—๋Š” ํ…Œ์ŠคํŠธ์˜ ๋ชฉํ‘œ๋ฅผ ์„ธ์šด๋‹ค. ์ด A/B ํ…Œ์ŠคํŠธ์˜ ๋ชฉํ‘œ๋Š” ์œ ์ €๋“ค์˜ ๋ธ”๋กœ๊ทธ ์žฌ๋ฐฉ๋ฌธ์œจ์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ด๋ณธ๋‹ค.
  2. ๋ฉ”์ธ ํ™”๋ฉด์— ๋ธ”๋กœ๊ทธ ๊ธ€์ด ๋ณด์ด๋ฉด ๋ธ”๋กœ๊ทธ ์žฌ๋ฐฉ๋ฌธ์œจ์ด ๋†’์•„์ง„๋‹ค๋Š” ๊ฐ€์„ค์„ ์„ธ์šด๋‹ค (๊ทธ๋ ‡๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค).
  3. ์‹ค์ œ๋กœ ๋ธ”๋กœ๊ทธ์— ๋ฐฉ๋ฌธํ•˜๋Š” ์œ ์ €๋“ค ์ค‘ ์ ˆ๋ฐ˜ํ•œํ…Œ๋Š” A ํ™”๋ฉด, ๋‚˜๋จธ์ง€ ์œ ์ €๋“คํ•œํ…Œ๋Š” B ํ™”๋ฉด์„ ๋ณด์—ฌ์ค€๋‹ค.
  4. ์–ด๋Š์ •๋„ ๊ธฐ๊ฐ„ ๋™์•ˆ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค.
  5. ๐Ÿ“ˆ ๊ธฐ๊ฐ„ ์ดํ›„์— A/B ๋‘˜์ค‘ ์–ด๋–ค ํ™”๋ฉด์„ ๋ณธ ์œ ์ €๋“ค์ด ๋” ๋ธ”๋กœ๊ทธ์— ์˜ค๋ž˜ ๋จธ๋ฌผ๋ €๋Š”์ง€ ๋ถ„์„์„ ํ•ด๋ณธ๋‹ค.
  6. ์žฌ๋ฐฉ๋ฌธ์œจ์ด ๋†’์•˜๋˜ ํ™”๋ฉด์„ ๋ฉ”์ธ ํ™”๋ฉด์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

A ํ™”๋ฉด

Ascreen

B ํ™”๋ฉด

Bscreen

๋‚ด ์ด์ „ ๊ฐœ์ธ ๋ธ”๋กœ๊ทธ๋กœ ๊ฐ„๋‹จํ•œ A/B ํ…Œ์ŠคํŒ…์„ ํ•˜๋ฉด ์œ„์™€ ๊ฐ™์ด ํ•  ์ˆ˜ ์žˆ์„ ๋“ฏํ•˜๋‹ค. ์ด์™€ ๊ฐ™์€ A/B ํ…Œ์ŠคํŒ…์€ ๊ตญ๋‚ด์—์„œ๋Š” ์ฃผ๋กœ UI/UX ํ˜น์€ ๋งˆ์ผ€ํŒ… ๋ฐฉ๋ฒ•์„ ๊ฐœ์„ ํ•˜๋Š”๋ฐ ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ, A/B ํ…Œ์ŠคํŒ…(=์‹คํ—˜)์œผ๋กœ UI/UX/๋งˆ์ผ€ํŒ… ๋ฐฉ๋ฒ• ๊ฐœ์„ ๋งŒ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค.

๐Ÿ“Ž It's All A/B Testing: The Netflix Experimentation Platform

๐Ÿ“Ž Experiments at Mircrosoft

๐Ÿ“Ž XLNT Platform: Driving A/B Testing at LinkedIn

๐Ÿ“Ž Scaling Airbnb's Experimentation Platform

๐Ÿ“Ž How Booking.com increases the power of online experiments with CUPED

โ— ์•ž์œผ๋กœ A/B ํ…Œ์ŠคํŠธ, online controlled experiment๋ผ๋Š” ์šฉ์–ด๋ฅผ ์‹คํ—˜์ด๋ผ๋Š” ์šฉ์–ด๋กœ ํ†ต์ผํ•ด์„œ ์‚ฌ์šฉํ•˜๊ฒ ๋‹ค

์‹คํ—˜์€ ์—์–ด๋น„์•ค๋น„, ์•„๋งˆ์กด, ์ด๋ฒ ์ด, ํŽ˜์ด์Šค๋ถ, ๊ตฌ๊ธ€, ์œ ๋ฒ„, ๋„ทํ”Œ๋ฆญ์Šค, ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ๋“ฑ ๋งŽ์€ ์„ธ๊ณ„์ ์ธ ๊ธฐ์—…๋“ค์—์„œ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์—…๋“ค์€ ๋งค๋…„ ์ˆ˜๋ฐฑ, ์ˆ˜์ฒœ๊ฐœ์˜ ์‹คํ—˜๋“ค์„ ์ง„ํ–‰ํ•˜๊ณ  ์ˆ˜๋ฐฑ๋งŒ๋ช…์˜ ์œ ์ €๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ์‹คํ—˜์€ UI ๊ฐœ์„ ์—๋งŒ ๊ตญํ•œ๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์•Œ๊ณ ๋ฆฌ์ฆ˜, ์‘๋‹ต์†๋„/์„ฑ๋Šฅ, cms ๊ฐœ์„  ๋“ฑ ๋ชจ๋“  ๋ถ„์•ผ๋ฅผ ์•„์šฐ๋ฅธ๋‹ค.

companies

๐Ÿ“ˆ Online controlled experiments


์„œ๋น„์Šค์— ์ƒˆ๋กœ์šด ๋ณ€ํ™”๋ฅผ ๊ฐ€์ ธ์˜ค๋ ค๊ณ  ํ•  ๋•Œ ์‹ค๋ฆฌ์ฝ˜๋ฐธ๋ฆฌ ๊ธฐ์—…๋“ค์€ ์‹คํ—˜์„ ํ•˜๊ณ , ์‹คํ—˜์œผ๋กœ ์–ป์€ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™”์— ๋Œ€ํ•ด ๊ฒ€์ฆ์„ ๋ฐ›๊ณ  ๋‚˜์„œ ์ƒˆ๋กœ์šด ๋ณ€ํ™”๋ฅผ ์ ์šฉํ• ์ง€ ๋ง์ง€ ๊ฒฐ์ •์„ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ, ๋ชจ๋“  ๋ณ€ํ™”๋“ค์„ ์‹คํ—˜์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŽ˜์ด์Šค๋ถ์ด ์ธ์Šคํƒ€๊ทธ๋žจ์„ ์ธ์ˆ˜ํ•˜๋Š” ๊ฒฐ์ •์— ๋Œ€ํ•ด์„œ๋Š” ์‹คํ—˜์„ ํ•  ์ˆ˜ ์—†์—ˆ์„ ๊ฒƒ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด, ์ธ์ˆ˜๋ฅผ ํ•˜๋Š” ์ƒํ™ฉ ๊ณผ ์ธ์ˆ˜๋ฅผ ํ•˜์ง€ ์•Š๋Š” ์ƒํ™ฉ์„ ๋™์‹œ์— ๊ฐ€์ ธ๊ฐ€๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

mna

๐Ÿค” ๊ทธ๋ ‡๋‹ค๋ฉด, ์‹คํ—˜์„ ํ•˜๊ธฐ ์œ„ํ•œ ์กฐ๊ฑด์€ ๋ญ˜๊นŒ?

์‹คํ—˜์ด ๊ฐ€๋Šฅํ•˜๋ ค๋ฉด ๋‹ค์Œ์˜ 4๊ฐ€์ง€ ์กฐ๊ฑด์„ ์ถฉ์กฑํ•ด์•ผ ํ•œ๋‹ค:

  1. ์‹คํ—˜ ๋‹จ์œ„(e.g. ์œ ์ €๐Ÿงโ€โ™‚๏ธ, ์„ธ์…˜, ๋“ฑ)๊ฐ€ ์žˆ๊ณ , ๋‹จ์œ„๋“ค์ด ์„œ๋กœ์—๊ฒŒ ์˜ํ–ฅ์„ ๋ผ์น  ์ˆ˜ ์—†์–ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹คํ—˜๊ตฐ(์ฃผ๋กœ ๋ณ€ํ™”๋ฅผ ๊ฒฝํ—˜ํ•˜๋Š” ๊ทธ๋ฃน)์— ์žˆ๋Š” ์œ ์ €๋“ค์€ ๋Œ€์กฐ๊ตฐ(์ฃผ๋กœ ๋ณ€ํ™”๋ฅผ ๊ฒฝํ—˜ํ•˜์ง€ ์•Š๋Š” ๊ทธ๋ฃน)์— ์žˆ๋Š” ์œ ์ €๋“ค์—๊ฒŒ ์•„๋ฌด ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์—†์–ด์•ผ ํ•œ๋‹ค. ์ฆ‰, ์„œ๋กœ ๋…๋ฆฝ์ ์ด์–ด์•ผ ํ•œ๋‹ค.
  2. ์ถฉ๋ถ„ํ•œ ์‹คํ—˜ ๋‹จ์œ„๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค๐Ÿงโ€โ™‚๏ธ๐Ÿงโ€โ™€๏ธ๐Ÿงโ€โ™‚๏ธ๐Ÿงโ€โ™€๏ธ๐Ÿงโ€โ™‚๏ธ๐Ÿงโ€โ™€๏ธ๐Ÿงโ€โ™‚๏ธ๐Ÿงโ€โ™€๏ธ๐Ÿงโ€โ™‚๏ธ๐Ÿงโ€โ™€๏ธ. ๋ชจ์ˆ˜๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก ํ•ญ์ƒ ๋” ๋‚˜์€ ์ธก์ • ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ๋‹ค.
  3. ๊ตฌ์„ฑ์›๊ฐ„ ํ•ฉ์˜๋˜๊ณ  ์ธก์ •๊ฐ€๋Šฅํ•œ ๋ชฉํ‘œ(~= Key Metrics), OEC, ๊ฐ€ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์ฆ‰, ์ธก์ • ๊ฐ€๋Šฅํ•œ ๋ชฉํ‘œ๋ฅผ ์„ธ์›Œ์•ผ ํ•œ๋‹ค.
  4. ์‰ฝ๊ฒŒ ๋ณ€๊ฒฝ์„ ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์†Œํ”„ํŠธ์›จ์–ด๋Š” ํ•˜๋“œ์›จ์–ด๋ณด๋‹ค ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์ด ์‰ฝ๋‹ค. (๋ฌผ๋ก , ๋น„ํ–‰๊ธฐ ์กฐ์ข… ์‹œ์Šคํ…œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐ™์€ ๊ฒฝ์šฐ๋Š” ๋ณ€๊ฒฝ์ด ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์‹คํ—˜ํ•˜๊ธฐ ํž˜๋“ค๋‹ค)

๊ฒฐ๋ก ์ ์œผ๋กœ, ๋Œ€๋ถ€๋ถ„์˜ ์˜จ๋ผ์ธ ์„œ๋น„์Šค๋“ค์€ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๋Š” ์กฐ๊ฑด์„ ๋งŒ์กฑํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์‹ค๋ฆฌ์ฝ˜๋ฐธ๋ฆฌ์˜๋Š” ์˜จ๋ผ์ธ ์„œ๋น„์Šค๋ฅผ ํ•˜๋Š” ๊ธฐ์—…๋“ค์ด ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

โœ๏ธ Online controlled experiments๋ฅผ ์ง„ํ–‰ํ•˜๋ ค๋Š” ์กฐ์ง์ด ์ง€์ผœ์•ผํ•  3๊ฐ€์ง€ ์›์น™


  1. ์กฐ์ง์€ ๋ฐ์ดํ„ฐ ๋“œ๋ฆฌ๋ธ ์˜์‚ฌ๊ฒฐ์ •์„ ์›ํ•ด์•ผ ํ•˜๊ณ , ๊ณต์‹ํ™”๋œ ์ข…ํ•ฉ์  ํ‰๊ฐ€๊ธฐ์ค€(OEC, Overall Evaluation Criterion)์„ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค

๋ฐ์ดํ„ฐ ๋“œ๋ฆฌ๋ธ ์˜์‚ฌ๊ฒฐ์ •์„ ํ•˜๋ ค๋ฉด ๋น„๊ต์  ์งง์€ ๊ธฐ๊ฐ„(ex. 1~2์ฃผ) ์—๋„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” OEC๋ฅผ ์ •์˜ํ•ด์•ผ ํ•œ๋‹ค. ์ธก์ • ๊ฐ€๋Šฅํ•œ metric์€ ์žฅ๊ธฐ์ ์ธ ๋ชฉํ‘œ๋„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "์ด์ต"์€ ์ข‹์€ OEC๊ฐ€ ์•„๋‹ˆ๋‹ค. ์–ด๋–ค ์‹คํ—˜์€ ๋‹จ๊ธฐ์ ์œผ๋กœ ์ด์ต์„ ๋Š˜๋ฆด ์ˆ˜ ์žˆ์ง€๋งŒ ์žฅ๊ธฐ์ ์œผ๋กœ ๋ดค์„ ๋–„๋Š” ์˜คํžˆ๋ ค ์•…์˜ํ–ฅ์ธ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

  1. ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜๋ ค๋Š” ์กฐ์ง์€ ์‹คํ—˜ ์ธํ”„๋ผ์— ์ ๊ทน ํˆฌ์ž๋ฅผ ํ•ด์•ผํ•˜๊ณ , ์‹คํ—˜์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋ฏฟ์„ ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ผ๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•ด์•ผ ํ•œ๋‹ค
  2. ์กฐ์ง์€ ์•„์ด๋””์–ด์˜ ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ธ์ •ํ•ด์•ผ ํ•œ๋‹ค

๋Œ€๋ถ€๋ถ„์˜ ์•„์ด๋””์–ด๋“ค์€ metric์„ ๊ฐœ์„ ํ•˜๋Š”๋ฐ ์‹คํŒจํ•œ๋‹ค. ์‹ค๋ฆฌ์ฝ˜๋ฐธ๋ฆฌ ๊ธฐ์—…๋“ค์ด ์‹คํ—˜์„ ํ†ตํ•ด์„œ metric ๊ฐœ์„ ์— ์„ฑ๊ณตํ•œ ๋น„์œจ์€ ๋ฐ‘์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค. ์‹คํ—˜์„ ํ•˜๋ ค๋Š” ์กฐ์ง์€ ํ•ญ์ƒ ์ž์‹ ๋“ค์ด ๋‚ด๋Š” ์•„์ด๋””์–ด๊ฐ€ ์„ฑ๊ณตํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ธ์ •ํ•˜๋ฉด์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ•ด์•ผ ํ•œ๋‹ค.

successrate

์ด ํฌ์ŠคํŠธ์—์„œ ๊ฐ„๋‹จํ•˜๊ฒŒ ์‹คํ—˜์ด ๋ฌด์—‡์ธ์ง€์— ๋Œ€ํ•ด์„œ ์‚ดํŽด๋ดค๋‹ค.

โœ๏ธ ๋‹ค์Œ ํฌ์ŠคํŠธ๋Š” Running and Analyzing Experiments: an End-to_end Example์ด๋ผ๋Š” ๋‚ด์šฉ์„ ์š”์•ฝํ•˜๋ ค๊ณ  ํ•œ๋‹ค.

ยฉ 2021 Dojin Kim, Built with Gatsby