Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing๋ผ๋ ์ฑ ์ ์ฝ๊ณ ์์ฝํ๊ณ ์๋ค. ์ด ํฌ์คํธ์์๋ 1์ฅ: Introduction and Motivation์ ๋ํด ๋ค๋ฃจ๊ณ ์๋ค.

Trustworthy Online Controlled Experiments ์ฑ ํ์ง
๊ธ์์ ์๊ธฐํ๋ ์คํ์ online controlled experiment๋ฅผ ์๋ฏธํ๋ค. online controlled experiment์ ๋๋ก A/B ํ ์คํธ๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
๐ ์ฑ ๋ด์ฉ์ ๋ค์ด๊ฐ๊ธฐ ์์, A/Bํ ์คํธ๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ ์คํ(=online controlled experiment)๊ฐ ๋ฌด์์ด๊ณ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง ์ค๋ช ํ๋ ค๊ณ ํ๋ค. A/B ํ ์คํธ๋ผ๊ณ ํ๋ฉด ํน์ ๋ณ์๋ฅผ (ex. ์ฑ ํ๋ฉด, ๋ฒํผ ์๊น, ๊ด๊ณ ์์น ๋ฑ) 2 ๊ฐ์ง ๋ฒ์ ์ผ๋ก ๋ง๋ค๊ณ ํ ์คํธ์ ๋์์ด 2๊ฐ์ง ๋ฒ์ ์ ๋ํด ์ด๋ค ๋ฐ์์ ๋ณด์ด๋์ง ํ ์คํธ๋ฅผ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
๋ด ์ด์ ๊ฐ์ธ ๋ธ๋ก๊ทธ๋ก A/B ํ ์คํธ๋ฅผ ํ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํ ์ ์์ ๊ฒ ๊ฐ๋ค. A ํ๋ฉด์ด ๊ธฐ์กด ํ๋ฉด์ด๋ผ๊ณ ๊ฐ์ ํด๋ณด์.
- ์ฒ์์๋ ํ ์คํธ์ ๋ชฉํ๋ฅผ ์ธ์ด๋ค. ์ด A/B ํ ์คํธ์ ๋ชฉํ๋ ์ ์ ๋ค์ ๋ธ๋ก๊ทธ ์ฌ๋ฐฉ๋ฌธ์จ์ ๋๋ฆฌ๋ ๊ฒ์ด๋ผ๊ณ ๊ฐ์ ํด๋ณธ๋ค.
- ๋ฉ์ธ ํ๋ฉด์ ๋ธ๋ก๊ทธ ๊ธ์ด ๋ณด์ด๋ฉด ๋ธ๋ก๊ทธ ์ฌ๋ฐฉ๋ฌธ์จ์ด ๋์์ง๋ค๋ ๊ฐ์ค์ ์ธ์ด๋ค (๊ทธ๋ ๋ค๊ณ ๊ฐ์ ํ๋ค).
- ์ค์ ๋ก ๋ธ๋ก๊ทธ์ ๋ฐฉ๋ฌธํ๋ ์ ์ ๋ค ์ค ์ ๋ฐํํ ๋ A ํ๋ฉด, ๋๋จธ์ง ์ ์ ๋คํํ ๋ B ํ๋ฉด์ ๋ณด์ฌ์ค๋ค.
- ์ด๋์ ๋ ๊ธฐ๊ฐ ๋์ ํ ์คํธ๋ฅผ ์งํํ๋ค.
- ๐ ๊ธฐ๊ฐ ์ดํ์ A/B ๋์ค ์ด๋ค ํ๋ฉด์ ๋ณธ ์ ์ ๋ค์ด ๋ ๋ธ๋ก๊ทธ์ ์ค๋ ๋จธ๋ฌผ๋ ๋์ง ๋ถ์์ ํด๋ณธ๋ค.
- ์ฌ๋ฐฉ๋ฌธ์จ์ด ๋์๋ ํ๋ฉด์ ๋ฉ์ธ ํ๋ฉด์ผ๋ก ์ฌ์ฉํ๋ค.
A ํ๋ฉด

B ํ๋ฉด

๋ด ์ด์ ๊ฐ์ธ ๋ธ๋ก๊ทธ๋ก ๊ฐ๋จํ A/B ํ ์คํ ์ ํ๋ฉด ์์ ๊ฐ์ด ํ ์ ์์ ๋ฏํ๋ค. ์ด์ ๊ฐ์ A/B ํ ์คํ ์ ๊ตญ๋ด์์๋ ์ฃผ๋ก UI/UX ํน์ ๋ง์ผํ ๋ฐฉ๋ฒ์ ๊ฐ์ ํ๋๋ฐ ๋ง์ด ์ฌ์ฉ๋๊ณ ์๋ค. ํ์ง๋ง, A/B ํ ์คํ (=์คํ)์ผ๋ก UI/UX/๋ง์ผํ ๋ฐฉ๋ฒ ๊ฐ์ ๋ง ํ ์ ์๋ ๊ฒ์ด ์๋๋ค.
๐ It's All A/B Testing: The Netflix Experimentation Platform
๐ Experiments at Mircrosoft
๐ XLNT Platform: Driving A/B Testing at LinkedIn
๐ Scaling Airbnb's Experimentation Platform
๐ How Booking.com increases the power of online experiments with CUPED
โ ์์ผ๋ก A/B ํ ์คํธ, online controlled experiment๋ผ๋ ์ฉ์ด๋ฅผ ์คํ์ด๋ผ๋ ์ฉ์ด๋ก ํต์ผํด์ ์ฌ์ฉํ๊ฒ ๋ค
์คํ์ ์์ด๋น์ค๋น, ์๋ง์กด, ์ด๋ฒ ์ด, ํ์ด์ค๋ถ, ๊ตฌ๊ธ, ์ ๋ฒ, ๋ทํ๋ฆญ์ค, ๋ง์ดํฌ๋ก์ํํธ ๋ฑ ๋ง์ ์ธ๊ณ์ ์ธ ๊ธฐ์ ๋ค์์ ์ฌ์ฉ๋๊ณ ์๋ค. ์ด๋ฌํ ๊ธฐ์ ๋ค์ ๋งค๋ ์๋ฐฑ, ์์ฒ๊ฐ์ ์คํ๋ค์ ์งํํ๊ณ ์๋ฐฑ๋ง๋ช ์ ์ ์ ๋ค์ ๋์์ผ๋ก ์คํ์ ์งํํ๊ณ ์๋ค. ์คํ์ UI ๊ฐ์ ์๋ง ๊ตญํ๋ ๊ฒ์ด ์๋๋ผ ์๊ณ ๋ฆฌ์ฆ, ์๋ต์๋/์ฑ๋ฅ, cms ๊ฐ์ ๋ฑ ๋ชจ๋ ๋ถ์ผ๋ฅผ ์์ฐ๋ฅธ๋ค.

๐ Online controlled experiments
์๋น์ค์ ์๋ก์ด ๋ณํ๋ฅผ ๊ฐ์ ธ์ค๋ ค๊ณ ํ ๋ ์ค๋ฆฌ์ฝ๋ฐธ๋ฆฌ ๊ธฐ์ ๋ค์ ์คํ์ ํ๊ณ , ์คํ์ผ๋ก ์ป์ ๋ฐ์ดํฐ๋ก ๋ณํ์ ๋ํด ๊ฒ์ฆ์ ๋ฐ๊ณ ๋์ ์๋ก์ด ๋ณํ๋ฅผ ์ ์ฉํ ์ง ๋ง์ง ๊ฒฐ์ ์ ํ๋ค. ํ์ง๋ง, ๋ชจ๋ ๋ณํ๋ค์ ์คํ์ผ๋ก ๊ฒ์ฆํ ์ ์๋ ๊ฒ์ ์๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ด์ค๋ถ์ด ์ธ์คํ๊ทธ๋จ์ ์ธ์ํ๋ ๊ฒฐ์ ์ ๋ํด์๋ ์คํ์ ํ ์ ์์์ ๊ฒ์ด๋ค. ์๋ํ๋ฉด, ์ธ์๋ฅผ ํ๋ ์ํฉ ๊ณผ ์ธ์๋ฅผ ํ์ง ์๋ ์ํฉ์ ๋์์ ๊ฐ์ ธ๊ฐ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.

๐ค ๊ทธ๋ ๋ค๋ฉด, ์คํ์ ํ๊ธฐ ์ํ ์กฐ๊ฑด์ ๋ญ๊น?
์คํ์ด ๊ฐ๋ฅํ๋ ค๋ฉด ๋ค์์ 4๊ฐ์ง ์กฐ๊ฑด์ ์ถฉ์กฑํด์ผ ํ๋ค:
- ์คํ ๋จ์(e.g. ์ ์ ๐งโโ๏ธ, ์ธ์ , ๋ฑ)๊ฐ ์๊ณ , ๋จ์๋ค์ด ์๋ก์๊ฒ ์ํฅ์ ๋ผ์น ์ ์์ด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด, ์คํ๊ตฐ(์ฃผ๋ก ๋ณํ๋ฅผ ๊ฒฝํํ๋ ๊ทธ๋ฃน)์ ์๋ ์ ์ ๋ค์ ๋์กฐ๊ตฐ(์ฃผ๋ก ๋ณํ๋ฅผ ๊ฒฝํํ์ง ์๋ ๊ทธ๋ฃน)์ ์๋ ์ ์ ๋ค์๊ฒ ์๋ฌด ์ํฅ์ ์ค ์ ์์ด์ผ ํ๋ค. ์ฆ, ์๋ก ๋ ๋ฆฝ์ ์ด์ด์ผ ํ๋ค.
- ์ถฉ๋ถํ ์คํ ๋จ์๊ฐ ์์ด์ผ ํ๋ค๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ๐งโโ๏ธ. ๋ชจ์๊ฐ ๋ง์ ์๋ก ํญ์ ๋ ๋์ ์ธก์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค ์ ์๋ค.
- ๊ตฌ์ฑ์๊ฐ ํฉ์๋๊ณ ์ธก์ ๊ฐ๋ฅํ ๋ชฉํ(~= Key Metrics), OEC, ๊ฐ ์์ด์ผ ํ๋ค. ์ฆ, ์ธก์ ๊ฐ๋ฅํ ๋ชฉํ๋ฅผ ์ธ์์ผ ํ๋ค.
- ์ฝ๊ฒ ๋ณ๊ฒฝ์ ํ ์ ์์ด์ผ ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ํํธ์จ์ด๋ ํ๋์จ์ด๋ณด๋ค ๋ณ๊ฒฝํ๋ ๊ฒ์ด ์ฝ๋ค. (๋ฌผ๋ก , ๋นํ๊ธฐ ์กฐ์ข ์์คํ ์ํํธ์จ์ด ๊ฐ์ ๊ฒฝ์ฐ๋ ๋ณ๊ฒฝ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์คํํ๊ธฐ ํ๋ค๋ค)
๊ฒฐ๋ก ์ ์ผ๋ก, ๋๋ถ๋ถ์ ์จ๋ผ์ธ ์๋น์ค๋ค์ ์คํํ ์ ์๋ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ค๋ฆฌ์ฝ๋ฐธ๋ฆฌ์๋ ์จ๋ผ์ธ ์๋น์ค๋ฅผ ํ๋ ๊ธฐ์ ๋ค์ด ์คํ์ ์งํํ๋ ๊ฒ์ด๋ค.
โ๏ธ Online controlled experiments๋ฅผ ์งํํ๋ ค๋ ์กฐ์ง์ด ์ง์ผ์ผํ 3๊ฐ์ง ์์น
- ์กฐ์ง์ ๋ฐ์ดํฐ ๋๋ฆฌ๋ธ ์์ฌ๊ฒฐ์ ์ ์ํด์ผ ํ๊ณ , ๊ณต์ํ๋ ์ข ํฉ์ ํ๊ฐ๊ธฐ์ค(OEC, Overall Evaluation Criterion)์ ๊ฐ์ ธ์ผ ํ๋ค
๋ฐ์ดํฐ ๋๋ฆฌ๋ธ ์์ฌ๊ฒฐ์ ์ ํ๋ ค๋ฉด ๋น๊ต์ ์งง์ ๊ธฐ๊ฐ(ex. 1~2์ฃผ) ์๋ ์ธก์ ํ ์ ์๋ OEC๋ฅผ ์ ์ํด์ผ ํ๋ค. ์ธก์ ๊ฐ๋ฅํ metric์ ์ฅ๊ธฐ์ ์ธ ๋ชฉํ๋ ์์ธกํ ์ ์์ด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด, "์ด์ต"์ ์ข์ OEC๊ฐ ์๋๋ค. ์ด๋ค ์คํ์ ๋จ๊ธฐ์ ์ผ๋ก ์ด์ต์ ๋๋ฆด ์ ์์ง๋ง ์ฅ๊ธฐ์ ์ผ๋ก ๋ดค์ ๋๋ ์คํ๋ ค ์ ์ํฅ์ธ ๊ฒฝ์ฐ๊ฐ ์์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- ์คํ์ ์งํํ๋ ค๋ ์กฐ์ง์ ์คํ ์ธํ๋ผ์ ์ ๊ทน ํฌ์๋ฅผ ํด์ผํ๊ณ , ์คํ์ ๊ฒฐ๊ณผ๊ฐ ๋ฏฟ์ ์ ์๋ ๊ฒฐ๊ณผ๋ผ๋ ๊ฒ์ ๋ณด์ฅํด์ผ ํ๋ค
- ์กฐ์ง์ ์์ด๋์ด์ ๊ฒฐ๊ณผ๊ฐ ์ข์ง ์์ ์ ์๋ค๋ ๊ฒ์ ์ธ์ ํด์ผ ํ๋ค
๋๋ถ๋ถ์ ์์ด๋์ด๋ค์ metric์ ๊ฐ์ ํ๋๋ฐ ์คํจํ๋ค. ์ค๋ฆฌ์ฝ๋ฐธ๋ฆฌ ๊ธฐ์ ๋ค์ด ์คํ์ ํตํด์ metric ๊ฐ์ ์ ์ฑ๊ณตํ ๋น์จ์ ๋ฐ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. ์คํ์ ํ๋ ค๋ ์กฐ์ง์ ํญ์ ์์ ๋ค์ด ๋ด๋ ์์ด๋์ด๊ฐ ์ฑ๊ณตํ์ง ์์ ์ ์๋ค๋ ๊ฒ์ ์ธ์ ํ๋ฉด์ ์คํ์ ์งํํด์ผ ํ๋ค.

์ด ํฌ์คํธ์์ ๊ฐ๋จํ๊ฒ ์คํ์ด ๋ฌด์์ธ์ง์ ๋ํด์ ์ดํด๋ดค๋ค.
โ๏ธ ๋ค์ ํฌ์คํธ๋ Running and Analyzing Experiments: an End-to_end Example์ด๋ผ๋ ๋ด์ฉ์ ์์ฝํ๋ ค๊ณ ํ๋ค.