Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing๋ผ๋ ์ฑ ์ ์ฝ๊ณ ์์ฝํ๊ณ ์๋ค. ์ด ํฌ์คํธ์์๋ 2์ฅ: Running and Analyzing Experiments: an End-to-End Example์ ๋ํด ๋ค๋ฃจ๊ณ ์๋ค.
๊ธ์์ ์๊ธฐํ๋ ์คํ์ online controlled experiment๋ฅผ ์๋ฏธํ๋ค. online controlled experiment์ ๋๋ก A/B ํ ์คํธ๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
๐ 1์ฅ์์๋ ์คํ์ด ๋ฌด์์ธ์ง์ ์ง๊ฐ์ด ์๋ ์ค์ ๋ฐ์ดํฐ๋ก ์์ฌ๊ฒฐ์ ํ๋ ๊ฒ์ ์ค์์ฑ์ ๋ํด์ ์์๋ดค๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์คํ์ Design - Run - Analyzeํ ๋์ ๊ธฐ๋ณธ ์์น๋ค์ ์ดํด๋ณด๋ ค๊ณ ํ๋ค. ์ด ์์น๋ค์ ์น์๋ฒ, ๋ฐ์คํฌํ ์ดํ๋ฆฌ์ผ์ด์ , ๊ฒ์ ์ฝ์, ๋ชจ๋ฐ์ผ ์ดํ๋ฆฌ์ผ์ด์ ๋ฑ ๋ชจ๋ ์ํํธ์จ์ด์ ์ ์ฉ๋ ์ ์๋ค.
์์
๋ง์ผํ ํ์์ ๋งค์ถ์ ์ฆ์ง์ํค๊ธฐ ์ํด ํ ์ธ ์ฟ ํฐ ์ฝ๋๋ฅผ ์ด๋ฉ์ผ๋ก ๋ณด๋ด๋ ค๊ณ ํ๋ค๊ณ ์๊ฐํด๋ณด์. ํ์ง๋ง, ํ์ ์ค ํ๋ช ์ด ํ ์ธ ์ฟ ํฐ์ด ์คํ๋ ค ๋งค์ถ์ ์ ์ํฅ์ ์ค ์ ์๋ค๋ ๊ธ์ ์ด๋์ ์ฝ๊ณ ์์ ํ๋ ค๊ณ ํ๋ ํ๋ก๋ชจ์ ๋ฐฉ๋ฒ์ ์ด์๋ฅผ ์ ๊ธฐํ๋ค. ๊ทธ๋์ ๋ง์ผํ ํ์ ๋ฐ๋ก ์ด๋ฉ์ผ๋ก ์ฟ ํฐ ์ฝ๋๋ฅผ ๋ณด๋ด๊ธฐ ์ ์ ์คํ์ผ๋ก ์ด action์ด ์ด๋ป๊ฒ ๋งค์ถ์ ์ํฅ์ ์ฃผ๋์ง ํ์ธํด๋ณด๋ ค๊ณ ํ๋ค. ๊ธฐ์กด์๋ ์์๋ ์ฟ ํฐ ์ ๋ ฅ๋์ด ์ ์ ๋คํํ ์ด๋ค ์ํํธ๋ฅผ ์ค ์ง ์์๋ณด๊ธฐ ์ํด fake door approach๋ฅผ ์ฌ์ฉํด๋ณด๋ ค๊ณ ํ๋ค.
fake door approach๋ ๊ฐ์ง ๋ฌธ์ ๋ง๋ค๊ณ ์ค์ ๋ก ์ฌ๋๋ค์ด ์ผ๋ง๋ ์ด์ด๋ณด๋์ง ํ์ธํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์ด ์์ ์์๋ ์ค์ ๋ก๋ ์ ์ ๋คํํ ์ฌ์ฉ ๊ฐ๋ฅํ ์ฟ ํฐ ์ฝ๋๋ ์์ง๋ง ๋ง์น ์ค์ ๋ก ์ฟ ํฐ์ ์ฌ์ฉํ ์ ์๋ ๊ฒ์ฒ๋ผ ์๋ฌด ๊ธฐ๋ฅ๋ ์ํ๋ ์ฟ ํฐ ์ ๋ ฅ๋์ ๋ง๋๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ค์ ๋ก ๊ตฌํ๋ ์ฟ ํฐ ์ฝ๋ ์์คํ ์ ์๊ธฐ ๋๋ฌธ์, ์ ์ ๊ฐ ๋ฌด์์ ์ ๋ ฅํ๋ ์กด์ฌํ์ง ์๋ ์ฟ ํฐ ๋ฒํธ์ ๋๋ค ๋ผ๋ ๋ฉ์ธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ค๊ณ ํ๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํด์ ํ ์ธ ์ฟ ํฐ์ด ๋งค์ถ์ ์ด๋ค ์ํํธ๋ฅผ ๋ผ์น๋์ง ์์๋ณด๋ ค๊ณ ํ๋ค.
๊ฐ์ฅ ๋จผ์ ๊ฐ์ค์ ์ธ์ด๋ค. ์ฐ๋ฆฌ์ ๊ฐ์ค์ "๊ฒฐ์ ํ๋ ํ์ด์ง์ ์ฟ ํฐ ์ฝ๋ ์ ๋ ฅ ๋์ ์ถ๊ฐํ๋ฉด ๋งค์ถ์ด ํ๋ฝํ ๊ฒ์ด๋ค" ์ด๋ค.
๊ฐ์ค์ ์ธ์ฐ๊ณ ๋์ goal metrics๋ฅผ ์ ์ํด์ผ ํ๋ค (์ด ์คํ์ ํตํด ์ด๋ค ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ๊ฒ์ธ์ง์ ๋ํ ์งํ, ์ธก์ ๊ฐ๋ฅํด์ผ ํจ). ๋งค์ถ์ด ์ข์ ์งํ์ผ ์ ์์ผ๋ ๋งค์ถ ์ ์ฒด๋ฅผ ์งํ๋ก ์ผ์ผ๋ฉด ์ด๋ค ์ ์ ๊ฐ ๊ทธ๋ฃน์ ํ ๋น๋์๋๋์ ๋ฐ๋ผ์ ๋งค์ถ์ด ์ํฅ์ ํฌ๊ฒ ๋ฐ์ ์ ์๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ์๋ ๋งค์ถ์ ์ค์ ์ํ ์ฌ์ด์ฆ๋ก ์ ๊ทํํ ์ ์ ๋น ๋งค์ถ์ด ์ข์ OEC๊ฐ ๋ ์ ์๋ค.
OEC๋ Overall Evaluation Criterion์ ์ฝ์๋ก, ์คํ์ ๋ชฉํ๋ฅผ ์ธก์ ํ ์ ์๋ ์งํ๋ฅผ ์๋ฏธํ๋ค.
OEC๋ฅผ ์ ํ๊ณ ๋์๋ ์ด๋ค ์ ์ ๋ค์ ์ด ์คํ์ ํฌํจ์ํฌ์ง ๊ณ ๋ฏผํด๋ด์ผ ํ๋ค.
- ์ฌ์ดํธ๋ฅผ ๋ฐฉ๋ฌธํ ๋ชจ๋ ์ ์ . ๊ฒฐ์ ํ์ด์ง๊น์ง ์ค์ง๋ ์์ ์ ์ ๋ค์ด ๋ง์ด ์์ผ ์ ์๋ค. ์ด๋ฌํ ์ ์ ๋ค์ ์ฌ์ค์ ์คํ์ ์๋ฌด ์ํฅ์ ๋ผ์น ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐฐ์ ํด์ผ ํ๋ค.
- ๊ฒฐ์ ๊น์ง ์๋ฃํ ์ ์ ๋ค. ์ด ๊ทธ๋ฃน๋ ์๋ชป๋์๋ค, ์๋ํ๋ฉด UI์ ๋ณํ๊ฐ ๊ตฌ๋งคํ ์์ ์ํํธ๋ฅผ ์ค ์ ์๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ ์ ๋ค์ด ๋ ๋ง์ด ์ด์๋ก ์ ์ฒด ๋งค์ถ์ ๋๋๋ผ๋ ์ ์ ๋น ๋งค์ถ์ ์ค์ด๋ค ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
- ๊ฒฐ์ ํ์ด์ง๊น์ง ์จ ์ ์ ๋ค. ๊ฐ์ฅ ์ข์ ์ด์ด์ค์ด๋ค. ๊ฒฐ์ ํ์ด์ง์ ์จ ์ ์ ๋ค์ ๋ณํ๋ UI์ ์ํฅ์ ๋ฐ์ ๋ชจ๋ ์ ์ ๋ค์ ํฌํจํ๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ด์ ์ฐ๋ฆฌ์ ๊ฐ์ค์ ๋ค์๊ณผ ๊ฐ์ด ๋ฐ๋๊ฒ ๋๋ค: "๊ฒฐ์ ํ๋ ํ์ด์ง์ ์ฟ ํฐ ์ฝ๋ ์ ๋ ฅ๋์ ์ถ๊ฐํ๋ ๊ฒ์ ๊ฒฐ์ ํ์ด์ง๊น์ง ์จ ์ ์ ๋ค์ ์ ์ ๋น ๋งค์ถ์ ํ๋ฝ์ํฌ ๊ฒ์ด๋ค"
Control(๋์กฐ๊ตฐ)
Treatment1 (์คํ๊ตฐ 1)
Treatment2 (์คํ๊ตฐ 2)
์คํ์ ํ ๋ ์ ์ ๋ค์ 3๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ ค๊ณ ํ๋ค: control. treatment1, treatment2. Control์ ๋์กฐ๊ตฐ์, ์ฆ, ๊ธฐ์กด์ ๋ณํ๊ฐ ์๋ ์ฌ์ดํธ๋ฅผ ๋ณด๋ ์ ์ ๋ค์ ์๋ฏธํ๋ค.
1. ์คํ Designํ๊ธฐ ๐ง
์คํ์ designํ ๋ ๋ฐ์ ์ง๋ฌธ๋ค์ ๋ํด ๊ฒฐ์ ์ ๋ด๋ ค์ผ ํ๋ค.
- randomization unit(๋ฌด์์ ๋ฐฐ์ ๋ ๋จ์)๋ ๋ฌด์์ธ๊ฐ?
- randomization unit ์ค ์ด๋ค ๋ชจ์ง๋จ์ ํ๊ฒํ ํ ๊ฒ์ธ๊ฐ?
- ์คํ์ ์ผ๋ง๋ ์ปค์ผ ํ๋?
- ์ผ๋ง ๊ธฐ๊ฐ๋์ ์คํ์ run ํด์ผ ํ๋?
์ ์ ๋ ํต์์ ์ผ๋ก randomization unit์ผ๋ก ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋จ์ ์ค ํ๋์ด๋ค. ์ ์ ์ธ์๋ ์ธ์ ๋จ์, ๋๋ฐ์ด์ค ๋จ์)์ ๊ฐ์ ๋จ์๋ฅผ ์ฌ์ฉํ ์ ์๋ค. ์ด ์์ ์์๋ ์ ์ ๋จ์๋ฅผ ์ฌ์ฉํ๋ค.
์คํ์ ํ ๋ ํน์ง์ด ์๋ ๋ชจ์ง๋จ๋ง ํ๊ฒํ ํ๊ณ ์ถ์ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ๊ธ๋ก๋ฒ ์๋น์ค์ธ๋ฐ ์๋ก์ด ํ๊ธ ๋ฌธ๊ตฌ์ ๋ํด์ ์คํ์ ํ๋ ค๊ณ ํ๋ฉด ํ๊ธ ์ฌ์ฉ์๋ค๋ง ํ๊ฒํ ํด์ ์คํ์ ํ ์ ์๋ค. ์ด ์์ ์์๋ ๋ชจ๋ ์ ์ ๋ค์ด ์คํ์ ๋์์ด๋ค.
์คํ์ ํฌ๊ธฐ(์ด ์์ ์์๋ ์ ์ ์ ์)๋ ๊ฒฐ๊ณผ์ ์ ํ์ฑ์ ํฌ๊ฒ ์ํฅ์ ๋ผ์น๋ค. ๋ชจ์๊ฐ ๋ง์ ์๋ก ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ ์ ๋ขฐํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ชจ์๊ฐ ์์ผ๋ฉด OEC๊ฐ ์คํ ๋จ์์ ํ๋ ํ๋ํ๋๊ฐ ํฌ๊ฒ ๋ณ๋ํ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก, ์คํ์ ๊ธฐ๊ฐ์ ์ค์ ํ ๋ ๋ค์์ ์์๋ค์ ๊ณ ๋ คํด๋ด์ผ ํ๋ค.
- ์ ์ ์ ์ - ์คํ์ ๊ธฐ๊ฐ์ด ๊ธธ ์๋ก ๋ ๋ง์ ์ ์ ๋ค์ ํ๋ณดํ ์ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์คํ์ ํ์ํ ๋ชจ์๋ฅผ ํ๋ณดํ ์ ์๋ ๊ธฐ๊ฐ๋งํผ ์คํ์ ๊ธฐ๊ฐ์ ์ค์ ํด์ผ ํ๋ค.
- ์ฃผ๋ง ํจ๊ณผ - ์ฃผ์ค๋ณด๋ค ์ฃผ๋ง์ ํจ๊ณผ๊ฐ ๋ ํฐ ๊ฒฝ์ฐ๊ฐ ์์ ์ ์๋ค. ๊ฐ์ ์ ์ ๋ผ๋ ๋ ์ ๋ฐ๋ผ์ ๋ค๋ฅด๊ฒ ํ๋์ ํ ์ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ์ต์ ์ผ์ฃผ์ผ๋์ ์คํ์ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค.
- seasonality - ํน์ ์์ฆ(e.g. ํฌ๋ฆฌ์ค๋ง์ค, ๊ณตํด์ผ, ๊ฐ์, ์ฌ๋ฆ ๋ฑ)์ ๋ฐ๋ผ์๋ ์ ์ ๋ค์ด ๋ค๋ฅด๊ฒ ํ๋ํ ์ ์๋ค. ์ด ์์ฆ๋ ์คํ์ ๊ธฐ๊ฐ์ ์ ํ ๋ ๊ณ ๋ คํด์ผ ํ๋ค.
- novelty effect - ์๋ก์ด ๊ฒ์ ๋ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ ํจ๊ณผ๋ฅผ ์๋ฏธํ๋ค. ์๋ฅผ ๋ค์ด, ์๋ก์ด ๋ฒํผ์ด ํ๋ฉด์ ๋ํ๋ฌ์ ๋ ์ ์ ๋ค์ด ํธ๊ธฐ์ฌ์ผ๋ก ์ฒ์์๋ ๋ง์ด ๋๋ฌ๋ณผ ์ ์๋ค. ํ์ง๋ง, ์๊ฐ์ด ์ง๋๋ฉด์ ๋ ๋๋ฅด๊ฒ ๋ ์ ์๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ ์ ๋ค์ด ์๋ก์ด ๋ณํ์ ์ ์ํ ์ ์๋ ์๊ฐ๊น์ง ๊ณ ๋ คํด์ผ ํ๋ค.
์คํ์ ๋จ์, ๋ชจ์ง๋จ, ํฌ๊ธฐ, ๊ธฐ๊ฐ์ด ์คํ์ ์ค์ ๋ก ์งํํ๊ธฐ ์ ์ ์ ์ค๊ณ๋์ด์ผ ํ๋ค. ๋ ์ ํํ๊ฒ ์ค๊ณ๋ ์๋ก ์คํ์ ๊ฒฐ๊ณผ๋ ๋ ์ ๋ขฐํ ์ ์๊ฒ ๋๋ค.
2. ์คํ Runํ๊ธฐ ๐โโ๏ธ
์คํ์ ์งํํ๋ ค๋ฉด ๋ค์์ 2๊ฐ์ง๊ฐ ํ์์ ์ด๋ค:
- Instrumentation - ์ ์ ๋ค์ ํ๋์ ๋ก๊น ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ ์ํด (์ฑ ์ 13์ฅ Client-side Experiment ์ฐธ๊ณ )
- Infrastructure - ์คํ์ ์ ๋๋ก runํ๊ธฐ ์ํด, ์คํ ์ค์ ๋ถํฐ ์ ์ ๋ฅผ ํน์ ๊ทธ๋ฃน์ผ๋ก ํ ๋นํ๋ ๊ฒ ๊น์ง (์ฑ ์ 4์ฅ Experimentation Platform and Culture ์ฐธ๊ณ )
์คํ์ runํ๋ฉด์ ๋ฐ์ดํฐ๋ค์ด ์ ๋ค์ด์จ๋ค๋ฉด ์ด์ ๊ทธ ๋ฐ์ดํฐ๋ก ํต๊ณ์ ์ธ ๋ถ์์ ํด์ผ ํ๋ค.
3. ์คํ Analyzeํ๊ธฐ ๐
์์๋๋ก ์คํํ ๊ฒฐ๊ณผ ๋ค์์ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ ๋์๋ค.
p-value
๊ฐ 0.05๋ณด๋ค ๋ฎ๊ธฐ ๋๋ฌธ์ control๊ณผ treatment์ ํ๊ท ์ด ๊ฐ๋ค๋ Null hypothesis(๊ท๋ฌด๊ฐ์ค)์ ๊ธฐ๊ฐํ๋ค. ํต๊ณ์ ์ผ๋ก p-value
๊ฐ 0.05๋ฏธ๋ง์ด๋ฉด ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ผ๊ณ ๋ณธ๋ค.
์ฐธ๊ณ ๋ธ๋ก๊ทธ
๐ p-value๋?
๐ ๊ท๋ฌด๊ฐ์ค
์ฆ, ์ฟ ํฐ ์ ๋ ฅ์นธ์ ๊ฒฐ์ ํ์ด์ง์ ์ถ๊ฐํ๋ ๊ฒ์ ๋งค์ถ์ ์ค์ ๋ก ํ๋ฝ์ํจ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. Treatment ํ๋ฉด์ ๋ณธ ์ ์ ๋ค์ด controlํ๋ฉด์ ๋ณธ ์ ์ ๋ค๋ณด๋ค ์ค์ ๋ก ๊ฒฐ์ ๋ฅผ ๋ ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๐คฆ ๋ง์ผํ ํ์ด ์ด๋ฉ์ผ๋ก ์ ์ ๋ค์๊ฒ ์ฟ ํฐ์ ๋ณด๋ด๋ ค๊ณ ํ๋ ์๋๋ ์คํ๋ ค ๋งค์ถ์ ์ ์ํฅ์ ๋ผ์น ๋ป ํ๋ ๊ฒ์ด๋ค.
์ด์ ๊ฐ์ด ์คํ์ ํตํด์ ๋ฐ์ดํฐ ๋๋ฆฌ๋ธ ์์ฌ๊ฒฐ์ ์ ํ ์ ์๋ ๊ฒ์ด๋ค.
โ๏ธ ๋ค์ ํฌ์คํธ๋ Experimentaion Platform and Culture๋ผ๋ ๋ด์ฉ์ ์์ฝํ๋ ค๊ณ ํ๋ค.