A/B-тестирование с очень низким (<0,1%) показателем базовой скорости (т.е. CTR)

avatar
finmetry
8 августа 2021 в 21:06
34
1
-1

Я пытаюсь реализовать A/B-тестирование (онлайн-проверку) для модели машинного обучения, которая имеет сильно несбалансированную частоту положительных событий. Например, модель обнаруживает спам, и только 1 из 1000 образцов является спамом, или базовый рейтинг кликов очень низок <0,1%

Я знаю, что одна из проблем заключается в том, что мне потребуются очень большие выборки в каждой контрольной и экспериментальной когорте. Есть ли другие проблемы, о которых мне нужно знать? Будут ли нарушены статистические свойства? Как им противостоять?

Спасибо.

Источник

Ответы (1)

avatar
Vineeth
8 августа 2021 в 22:55
0

Вы можете использовать калькулятор, подобный приведенному здесь, чтобы получить представление о необходимых объемах. Какую разницу вы ожидаете? Например. Для обнаружения статистически значимого улучшения на 1% требуется намного больше выборок, чем если бы вы хотели обнаружить улучшение на 30%.

https://www.statsig.com/calculator

Tyler2P
16 августа 2021 в 15:22
0

Хотя эта ссылка может ответить на вопрос, лучше включить сюда основные части ответа и предоставить ссылку для справки. Ответы, содержащие только ссылки, могут стать недействительными, если связанная страница изменится.