A/B-тестирование
Выбор наилучшего интерфейсного решения из вариантов путем разделения потоков пользователей (одни пользователи работают с решением A, другие — с решением B) и сравнения результирующих метрик друг с другом.
В большинстве случаев решения, сравниваемые таким методом, отличаются только в одном элементе или характеристике. Это позволяет получать более объективные оценки влияния решений, а также выявлять возможные направления для улучшений (т.е. ставить гипотезы, что если решение по данному фактору эффективнее, то правильно развивать этот фактор и в других решениях — хотя в общем случае это именно гипотезы, даже не эвристики).
Решений может быть больше чем два, причем не обязательно брать всех возможных пользователей (особенно когда их очень много) — для получения достоверных результатов достаточно небольшого подмножества для сегментации.
Риски
В целях объективности результатов группы пользователей, как обычно, должны быть однородными по составу, т.е. это не должно быть 500 новичков для использования решения А и 500 опытных пользователей для решения B (такое возможно, но это не A/B-тестирование).
Также не всегда результаты тестирований валидны сами по себе — т.е. интерпретация результатов может строиться на неверных предполжоениях. Отличие в решениях может быть слишком малыми и выбор наилучшего может быть сделан без учета статистических погрешностей или влияния иных, внешних неучтенных факторов.
Обобщения результатов (работет в данном случае — работает везде) могут быть в корне неверными, не учитывая контекст тестируемого фрагмента системы (другие элементы интерфейсов, специфичные задачи и ожидания пользователей для данного фрагмента и т.п.).