Мы пообщались с ведущим менеджером Яндекс.Справочника Александром Болховитяновым, который занимается развитием сервиса. Он рассказал нам, как устроен Справочник, и как база, которой ежемесячно пользуются 46 млн человек, остается всегда актуальной.
Когда люди вводят в поиске Яндекса или в Яндекс.Картах название парикмахерской, клиники или магазина, они рассчитывают найти о них наиболее полезную информацию. Чаще всего это адрес, график работы или номер телефона. От актуальности и достоверности данных зависит, решит человек свою проблему, или ему придется потратить дополнительное время и нервы на поиск необходимых сведений по другим каналам — например, через посты на тематических форумах или с помощью звонков осведомленным друзьям.
Задача представлять своим пользователям наиболее точную информацию об организациях и местах встала перед Яндексом почти сразу после начала работы поисковика. Изначально такая информация накапливалась в нескольких разных сервисах (поисковик, Каталог, Карты, Вебмастер, Директ и другие) и была разрознена. В результате люди не всегда находили именно то, что хотели найти, либо данные об организации не были исчерпывающими. Очень скоро специалисты Поиска поняли, что для поддержания качества поисковой выдачи требуется свести всю доступную информацию об организациях в единое целое. Так появился Яндекс.Справочник.
Яндекс.Справочник — это база данных об организациях, которой ежемесячно пользуются 46 миллионов человек — адреса, сайты, номера телефонов, режим работы, отзывы и сотни других параметров. Данные Справочника пользователи видят практически во всех сервисах с красной буквой “Я” в логотипе: в Маркете, Картах, Афише, Навигаторе и даже в определителе номеров на смартфонах. Именно благодаря работе Справочника люди могут посмотреть время работы салона красоты прямо на странице с результатами поиска, а таксист — будет знать точную улицу и номер дома бара, куда вы заказали такси, введя лишь название популярного питейного заведения.
Когда-то управление информацией о компаниях было доступно только вебмастерам, которые могли привязывать сайты к организациям. Теперь любая компания, даже если у нее нет веб-страницы, может добавить информацию о своем кафе или салоне красоты, магазине или мастерской в личном кабинете Справочника.
Своевременно добавлять и править информацию помогают сами пользователи. Они указывают на неточности в карточках организаций в Картах. Кроме того, сами организации могут редактировать профиль.
Вполне естественно, что в поступающих правках встречаются ошибки — из-за невнимательности или злого умысла. Случается, что конкуренты пытаются «закрыть» организацию или исказить информацию о ней, а обычные интернет-хулиганы добавляют мат и прочие несуразности в названия и описания компаний. В ответ на это Яндекс внедрил технологии, которые позволили эффективно и быстро модерировать все поступающие данные, «отсеивая зерна от плевел».
Такие правки проверяются несколькими способами:
- Операторы колл-центров звонят в организации, посещают их сайты и уточняют изменения;
- Толокеры (они обычно занимаются обучением ИИ) доходят до компаний и сверяют данные «вживую»;
- Специальный бот, Автомодератор, обученный на примерах плохих и хороших правок при помощи технологии CatBoost, с огромной скоростью анализирует весь поток входящих правок, взвешивая десятки факторов. Например, Автомодератор может мгновенно проверить организацию на пример наличия ее дубликатов или учесть историю предыдущих правок пользователя и рассчитать рейтинг их благонадежности.
Публикация данных организации в Справочнике — многоэтапный процесс, и раньше он мог занимать несколько дней. Столько времени требовалось, чтобы новые данные прошли верификацию, а затем «проросли» в сервисы Яндекса (для чего часто требовалось ждать очередного перестроения поискового индекса). Теперь же время верификации данных сокращено с нескольких дней до пары минут, а для обновления некоторых отдельных объектов (например, номера телефонов) происходит мгновенно, так как перестроение индекса целиком больше не требуется.
Задача Яндекс.Справочника — максимально точно и быстро отвечать на вопросы пользователей, независимо от того, насколько “правильно” сформулирован вопрос пользователем. Справочник старается сократить количество переходов и кликов между вопросом и нахождением ответа на него до абсолютного минимума.