Google опубликовал небольшое видео о том, как BERT помогает поисковой системе понимать человеческую речь.
Google использует BERT с 2018 года, но об этом стало известно только в 2019 году. В ролике компания рассказала, как эта модель помогает лучше обрабатывать запросы с учетом контекста.
Краткое содержание видео
То, что очевидно для человека – такие вещи, как контекст, тон и намерение – компьютерам очень трудно уловить. Чтобы возвращать релевантные результаты Google не просто нужно знать определения слов. Ему нужно знать, что они означают, когда используются вместе и в определенном порядке.
В английском языке это включает такие слова, как «for» и «to». Если подумать о том, как много различных значений может иметь одно слово, становится понятным, почему написание компьютерной программы, которая учитывала бы все эти нюансы, такая сложная задача.
Люди все чаще разговаривают с Google так, как он думают и говорят с другими людьми. И Google все лучше понимает, что они имеют в виду.
Один из самых больших скачков вперед в истории поиска произошел с внедрением Bidirectional Encoder Representations from Transformers, или BERT.
BERT – это ML-модель, которая помогает Google обрабатывать язык и понимать контекст, в котором он появляется. Раньше поисковик для обработки запроса извлекал из него те слова, которые считал самыми важными. При использовании BERT также учитываются маленькие слова и это меняет дело.
Как научить модель улавливать контекст? Есть большая разница между знанием слов и пониманием значения. Модель изучает контекст, применяя те же принципы заполнения пробелов, что и в игре Mad Libs (популярная игра со словами). Для этого исследователи берут фразу, скрывают около 20% введенных слов, а затем заставляют компьютер угадывать пропущенные слова. Со временем модель начинает понимать, что разные слова могут иметь разные значения в зависимости от того, что их окружает. И тот порядок, в котором они появляются в этом тексте, тоже имеет значение.
BERT не является на 100% надежным, но с 2019 года он улучшил большое количество запросов.