Алгоритмы обрабатывают информацию об интересах пользователей, чтобы дать им возможность смотреть релевантный контент. Андрей Кузнецов, директор по ML Одноклассников, рассказал о том, что влияет на работу рекомендаций в социальных сетях.
Соцсети отличаются от других сервисов, в которых аудитория потребляет контент, тем, что между пользователями социальных платформ есть связи. Общение происходит благодаря перепискам, добавлению друзей и реакциям на контент.
Основа всех современных рекомендательных систем — технологии машинного обучения, которые используются для улучшения пользовательского опыта. Их применяют в нескольких случаях:
Технологии машинного обучения получили своё название из-за того, что используют не только теорию, но и предыдущий опыт — накопленные знания о пользователе.
Алгоритмы учитывают, какую личную информацию пользователь указал в своём профиле. Эти данные формируют публичный образ, который человек хочет использовать при общении.
Важно также анализировать, как пользователь взаимодействовал с контентом на площадке: на какие посты он реагировал лайками или «классами», какие ролики смотрел и т.д. Эти данные о реальных действиях человека в виртуальном пространстве показывают, какому контенту он готов уделять своё время. Интересно, что не всегда эти предпочтения совпадают с тем, что пользователь рассказывает о себе в профиле. При помощи технологий можно выяснить такие различия и учесть их при создании персональной ленты.
Рекомендательные системы анализируют не только интересы пользователя, но и предпочтения аудитории, похожей на него по какому-либо признаку. Обычно на людей влияет их окружение, и каждый человек хочет общаться с теми, кто близок ему по мировоззрению. Алгоритмы относят пользователя к широкому кластеру людей с одинаковыми предпочтениями. Одна из важных задач машинного обучения — это поиск тех, кто «похож» на пользователя по полу, возрасту, городу проживания и т. д.
Можно выделить два направления машинного обучения в рекомендательных системах:
Универсальных решений для всех задач, с которыми сталкиваются специалисты по машинному обучению, нет. Обычно разработчики используют гибридный подход.
Основа рекомендательных систем — это машинное обучение. Чтобы предложить пользователю актуальный контент и возможных друзей, нужна математика.
Самая простая технология, которая используется для этого — матричные разложения. Можно представить матрицу как квадратную таблицу, в которой в каждом столбце хранятся данные об одном пользователе, а в каждой строке — какие-то сущности, items (например, темы или единицы контента). В клетках, где пересекаются профиль пользователя и объект, который его заинтересовал, стоит единица, а где нет – ноль.
Алгоритмы машинного обучения помогают разложить одну матрицу на две другие с данными о пользователе или item и характеристиками. С помощью математической функции можно сопоставить, у каких пользователей наиболее схожи интересы.
Рекомендательные системы решают, как правильно строить и обрабатывать такие таблицы. Алгоритмы машинного обучения непрерывно обрабатывают информацию — как в реальном времени, так по прошествии некоторого времени. Поведение пользователя может со временем меняться, поэтому рекомендации нужно постоянно подстраивать.
Алгоритмы анализируют историю и подстраиваются под изменения в поведении и интересах прользователей. Например, пользователь указал в профиле, что любит кошек, но со временем стал заходить в группы о собаках (причём определённой породы — корги) и ставить «классы» под публикациями о них. Со временем алгоритмы перестроятся и начнут предлагать ему больше постов и видео о корги.
Современные социальные платформы открыто используют рекомендательные системы. Они заинтересованы в том, чтобы пользователю нравился предложенный контент и он как можно больше времени проводил за его просмотром.
Чтобы настроить алгоритмы под себя, нужно ярко выражать отношение к публикациям в ленте. Рекомендательные системы используют два вида обратной связи от пользователей:
Иногда модель машинного обучения могут пытаться взломать. В информационной безопасности такое действие называется «злонамеренным манипулированием входными данными». Это происходит, когда кто-то хочет заставить модель давать неправильные предсказания, чтобы, например, получить финансовую выгоду или нарушить работу системы. Интересно, что даже изображение можно «отправить» так, что человек не увидит разницу с исходной картинкой, а для нейросети она изменит восприятие контента. В научном сообществе сейчас развивается целая область, которая изучает такие способы взлома и методы борьбы.
Главная задача, которую приходится решать разработчикам – это привлечение внимания пользователя. У каждого человека есть определённое количество времени, которое он готов посвятить просмотру контента в соцсетях и в интернете в целом. В будущем платформам придётся конкурировать за внимание пользователей и timespent (время, которое аудитория проводит на площадке).
IT-компании движутся к тому, чтобы научиться лучше понимать пользователей и персонифицировать их опыт. Цифровой след человека на площадке помогает при этом правильно настроить модели машинного обучения.
Через некоторое время рекомендательные системы будут использоваться в персональных голосовых ассистентах (conversational recommendation systems). Они уже умеют решать многие повседневные задачи — от выбора музыки и вызова такси. Модели машинного обучения и рекомендации помогут добавить новые функции для ассистентов и дать возможность людям делегировать всё больше задач.
Возможно, в ближайшем будущем мы будем чаще слышать о развитии генеративного искусственного интеллекта. Пилотные проекты уже привлекают много внимания, но компании не всегда продумывают риски до того, как модель станет доступной для пользователей. Согласно прогнозу Gartner на 2024 год, развитие комплексной программы управления доверием, рисками и безопасностью искусственного интеллекта станет одной из ключевых IT-тенденций. Благодаря этому подходу можно заранее проверять надёжность систем и защиту конфиденциальных данных.