OK Data Science Lab

5,107

OK Data Science Lab — это лаборатория для исследователей в области big data и machine learning. Участники проекта смогут проводить исследования с использованием отдельных вычислительных мощностей, предоставленных социальной сетью.

Одноклассники — это социальная сеть с ежемесячной аудиторией 71 млн человек (внутренние данные, декабрь 2016). На платформе Одноклассников доступны видео, музыка, игры, а также уникальные сервисы: «подарочки», «классы», «уведомления» и «оценки». На площадке зарегистрировано более 15 млн групп, включая группы брендов, звезд и СМИ. В Одноклассниках популярны различные социальные сервисы: сообщения, денежные переводы, продажа товаров и услуг. Интерфейс социальной сети переведен на 14 языков.

В рамках проекта OK Data Science Lab социальная сеть открывает часть своих данных — специально анонимизированных — для внешних исследователей: экспертов по big data и рекомендательным системам, сотрудников ВУЗов и научно-исследовательских институтов, аспирантов и студентов.

Инфраструктура проекта

Для проекта была создана специальная инфраструктура: выделены отдельные вычислительные мощности, собраны наборы анонимизированных данных, организована экспертная поддержка специалистов ОК.

Основные параметры инфраструктуры лаборатории: кластер — 200 ядер по 2 GHz, 1.2 Tb оперативной памяти и 76 Tb файловой системы; административный сервер — 28 ядер по 2GHz и оперативная память 256 Gb.

Направления исследований

  1. Различные аспекты поведения пользователей: паттерны, типичные группы, эволюция со временем, долгосрочные тенденции (удержание и отток пользователей, потенциальные точки роста, потенциальные «ловушки» и т.д.).
  2. Рекомендации на основе контент анализа:
    • Анализ текстового контента: тематики, эмоции, влияние контента на пользователей и т.д.
    • Анализ мультимедийного контента: дедупликация, тегирование, определение, классификация и т.д.
  3. Локальные и глобальные свойства социального графа, распространение информации в социальных сетях, анализ типов связей.
  4. Задачи антиспама.
  5. Кластеризация пользователей на основе различных факторов.
  6. Использование глубокого обучения (анализ изображений и музыки).
  7. Распознавание лиц.

На первом этапе площадка для исследований предоставляется специалистам с достаточным уровнем экспертизы. Поддержка учебных программ и мероприятий (хакатонов, контестов, олимпиад) осуществляется в сотрудничестве с порталом mlbootcamp.ru

Чтобы присоединиться к проекту, напишите нам на bigdata@ok.ru. Расскажите о своей команде, уровне вашей экспертизы и исследовании, которое вы бы хотели провести. Исследователи и команды, чьи заявки одобрят наши эксперты, получат доступ к исследовательскому кластеру ОК Data Science Lab.

Эксперты OK Data Science Lab

Дмитрий Бугайченко

Закончил Санкт-Петербургский Государственный Университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал на аутсорсе, не теряя контакта с университетом и научной средой. Анализ больших данных в Mail.Ru Group и OK стал для него уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. И этим шансом он с радостью воспользовался, поступив на работу в компанию в 2011 году.

Публикации и выступления:

8.10. 2016  – Лекция “Data Science для программистов. Считаем байты” для участников школы GO TO на канале Технострим Mail.Ru Group.
12.04. 2016 – Мастер-класс "Обработка текстов на естественном языке" на канале Технострим Mail.Ru Group.
11.05. 2016  – Доклад "Обработка умных данных" на SECR 2015.
4.12. 2015  – Лекция “Технологии и алгоритмы анализа данных социальных сетей” в ИТ лектории ФКН ВШЭ.
Bugaychenko D., Zubarevich D. (2014) Fast Pattern Recognition and Deep Learning Using Multi-Rooted Binary Decision Diagrams. In: International Workshop on Machine Learning and Data Mining in Pattern Recognition MLDM 2014: Machine Learning and Data Mining in Pattern Recognition. P. 422-430.

Dzuba A., Bugaychenko D. (2014) Mining Users Playbacks History for Music Recommendations. In: Perner P. (eds) Machine Learning and Data Mining in Pattern Recognition. MLDM 2014. Lecture Notes in Computer Science, vol 8556. Springer, Cham
Bugaychenko D., Dzuba A. (2013) Musical recommendations and personalization in a social network //Proceedings of the 7th ACM Conference on Recommender Systems. – ACM, 2013. – С. 367-370.
Bugaychenko D. (2012) On application of multi-rooted binary decision diagrams to probabilistic model checking. In: Verification, Model Checking, and Abstract Interpretation. 2012. Springer Berlin Heidelberg
Bugaychenko D., Soloviev I.P. (2012) Discrete random variables modeling using multiroot decision diagrams. In: Vestnik of the St. Peterburg University: Applied Mathematics, Computer Science, Control Processes. 2012, Number 2. P. 66 – 74.
Bugaychenko D., Soloviev I.P. (2010) Application of multiroot decision diagrams for integer functions. In: Vestnik of the St. Petersburg University: Mathematics. Vol. 43. 2010, Number 2. P. 92 – 97.
Bugaychenko D., Soloviev I.P. (2007) MASL: A logic for the specification of multiagent real-time systems. In: Multi-Agent Systems and Applications V. Springer, 2007. Berlin Heidelberg.
Bugaychenko D. (2007) Model checking MASL specification of distributed real-time systems. In: Vestnik of the St. Petersburg University: Mathematics. 2007, Number 3. P. 65 – 74.
Bugaychenko D., Soloviev I.P. (2007) Logical formalism for specification of real-time multiagent systems. In: Vestnik of the St. Petersburg University: Mathematics. 2007, Number 2. P. 49 – 57.

Виталий Худобахшов

Закончил физический факультет СПбГУ. Работает с Java, начиная с версии 1.1. На протяжении многих лет работал в СПбГУ, преподавал информатику и математику. С 2015 года Виталий работает ведущим аналитиком в Одноклассниках, где занимается различными аспектами анализа данных. Давно увлекается функциональным программированием и вне основной работы и Java–стека программирует на Haskell. В области анализа данных Виталий использует Spark/Scala и R.

Выступления:

10.06.2017 — Лекция ”Обработка больших данных при помощи Apache Spark (часть I)” и “Обработка больших данных при помощи Apache Spark (часть II)” на Moscow Data Science Junior Meetup
15.10. 2016 – Доклад “Почему функциональное программирование так важно (для датамайнера)?” на конференции Joker 2016.
28 июля 2014 – Выступление “Общий искусственный интеллект” на Science Slam.

Александр Дзюба

Разработчик интеллектуальных систем OK. Берет свои истоки на кафедре системного программирования СПбГУ. Рекомендует в Одноклассниках всё — музыку, видео, новости, что заказать на обед. Если рекомендует неправильно, то только потому, что слишком хорошего мнения о людях. В рецензируемых журналах публикуется редко, в основном для того, чтобы запутать конкурентов.

Публикации:

Dzuba A., Bugaychenko D. (2014) Mining Users Playbacks History for Music Recommendations. In: Perner P. (eds) Machine Learning and Data Mining in Pattern Recognition. MLDM 2014. Lecture Notes in Computer Science, vol 8556. Springer, Cham
Bugaychenko D., Dzuba A. Musical recommendations and personalization in a social network //Proceedings of the 7th ACM Conference on Recommender Systems. — ACM, 2013. — С. 367-370.

Евгений Малютин

Разработчик интеллектуальных систем в ОК. Закончил бакалавриат (2015) и магистратуру (2017) на кафедре "Технологии Программирования" факультета ПМПУ СПбГУ, сейчас обучается в аспирантуре факультета ПМПУ. Тема кандидатского исследования: "Использование методов глубокого обучения для некоторого класса задач NLP"  Преподает в СПбГУ курсы: Data Science, Machine Learning

Публикации:

Малютин, Е., Бугайченко, Д., & Мишенин, А. (2017). Выделение текстовых трендов в социальной сети OK. Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления, 13(3), 313–325.