OK Data Science Lab

1,601

OK Data Science Lab — это лаборатория для исследователей в области big data и machine learning. Участники проекта смогут проводить исследования с использованием отдельных вычислительных мощностей, предоставленных социальной сетью.

Одноклассники — это социальная сеть с ежемесячной аудиторией 71 млн человек (внутренние данные, декабрь 2016). На платформе Одноклассников доступны видео, музыка, игры, а также уникальные сервисы: «подарочки», «классы», «уведомления» и «оценки». На площадке зарегистрировано более 15 млн групп, включая группы брендов, звезд и СМИ. В Одноклассниках популярны различные социальные сервисы: сообщения, денежные переводы, продажа товаров и услуг. Интерфейс социальной сети переведен на 14 языков.

В рамках проекта OK Data Science Lab социальная сеть открывает часть своих данных — специально анонимизированных — для внешних исследователей: экспертов по big data и рекомендательным системам, сотрудников ВУЗов и научно-исследовательских институтов, аспирантов и студентов.

Инфраструктура проекта

Для проекта была создана специальная инфраструктура: выделены отдельные вычислительные мощности, собраны наборы анонимизированных данных, организована экспертная поддержка специалистов ОК.

Основные параметры инфраструктуры лаборатории: кластер — 200 ядер по 2 GHz, 1.2 Tb оперативной памяти и 76 Tb файловой системы; административный сервер — 28 ядер по 2GHz и оперативная память 256 Gb.

Направления исследований

  1. Различные аспекты поведения пользователей: паттерны, типичные группы, эволюция со временем, долгосрочные тенденции (удержание и отток пользователей, потенциальные точки роста, потенциальные «ловушки» и т.д.).
  2. Рекомендации на основе контент анализа:
    • Анализ текстового контента: тематики, эмоции, влияние контента на пользователей и т.д.
    • Анализ мультимедийного контента: дедупликация, тегирование, определение, классификация и т.д.
  3. Локальные и глобальные свойства социального графа, распространение информации в социальных сетях, анализ типов связей.
  4. Задачи антиспама.
  5. Кластеризация пользователей на основе различных факторов.
  6. Использование глубокого обучения (анализ изображений и музыки).
  7. Распознавание лиц.

На первом этапе площадка для исследований предоставляется специалистам с достаточным уровнем экспертизы. Поддержка учебных программ и мероприятий (хакатонов, контестов, олимпиад) осуществляется в сотрудничестве с порталом mlbootcamp.ru

Чтобы присоединиться к проекту, напишите нам на bigdata@ok.ru. Расскажите о своей команде, уровне вашей экспертизы и исследовании, которое вы бы хотели провести. Исследователи и команды, чьи заявки одобрят наши эксперты, получат доступ к исследовательскому кластеру ОК Data Science Lab.

Эксперты OK Data Science Lab

Дмитрий Бугайченко

Закончил Санкт-Петербургский Государственный Университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал на аутсорсе, не теряя контакта с университетом и научной средой. Анализ больших данных в Mail.Ru Group и OK стал для него уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. И этим шансом он с радостью воспользовался, поступив на работу в компанию в 2011 году.

Публикации и выступления:

8.10. 2016  – Лекция “Data Science для программистов. Считаем байты” для участников школы GO TO на канале Технострим Mail.Ru Group.
12.04. 2016 – Мастер-класс "Обработка текстов на естественном языке" на канале Технострим Mail.Ru Group.
11.05. 2016  – Доклад "Обработка умных данных" на SECR 2015.
4.12. 2015  – Лекция “Технологии и алгоритмы анализа данных социальных сетей” в ИТ лектории ФКН ВШЭ.
Bugaychenko D., Zubarevich D. (2014) Fast Pattern Recognition and Deep Learning Using Multi-Rooted Binary Decision Diagrams. In: International Workshop on Machine Learning and Data Mining in Pattern Recognition MLDM 2014: Machine Learning and Data Mining in Pattern Recognition. P. 422-430.

Dzuba A., Bugaychenko D. (2014) Mining Users Playbacks History for Music Recommendations. In: Perner P. (eds) Machine Learning and Data Mining in Pattern Recognition. MLDM 2014. Lecture Notes in Computer Science, vol 8556. Springer, Cham
Bugaychenko D., Dzuba A. (2013) Musical recommendations and personalization in a social network //Proceedings of the 7th ACM Conference on Recommender Systems. – ACM, 2013. – С. 367-370.
Bugaychenko D. (2012) On application of multi-rooted binary decision diagrams to probabilistic model checking. In: Verification, Model Checking, and Abstract Interpretation. 2012. Springer Berlin Heidelberg
Bugaychenko D., Soloviev I.P. (2012) Discrete random variables modeling using multiroot decision diagrams. In: Vestnik of the St. Peterburg University: Applied Mathematics, Computer Science, Control Processes. 2012, Number 2. P. 66 – 74.
Bugaychenko D., Soloviev I.P. (2010) Application of multiroot decision diagrams for integer functions. In: Vestnik of the St. Petersburg University: Mathematics. Vol. 43. 2010, Number 2. P. 92 – 97.
Bugaychenko D., Soloviev I.P. (2007) MASL: A logic for the specification of multiagent real-time systems. In: Multi-Agent Systems and Applications V. Springer, 2007. Berlin Heidelberg.
Bugaychenko D. (2007) Model checking MASL specification of distributed real-time systems. In: Vestnik of the St. Petersburg University: Mathematics. 2007, Number 3. P. 65 – 74.
Bugaychenko D., Soloviev I.P. (2007) Logical formalism for specification of real-time multiagent systems. In: Vestnik of the St. Petersburg University: Mathematics. 2007, Number 2. P. 49 – 57.

Виталий Худобахшов

Закончил физический факультет СПбГУ. Работает с Java, начиная с версии 1.1. На протяжении многих лет работал в СПбГУ, преподавал информатику и математику. С 2015 года Виталий работает ведущим аналитиком в Одноклассниках, где занимается различными аспектами анализа данных. Давно увлекается функциональным программированием и вне основной работы и Java–стека программирует на Haskell. В области анализа данных Виталий использует Spark/Scala и R.

Выступления:

10.06.2017 — Лекция ”Обработка больших данных при помощи Apache Spark (часть I)” и “Обработка больших данных при помощи Apache Spark (часть II)” на Moscow Data Science Junior Meetup
15.10. 2016 – Доклад “Почему функциональное программирование так важно (для датамайнера)?” на конференции Joker 2016.
28 июля 2014 – Выступление “Общий искусственный интеллект” на Science Slam.

Александр Дзюба

Разработчик интеллектуальных систем OK. Берет свои истоки на кафедре системного программирования СПбГУ. Рекомендует в Одноклассниках всё — музыку, видео, новости, что заказать на обед. Если рекомендует неправильно, то только потому, что слишком хорошего мнения о людях. В рецензируемых журналах публикуется редко, в основном для того, чтобы запутать конкурентов.

Публикации:

Dzuba A., Bugaychenko D. (2014) Mining Users Playbacks History for Music Recommendations. In: Perner P. (eds) Machine Learning and Data Mining in Pattern Recognition. MLDM 2014. Lecture Notes in Computer Science, vol 8556. Springer, Cham
Bugaychenko D., Dzuba A. Musical recommendations and personalization in a social network //Proceedings of the 7th ACM Conference on Recommender Systems. — ACM, 2013. — С. 367-370.

Алексей Прудников 

Закончил Московский Государственный Технический Университет имени Н.Э.Баумана в 2011 году. Область профессиональных интересов Алексея — цифровая обработка сигналов различной природы. С 2012 года занимается разработкой систем на основе технологии deep learning для задач распознавания речи и изображений. В Одноклассниках Алексей разрабатывает нейросетевые алгоритмы обнаружения и автоматического удаления неприемлемого контента.

Публикации:

Medennikov I., Prudnikov A. Advances in STC Russian Spontaneous Speech Recognition System. In: International Conference on Speech and Computer, 2016. P. 116-123.
Improving English conversational telephone speech recognition
Medennikov I., Prudnikov A., Zatvornitskiy A. Improving English conversational telephone speech recognition. In: Proc. Interspeech, 2016. P. 2-6.
Prudnikov A., Korenevsky M. Training Maxout Neural Networks for Speech Recognition Tasks. In: International Conference on Text, Speech, and Dialogue, 2016. P. 443-451. 
Robust Voice Activity Detection with Deep Maxout Neural Networks
Mendelev V., Prisyach T., Prudnikov A. Robust Voice Activity Detection with Deep Maxout Neural Networks. In: Modern Applied Science 9 (8), 2015. P. 153.
Novoselov S., Pekhovsky T., Kudashev O., Mendelev V., Prudnikov A. Non-linear PLDA for i-vector speaker verification. In: Interspeech, 2015. – P. 214-218.
Improving acoustic models for Russian spontaneous speech recognition
Prudnikov A., Medennikov I., Mendelev V., Korenevsky M., Khokhlov Y. Improving acoustic models for Russian spontaneous speech recognition. In: International Conference on Speech and Computer, 2015. – P. 234-242.
Prudnikov A., Korenevsky M., Aleinik S. Adaptive beamforming and adaptive training of DNN acoustic models for enhanced multichannel noisy speech recognition. In: Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. P. 401- 408.

Приглашенные эксперты и партнеры

Сергей Николенко

Научный сотрудник ПОМИ РАН, старший научный сотрудник НИУ ВШЭ — Санкт-Петербург, специалист в области анализа алгоритмов (сетевые алгоритмы, конкурентный анализ, сложность алгоритмов) и машинного обучения (обработка естественных языков, глубокое обучение). Автор более ста научных публикаций и нескольких книг. Читает авторские курсы о машинном обучении, обучении глубоких сетей, байесовских методах.

Публикации на основе данных, предоставленных ОК Data Science Lab:

A. Alekseyev, S.I. Nikolenko. Word Embeddings of User Profiling in Online Social Networks. Accepted to Computacion y Sistemas, 2017.
A. Alekseyev, S.I. Nikolenko. Predicting the Age of Social Network Users from User-Generated Texts with Word Embeddings. Proc. 5th conference on Artificial Intelligence and Natural Language ( AINL 2016), 2016, pp. 3–13. 
Все публикации эксперта 

Илья Стыценко

В 2005 закончил Институт Защиты Информации РГГУ по специальности «Информатик-аналитик». В 2008 году пришел в Mail.Ru на должность web-программиста, где в течение пяти лет занимался разработкой интерфейса рекламной системы Mail.Ru Group, потом еще два года участвовал в разработке внутренних сервисов компании и корпоративных ресурсов. В 2015 году занялся преподаванием в МФТИ курсов «Web-разработка» и «Web-архитектура», тогда же занял в компании должность руководителя чемпионатного направления и руководителя отдела маркетинга. Проводит и развивает такие чемпионаты, как Russian AI Cup (http://russianaicup.ru/), Russian Code Cup (http://www.russiancodecup.ru/), ТехноСтарт (http://techno-start.ru/, в данный момент чемпионат закрыт), ТехноКубок (https://technocup.mail.ru/), Russian Crypto Cup (https://russiancryptocup.ru/), ML Boot Camp (http://mlbootcamp.ru/).

Публикации и выступления:
Весна 2016 – видеозаписи курса лекций «Основы веб-разработки» на программе Технотрек Mail.Ru Group в МФТИ.
Все публикации эксперта (habrahabr.ru)

JUG.ru Group 

Организатор профессиональных конференций для разработчиков, направленных на развитие российского IT-сообщества. Для этого JUG.ru Group проводит международные конференции и открытые митапы по Java, .NET, JavaScript, мобильной разработке, DevOps и большим данным. Программы состоят только из технических докладов и сформированы таким образом, чтобы собирать и объединять энтузиастов-разработчиков, готовых обмениваться опытом и обсуждать решения прикладных задач и проектов. 

Доклады экспертов OK Data Science Lab на конференции Joker (организатор - JUG.ru Group):  

Виталий Худобахшов: Почему функциональное программирование так важно (для датамайнера)?

Виталий рассказывает, почему функциональное программирование становится всё более популярным и проникает в различные языки и технологии, а также о том, почему знание функциональной парадигмы так важно в обработке больших и не очень больших данных. На различных примерах слушатели увидят, что связывает функциональные языки и такие технологии обработки данных, как Spark и Hadoop. Доклад рассчитан на тех, кто хотел бы лучше понять природу этой связи. Идеальным слушателем представляется человек, который слышал о функциональном программировании, но хотел бы лучше понять, как и где оно используется на практике и какие преимущества и недостатки этот подход привносит в программирование и особенно в обработку данных. Также это может быть человек, который занимается анализом данных и при этом не обязательно является профессиональным программистом, но хотел бы шире взглянуть на методы работы с данными.

Дмитрий Бугайченко: Как посчитать CTR 100М объектов в реальном времени и не умереть

Подсчет CTR не выглядит сложной задачей — даже если у вас есть терабайты логов с показами и кликами, небольшой кластер Hadoop-а управится с ними без каких либо проблем. Если объектов не так много, например, сотни тысяч рекламных компаний, считать CTR можно и в реальном времени. Но ситуация сильно меняется если перед вами встает задача подсчитывать в реальном времени CTR сотен миллионов объектов, обрабатывая миллионы событий в секунду, а затем использовать полученные результаты при оценке десятков миллионов кандидатов каждую секунду.
В рамках доклада Дмитрий и слушатели поговорят о том, как реализуется оценка CTR объектов в ленте Одноклассников, какие технологии были взяты за основу и как пришлось их «допиливать», а также о том, какие задачи помимо оценки CTR позволяют решать платформы потокового анализа данных.