Государственный фонд фондов
Институт развития Российской Федерации

Центр компетенций НТИ по направлению «Технологии хранения и анализа больших данных»

Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных»Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных» на базе Московского государственного университета имени М.В. Ломоносова.

Ключевой целью Центра является разработка новых технологий хранения и анализа больших данных мирового уровня, востребованных на высокотехнологичных рынках Национальной технологической инициативы, и формирование на основе прорывных результатов, получаемых в ходе фундаментальных исследований Центра, научно-технического задела для создания перспективных технологий больших данных.


Цели и задачи


Основные задачи Центра группируются вокруг следующих 8 направлений:

  • Предиктивная аналитика технических систем;
  • Система автоматического поиска уязвимостей в веб-приложениях;
  • Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных;
  • Средства интеллектуального анализа больших массивов текстов;
  • Математические основы интеллектуального анализа больших данных;
  • Новые подходы к проектированию систем считывания для технологии сверхстабильной трехмерной оптической памяти с многоуровневым кодированием на носителях из стекла;
  • Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации;
  • Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды.

Стратегическими целями деятельности Центра технологий хранения и анализа больших данных являются:

  • Разработка новых технологий хранения и анализа больших данных мирового уровня, востребованных на высокотехнологичных рынках НТИ;
  • Формирование на основе прорывных результатов, получаемых в ходе фундаментальных исследований Центра, научно-технического задела для создания перспективных технологий больших данных;
  • Разработка образовательной платформы с целью реализации образовательных программ по направлению больших и сверхбольших данных и стимулирования роста числа специалистов в соответствующей сфере;
  • Разработка методов для осуществления предиктивной аналитики, развитие системы автоматического поиска уязвимостей в веб-приложениях;
  • Создание инфраструктуры с целью формирования эффективной вычислительной базы максимально широкого спектра для существующих и новых прикладных задач Центра;
  • Создание центра объединения и координации российских исследователей и разработчиков в области технологий больших данных, используемого при формировании национальной сети исследователей и разработчиков в сфере анализа больших данных;
  • Разработка решений для преодоления ряда актуальных для общества и государства больших вызовов, связанных с проблематикой хранения и анализа больших данных;
  • Интеграция науки и технологий с инновациями (отработка взаимодействия в рамках единого комплекса, который интегрирует научные исследования в области технологий хранения и анализа больших данных, технологические разработки и инновации, ориентируясь на социально значимые приложения).

Результаты деятельности


В 2018 году в рамках научной деятельности Центра начата реализация основных комплексных научно-исследовательских и опытно-конструкторских проектов.

Итоги образовательной деятельности Центра в 2018 году:

  • Разработана концепция образовательных программ (их компонентов) и образовательной платформы. Ее ключевые компоненты: профессорско-преподавательский; учебно-методический – репозиторий материалов к обучающим курсам, созданным в ведущих научных/учебных центрах России (МГУ, ФИЦ ИУ РАН, СПбГТУ, ННГУ, РЭУ и др.); инфраструктурный – система электронного дистанционного обучения.
  • Начата работа по формированию коллектива и созданию курсов и методических разработок. Привлечены ведущие специалисты в области машинного обучения и математической статистики (г. Белгород, СПбПУ Петра Великого, РАН). Разработано 22 курса лекций, для каждого из которых создан стандартный набор документов (учебно-методический комплекс, расширенная программа, согласованная с Минобрнауки России, слайды, лекции, краткий курс лекций, сборник задач).

Были разработаны следующие 22 комплекта учебно-методических материалов по новым и существенно модернизированным базовым курсам лекций:

1. Анализ временных рядов;
2. Интеллектуальный анализ данных;
3. Принципы построения вероятностных моделей в задачах анализа больших данных;
4. Статистический анализ больших выборок;
5. Методы оптимизации в задачах машинного обучения;
6. Статистика больших данных;
7. Анализ риска;
8. Прикладной многомерный статистический анализ;
9. Современные методы распределенного хранения и обработки данных;
10. Технологии распределенного хранения и обработки данных;
11. Базы данных – теория, практика, перспективы: от сложных структур к большим данным;
12. Объектно-ориентированное моделирование систем обработки больших данных;
13. Пакеты прикладных программ для статистической обработки и анализа данных;
14. Суперкомпьютерное моделирование и технологии;
15. Современные методы анализа и обработки сигналов и изображений;
16. Анализ больших текстовых данных и информационный поиск;
17. Основы теории нечетких множеств и измерения нечеткости;
18. Прикладные задачи анализа данных;
19. Методы обработки и распознавания изображений;
20. Интеллектуальные методы обработки видео;
21. Прикладные задачи теории случайных процессов;
22. Цифровая экономика.

По направлению развития инфраструктуры ЦХАБД в 2018 году обеспечены:

  • Исследования технологий, методов, программных систем и инструментов, существующих примеров использования и перспективных направлений в области больших данных;
  • Анализ методов виртуализации в обработке больших данных;
  • Разворачивание инфраструктуры на суперкомпьютере «Ломоносов-2»;
  • Анализ примеров применения технологий хранения и анализа больших данных компаниями из списка Fortune 500;
  • Сравнительный анализ основных подходов к организации инфраструктуры для хранения и обработки больших данных, основанных как на открытом, так и на коммерческом программном обеспечении.

В рамках развития партнерских отношений по итогам 2018 года в консорциум вошли 25 организаций-участников.

Консорциум

Консорциум построен на основе представительства организаций разных типов (академических, образовательных, коммерческих, государственных и некоммерческих) с целью учета и гармонизации интересов различных сторон, заинтересованных в формировании, использовании и коммерциализации результатов деятельности Центра.

По состоянию на май/июнь 2019 года в консорциум входят 28 организаций различных типов.



Научные и образовательные учреждения:

  • 9 образовательных организаций высшего образования – Московский государственный университет имени М.В. Ломоносова, Российский экономический университет имени Г.В. Плеханова, Московский авиационный институт (национальный исследовательский университет), Российский университет транспорта (МИИТ), Самарский национальный исследовательский университет имени академика С.П. Королева, Белгородский государственный национальный исследовательский университет, Ульяновский государственный университет, Тамбовский государственный технический университет, Государственный университет управления;
  • 5 научных организаций – Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Институт вычислительной математики им. Г.И. Марчука Российской академии наук, Институт системного программирования им. В.П. Иванникова Российской академии наук, Центральный экономико-математический институт Российской академии наук, Объединенный институт ядерных исследований.


Партнеры из индустрии:

  • Государственная корпорация по атомной энергии «Росатом», ООО «Мэйл.Ру (Mail.Ru Group)», ООО «1С», ООО «Такском», ООО «АйДесайд Консалтинг», ООО «Постгрес профессиональный», ООО «РАБУС», ЗАО «ЮНИС Лабс Солюшнз», ООО «Визиолоджи», ООО «СОДИС Лаб», компания DigitalGlobe, ООО «Антирутина», АО «Антиплагиат».


Иные организации:

  • Некоммерческая организация – АНО «Институт развития информационного общества».

Проекты


Ниже описаны ключевые научные и/или научно-технические проекты.

1. Предиктивная аналитика технических систем.

Проект связан с исследованием и оптимизацией алгоритмов анализа данных для задач предиктивной аналитики. Основная цель проекта – создание платформы по предиктивной аналитике технических систем для предсказания возможных аварий и поломок и проведения предиктивного ремонта, что в целом приведет к увеличению срока службы оборудования. Основные трудности связаны с тем, что, во-первых, собираемые с устройств данные разнообразны и уникальны для каждого типа оборудования, во-вторых, каждый тип данных (в т.ч. их особенности) оптимальным образом обрабатываются различными алгоритмами, что не позволяет применить универсальный алгоритм. Для преодоления существующих трудностей планируется исследование выбора оптимальных алгоритмов для каждого типа данных и их особенностей. Данная технология является сквозной и может быть применена для всех рынков НТИ в целях реализации других НИР.



2. Система автоматического поиска уязвимостей в веб-приложениях.

Реализация проекта направлена на создание высокотехнологичного программно-аппаратного комплекса (в его основе лежит подход тестирования методом «черного ящика» (фаззинг) динамических приложений, с обратной связью по коду для оценки покрытия кода примерами, т. н. coverage guided fuzzing) для решения задачи автоматического непрерывного обнаружения уязвимостей в веб-приложениях. Технологии автоматического поиска уязвимостей веб-приложений, как правило, связаны с задачами анализа больших объемов кода современных приложений и поиска отклонений. Одним из главных технологических барьеров, на решение которого направлен разрабатываемый продукт, является возможность автоматического обнаружения уязвимостей в веб-приложениях с большими объемами программного кода.



3. Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных.

Целью проекта является разработка наукоемкого программного комплекса, обеспечивающего создание систем поддержки принятия врачебных решений в персонализированной медицине по наиболее критичным нозологиям на основе анализа больших данных, получаемых при использовании облачных и телемедицинских технологий в целях автоматизированной диагностики медицинских диагностических изображений.



4. Средства интеллектуального анализа больших массивов текстов.

Данный проект напрямую связан со всеми остальными, так как в последнее время анализ текста привлекает все больше внимания в различных областях, таких как безопасность, коммерция, наука и экология. Непрерывное накопление текстовых данных и активный рост рынка больших данных делают необходимым разработку методов интеллектуального анализа текстов для обеспечения эффективной работы с большими объемами текстов.



5. Математические основы интеллектуального анализа больших данных.

Проект направлен на совершенствование методов, алгоритмов и программных средств интеллектуального анализа данных (ИАД). Сложность и разнообразие методов ИАД требуют создания специализированных инструментов для конечного пользователя, с помощью которых будет решена поставленная задача. Основные цели в рамках данного направления: развитие и создание новых методов и алгоритмов анализа структурированных и неструктурированных данных; разработка программных средств обработки распределенных данных больших объемов; применение созданных средств при решении прикладных задач.



6. Новые подходы к проектированию систем считывания для технологии сверхстабильной трехмерной оптической памяти с многоуровневым кодированием на носителях из стекла.

Разработки по данному направлению будут использованы во многих проектах, связанных с большими данными, для сбора и анализа которых необходимо емкое и надежное хранилище, отвечающее современным стандартам скорости записи и обработки информации.



7. Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации.

Проект направлен на разработку и реализацию комплексной системы мониторинга процессов развития и использования технологий хранения и анализа больших данных в Российской Федерации. Эта система может широко использоваться на практике государством, корпоративными клиентами и научно-образовательным сообществом.



8. Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды.

Количество собираемых больших экологических данных и интерес к сфере со стороны ученых являются причинами динамичного развития рынка охраны окружающей среды. Данный проект направлен на разработку методов и алгоритмов интеллектуального анализа больших данных применительно к задачам экологии и охраны окружающей среды. Разработанные методы и алгоритмы анализа больших данных найдут применение в эколого-аналитических центрах для увеличения точности прогнозов и более эффективного сбора и анализа информации о состоянии экологии на планете.

Образовательная деятельность


Центр имеет задел по тематике хранения и анализа больших данных в части образовательного направления. Например, с 2015 года осуществляется подготовка магистров по авторской магистерской программе «Интеллектуальный анализ больших данных», проводятся курсы на межфакультетской кафедре «Математического моделирования и компьютерных исследований», а также на кафедре Вычислительной математики: «Теоретические основы информатики», «Основы программной инженерии», «Введение в теорию распределенных информационных систем», «Математическое обеспечение высокопроизводительных вычислений», «Формальные модели представления и обработки знаний» и др.

Ключевой этап развития образовательной деятельности Центра – создание образовательной платформы с целью обеспечения комплексной поддержки очного и дистанционного профессионального обучения, а также повышения квалификации в области технологий хранения и анализа больших данных. Создание обновленной образовательной платформы планируется на базе существующих магистерских программ, специализированных курсов и лабораторных практикумов.

В рамках создаваемой образовательной платформы предполагается разработка курсов лекций по следующим четырем направлениям:

  • Аналитика больших данных;
  • Хранение больших данных;
  • Программная инженерия и информационные технологии;
  • Предметно-ориентированные знания.

Предполагаемые направления подготовки, в рамках которых планируется образовательная деятельность Центра:

  • Прикладная математика и информатика;
  • Фундаментальная информатика и информационные технологии;
  • Математическое обеспечение и администрирование информационные систем;
  • Информационные системы и технологии.

Итоги образовательной деятельности Центра в 2018 году:

  • Разработана концепция образовательных программ (их компонентов) и образовательной платформы. Ее ключевые компоненты: профессорско-преподавательский; учебно-методический – репозиторий материалов к обучающим курсам, созданным в ведущих научных/учебных центрах России (МГУ, ФИЦ ИУ РАН, СПбГТУ, ННГУ, РЭУ и др.); инфраструктурный – система электронного дистанционного обучения.
  • Начата работа по формированию коллектива и созданию курсов и методических разработок. Привлечены ведущие специалисты в области машинного обучения и математической статистики (г. Белгород, СПбПУ Петра Великого, РАН). Разработано 22 курса лекций, для каждого из которых создан стандартный набор документов (учебно-методический комплекс, расширенная программа, согласованная с Минобрнауки России, слайды, лекции, краткий курс лекций, сборник задач).

Перечень 22 комплектов учебно-методических материалов по новым и существенно модернизированным базовым курсам лекций:

1. Анализ временных рядов;
2. Интеллектуальный анализ данных;
3. Принципы построения вероятностных моделей в задачах анализа больших данных;
4. Статистический анализ больших выборок;
5. Методы оптимизации в задачах машинного обучения;
6. Статистика больших данных;
7. Анализ риска;
8. Прикладной многомерный статистический анализ
9. Современные методы распределенного хранения и обработки данных;
10. Технологии распределенного хранения и обработки данных;
11. Базы данных – теория, практика, перспективы: от сложных структур к большим данным;
12. Объектно-ориентированное моделирование систем обработки больших данных;
13. Пакеты прикладных программ для статистической обработки и анализа данных;
14. Суперкомпьютерное моделирование и технологии;
15. Современные методы анализа и обработки сигналов и изображений;
16. Анализ больших текстовых данных и информационный поиск;
17. Основы теории нечетких множеств и измерения нечеткости;
18. Прикладные задачи анализа данных;
19. Методы обработки и распознавания изображений;
20. Интеллектуальные методы обработки видео;
21. Прикладные задачи теории случайных процессов;
22. Цифровая экономика.

Команда

  • Директор Центра, руководитель направления «Развитие партнерских отношений» – директор НЦЦЭ к.э.н. Татьяна Ершова,
    +7 (495) 938-23-52,
    tatiana.ershova@digital.msu.ru

  • Заместитель директора Центра по административной работе, Сергей Тростьянский,
    +7 (926) 845-83-04,
    strostiansky@yandex.ru

  • Заместитель руководителя проекта – декан факультета вычислительной математики и кибернетики МГУ, научный руководитель Национального центра цифровой экономики (НЦЦЭ) академик Игорь Соколов,
    +7 (495) 939-30-10 (приемная – ВМК МГУ),
    isokolov@ipiran.ru

  • Научный руководитель Центра, руководитель направления «Реализация ключевых комплексных научно-исследовательских и опытно-конструкторских проектов» – профессор кафедры математических методов прогнозирования факультета вычислительной математики и кибернетики МГУ имени М.В. Ломоносова академик Константин Рудаков,
    +7 (499) 135-62-31,
    rudakov@ccas.ru

  • Руководитель направления «Обеспечение правовой охраны, управления правами и защиты РИД» – заместитель проректора – начальника Управления научной политики и организации научных исследований к.э.н. Олег Карасев,
    +7 (495) 939-30-18,
    k-o-i@yandex.ru

  • Руководитель направления «Разработка и реализация основных образовательных программ высшего образования, программ дополнительного образования, дисциплин (модулей), направленных на формирование компетенций» – заведующий кафедрой интеллектуальных информационных технологий факультета ВМК МГУ д. ф.-м. н., проф. Игорь Машечкин,
    +7 (495) 939-17-89,
    mash@cs.msu.su

  • Руководитель направления «Развитие информационной инфраструктуры, а также инфраструктуры научной, научно-технической и инновационной деятельности» – заместитель директора Научно-исследовательского вычислительного центра МГУ д. ф.-м. н., чл.-корр. РАН Владимир Воеводин,
    +7 (495) 939-17-89,
    voevodin@parallel.ru


Контакты

Адрес: 119192, г. Москва, Ломоносовский проспект, д. 27, корп. 1, офисы Е801 – Е804, А818
Тел.: +7 (495) 938-25-72

Открытый отбор проектов НТИ

РВК объявляет открытый отбор проектов НТИ, нацеленных на экспорт на зарубежные рынки технологических продуктов, разработку прорывных инновационных технологий, создание условий для компаний, работающих на рынках НТИ.
Место проведения: