Центр компетенций НТИ по направлению «Технологии хранения и анализа больших данных»

Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных»Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных» на базе Московского государственного университета имени М.В. Ломоносова.

Центр создан в 2018 году на базе Московского государственного университета имени М.В. Ломоносова.

Ключевой целью Центра является разработка новых технологий хранения и анализа больших данных мирового уровня, востребованных на высокотехнологичных рынках НТИ, и формирование на основе прорывных результатов, получаемых в ходе фундаментальных исследований Центра, научно-технического задела для создания перспективных технологий больших данных.


Цели и задачи


Основные задачи Центра группируются вокруг следующих приоритетных и ключевых комплексных научно-исследовательских проектов:

  1. «Предиктивная аналитика технических систем»;
  2. «Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных»;
  3. «Математические основы интеллектуального анализа больших данных»;
  4. «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных»;
  5. «Средства интеллектуального анализа больших массивов текстов»;
  6. «Новые подходы к проектированию систем считывания для технологии трехмерной оптической памяти с многоуровневым кодированием»;
  7. «Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации»;
  8. «Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды».

Параллельно создаются новые актуальные учебные курсы по проблематике больших данных. Центр и участники консорциума ведут активную образовательную деятельность, направленную на подготовку высококлассных специалистов в области больших данных.

Стратегическими целями деятельности Центра являются:

  • Разработка новых технологий хранения и анализа больших данных мирового и отечественного уровня, востребованных на высокотехнологичных рынках НТИ, и формирование на основе прорывных результатов, получаемых в ходе фундаментальных исследований Центра, научно-технического задела для создания перспективных технологий больших данных;
  • Разработка образовательной платформы с целью реализации образовательных программ по направлению больших и сверхбольших данных и стимулирования роста числа специалистов в соответствующей сфере;
  • Разработка методов для осуществления предиктивной аналитики;
  • Развитие системы автоматического поиска уязвимостей в веб-приложениях;
  • Создание инфраструктуры с целью формирования эффективной вычислительной базы для решения существующих и новых прикладных задач Центра;
  • Создание широких возможностей для объединения и координации российских исследователей и разработчиков в области технологий хранения и анализа больших данных, формирования национальной сети таких специалистов;
  • Разработка решений для преодоления ряда актуальных для общества и государства вызовов, связанных с проблематикой хранения и анализа больших данных;
  • Обеспечение взаимосвязи проводимых научных исследований и разработок в области больших данных.

Результаты деятельности

Преодоление технологических барьеров

  • В рамках проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» было разработано программное обеспечение по анализу медицинских изображений с чувствительностью 94%, тем самым проект приблизился к преодолению технологического барьера направления дорожной карты «Хелснет» № 46: «Алгоритмы постановки диагноза и назначения лекарственной терапии с чувствительностью и специфичностью не менее 95%». Машинное обучение программного обеспечения продолжается в ходе его использования в практическом здравоохранении города Москвы и 53 регионов России. Целью обучения является дальнейшее повышение надежности и точности результатов.

Значимые результаты научно-исследовательской деятельности

  • В рамках проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» была проведена бесшовная интеграция первой версии программного обеспечения по анализу медицинских цифровых диагностических изображений в реально функционирующую информационную систему в сфере здравоохранения России на основе стандарта DICOM. Эффективность применения разработанного программного обеспечения, используемого в эксперименте Правительства Москвы в области компьютерного зрения для анализа медицинских изображений, стала основой для выпуска Приказа Минздрава России № 1288н от 4 декабря 2020 года «О внесении изменений в приказ Министерства здравоохранения РФ от 19 марта 2020 № 198н “О временном порядке организации работы медицинских организаций в целях реализации мер по профилактике и снижению рисков распространения новой коронавирусной инфекции COVID-19”».

  • В 2020 году в рамках проекта «Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации» были разработаны проекты национальных стандартов в области больших данных, в том числе ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь», ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и процесс применения» и ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 5. Дорожная карта стандартов». Проекты национальных стандартов по работе с большими данными основаны на действующих международных стандартах с целью гармонизации национальной стандартизации с передовыми мировыми практиками.

Создание важных объектов инфраструктуры

  • Ряд проектов Центра опирается на решение задач в области машинного и глубинного обучения, искусственного интеллекта и Data Mining. Для этого была создана аппаратная инфраструктура на основе современного сервера обработки данных на GPU-ускорителях — суперкомпьютера Nvidia DGX-2. Данная платформа применяется, в частности, в проектах по предиктивной аналитике, безопасности и медицине.

  • Кроме того, для обеспечения потребностей ряда прикладных проектов в гибкой конфигурации ресурсов создан пул вычислительных серверов, опирающихся на технологии виртуализации OpenNebula, а также на высокоэффективное файловое хранилище Ceph. Основные пользователи данного вида ресурсов — проекты, использующие в своей деятельности прикладные базы данных с аналитическими сервисами, и образовательные проекты.

Внедрение и коммерциализация результатов деятельности Центра

  • В 2020 году в рамках проекта «Предиктивная аналитика технических систем» были разработаны прогностические модели, способные на раннем этапе детектировать отклонения в работе производственного оборудования и сигнализировать о необходимости проведения ремонтных работ. Данные модели проходят тестирования в рамках опытной эксплуатации на оборудовании компании ПАО «Северсталь» и могут быть использованы для оборудования широкого профиля в металлургических компаниях.

  • В ходе реализации проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» была проведена бесшовная интеграция первой версии программного обеспечения по анализу медицинских цифровых диагностических изображений в реально функционирующую информационную систему в сфере здравоохранения России на основе стандарта DICOM. На текущий момент разработанное программное обеспечение используется в практическом здравоохранении города Москвы и 53 других регионов России.

  • В рамках проекта «Средства интеллектуального анализа больших массивов текстов» были разработаны алгоритмы обучения стеммингу и токенизации для произвольного языка. На основе алгоритмов создан сервис по предварительной обработке текстов на 100 ведущих мировых языках, на которых публикуются научные произведения. Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.

Создание и лицензирование РИД

Количество созданных объектов интеллектуальной собственности за 2018–2020 годы — 20 единиц. Количество реализованных лицензий за аналогичный период — 60 единиц.

Консорциум

Консорциум построен на основе представительства организаций разных типов (академических, образовательных, государственных, коммерческих и некоммерческих) в целях учета и гармонизации интересов различных сторон, заинтересованных в формировании, использовании и коммерциализации результатов деятельности Центра. По состоянию на январь 2021 года в консорциум входят 48 организаций.

Научные и образовательные учреждения:

  • Образовательные организации высшего образования: Московский государственный университет имени М.В. Ломоносова, Российский экономический университет имени Г.В. Плеханова, Московский авиационный институт (национальный исследовательский университет), Российский университет транспорта (МИИТ), Самарский национальный исследовательский университет имени академика С.П. Королева, Белгородский государственный национальный исследовательский университет, Ульяновский государственный университет, Тамбовский государственный технический университет, Государственный университет управления, Национальный исследовательский Нижегородский государственный университет имени Н.И. Лобачевского, Тамбовский государственный университет имени Г.Р. Державина, Санкт-Петербургский политехнический университет имени Петра Великого, Удмуртский государственный университет, Московский университет имени С.Ю. Витте, Алтайский государственный университет;

  • Научные организации: Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Институт вычислительной математики имени Г.И. Марчука Российской академии наук, Институт системного программирования имени В.П. Иванникова Российской академии наук, Центральный экономико-математический институт Российской академии наук, Объединенный институт ядерных исследований, Национальный медицинский исследовательский центр здоровья детей Министерства здравоохранения Российской Федерации, Карельский научный центр РАН, Научный центр по комплексным транспортным проблемам Министерства транспорта Российской Федерации.

Партнеры из индустрии:

  • Государственная корпорация по атомной энергии «Росатом», ООО «Мэйл.Ру (Mail.Ru Group)», ООО «1С», ООО «Такском», ООО «АйДесайд Консалтинг», ООО «Постгрес профессиональный», ООО «РАБУС», ЗАО «ЮНИС Лабс Солюшнз», Maxar Technologies (DigitalGlobe), ООО «Визиолоджи», ООО «СОДИС ЛАБ», АО «Антиплагиат», ООО «Антирутина», ООО «Гудфокаст», ООО «Форексис», ООО «Джиарти консалтинг», ООО «Сател», ООО «Астор», ООО «Технологии системного анализа», ООО «Лаборатория информационных технологий», АО «Радиокомпания “Вектор”», ООО «СолидСофт», ООО «Эм энд Ти Прод», ООО «Форсайт Консалтинг Групп».

Иные организации:

  • Некоммерческая организация — АНО «Институт развития информационного общества».

Проекты

Центр реализует восемь приоритетных и ключевых комплексных научно-исследовательских проектов.


Продукт, разрабатываемый в рамках проекта «Предиктивная аналитика технических систем», представляет собой программный комплекс и набор моделей по предиктивной аналитике для прогнозирования отказов оборудования и повышения эффективности производства. Аналитическая платформа способна снижать число простоев и сбоев при производстве, предотвращать отказы оборудования и повышать качество готовой продукции. Потенциальные потребители разработки — производственные и добывающие компании в нефтегазовой, металлургической, энергетической и других отраслях. В 2020 году командой Центра реализованы проекты по предиктивной аналитике для индустриального партнера ПАО «Северсталь»: в частности, проанализировано более 150 различных параметров и разработана модель для раннего оповещения оператора. Определено, что экономическая выгода от внедрения прогностических моделей может составлять до 60–70 млн рублей в год на одном типе оборудования. Команда проекта также занимается предиктивной аналитикой на базе спектроскопии сточных вод.


Проект «Система автоматического поиска уязвимостей в веб-приложениях» нацелен на создание высокотехнологичного программного комплекса для решения задачи автоматического непрерывного обнаружения уязвимостей в веб-приложениях на основе обработки больших данных. Программный комплекс использует анализ больших данных в виде корпуса публичных репозиториев приложений для генерации подсказок для фаззинга (тестирования методом «черного ящика»), кросс-валидации недостатков и отсеивания ложноположительных срабатываний. В 2020 году разработан макет программного комплекса, а также согласованы требования к его пользовательскому интерфейсу и API с индустриальными партнерами проекта.


Проект «Математические основы интеллектуального анализа больших данных» направлен на совершенствование методов, алгоритмов и программных средств интеллектуального анализа данных. Основные цели: развитие и создание новых методов и алгоритмов анализа структурированных и неструктурированных данных; разработка программных средств обработки распределенных данных больших объемов; применение созданных средств при решении прикладных задач. В 2020 году опубликованы четыре научные статьи в авторитетных научных изданиях. Содержание статей отражает результаты исследований, полученные в ходе реализации проекта.


В рамках проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» создается многофункциональная облачная платформа по автоматизированной диагностике болезней грудной клетки. Программное обеспечение позволяет работать с цифровыми рентгеновскими снимками, сделанными на различных аппаратах лучевой диагностики (рентген, КТ, МРТ, УЗ, ПЭТ). Одной из разработок стал сервис «АнтиКорона», который позволяет эффективнее и быстрее диагностировать COVID-19. С помощью алгоритмов искусственного интеллекта система анализирует медицинские рентгеновские изображения на предмет признаков коронавирусной пневмонии и помогает врачу поставить диагноз и сформировать индивидуальный план лечения на основе рекомендаций системы поддержки принятия врачебных решений. Весной 2020 года систему начали тестировать в Телемедицинском консультационном центре на базе Научно-практического клинического центра диагностики и телемедицинских технологий Департамента здравоохранения Москвы. Система постоянно дорабатывается путем непрерывного машинного обучения для повышения надежности и точности результатов.

Другой вариант программного обеспечения — созданный на базе многофункциональной облачной платформы сервис «АнтиКох» — с помощью искусственного интеллекта анализирует цифровые флюорограммы и в течение 0,8 секунды выдает рекомендации с классификацией по вариантам заболевания. Благодаря тому, что «АнтиКох» был выставлен в «облако», доступ к сервису получили врачи всех уровней как нашей страны, так и за рубежом. Сегодня сервисом «АнтиКох» пользуются медучреждения в 53 регионах России, уже обработаны десятки тысяч цифровых флюорограмм. Индустриальный партнер проекта — АО «Радиокомпания "Вектор"» (город Чистополь, Республика Татарстан).


Проект «Средства интеллектуального анализа больших массивов текстов» нацелен на разработку эффективных алгоритмов лингвистического анализа информации на русском и английском языках. Проект предполагает возможность кросс-языковой аналитики текстов: не требуется повторный поиск одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Внедрение решения существенно упростит работу специалистов, работающих с анализом больших объемов текстов, и значительно повысит эффективность патентного и исследовательского поиска. В 2020 году разработан экспериментальный образец программного обеспечения построения семантических описаний лексики текстов на русском и английском языках. Разработаны алгоритмы обучения стеммингу и токенизации для произвольного языка. На основе алгоритмов создан сервис по предварительной обработке текстов на 100 ведущих мировых языках, на которых публикуются научные произведения. Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.


Проект «Новые подходы к проектированию систем считывания для технологии трехмерной оптической памяти с многоуровневым кодированием» ориентирован на разработку программно-аппаратного комплекса, позволяющего производить считывание информации из высокостабильных стеклянных носителей при высокоточном и быстром их сканировании по трем координатам лазерным пучком. Разработки по этому направлению планируется использовать во многих проектах, связанных с большими данными, для сбора и анализа которых необходимо емкое и надежное хранилище. В 2020 году выбрано оптимальное программно-аппаратное решение для реализации быстрого и прецизионного перемещения стеклянных носителей с многоуровневым кодированием оптической информации и зондирующих лазерных лучей. Составлено техническое задание на создание экспериментального образца программно-аппаратного комплекса считывания информации для трехмерной оптической памяти с многоуровневым кодированием.


Проект «Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации» направлен на создание комплексной системы мониторинга технологий работы с большими данными и их стандартизации. Результаты проекта будут использоваться на практике органами власти, корпоративными клиентами и научно-образовательным сообществом. В 2020 году была проведена пилотная реализация системы мониторинга, уточнена концептуальная схема мониторинга, состав показателей и источники сведений для их расчета, подготовлен инструментарий для проведения обследований. Кроме того, была разработана оригинальная модель зрелости BD4DE-MM работы с большими данными в организации и сформулированы требования к онлайновому инструментарию для проведения самооценки уровня зрелости работы с большими данными.

В 2020 году в рамках программы Центра также были разработаны проекты национальных стандартов в области больших данных, в том числе ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь», ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и процесс применения» и ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 5. Дорожная карта стандартов». Проекты национальных стандартов по работе с большими данными основаны на действующих международных стандартах с целью гармонизации национальной стандартизации с передовыми мировыми практиками.


В ходе реализации проекта «Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды» ведется разработка методов и алгоритмов анализа данных для управления развитием колоний гидробионтов и анализа опасных химических веществ в окружающей среде. Разработанные методы анализа данных лягут в основу специального программного комплекса. В 2020 году выполнено описание методов выявления источников загрязнений окружающей среды.


Образовательная деятельность

Обеспеченная деятельностью Центра численность подготовленных специалистов, имеющих высшее образование, по основным образовательным программам высшего образования и дополнительным образовательным программам, в том числе с использованием сетевых форм и дистанционных образовательных технологий, необходимых для разработки и (или) практического использования сквозных технологий НТИ, за 2018–2020 годы составила 1856 человек, из них по программам бакалавриата — 1352 человека, по программам магистратуры — 501 человек, по программам специалитета — 3 человека.

Всего разработано более 30 новых базовых курсов, распределенных по четырем основным направлениям.

  • Первое включает курсы, связанные с аналитикой больших данных. В эту группу в основном входят дисциплины, базирующиеся на алгоритмах и методах теории вероятностей и математической статистики.
  • Второе направление — курсы по хранению больших данных, ориентированные на изучение как основ организации хранения больших данных, так и конкретных современных технологий хранения (MapReduce, Spark и прочие).
  • Направление третьей группы курсов — программная инженерия и информационные технологии. Сюда входят дисциплины, которые связаны с инженерией разработки приложений, предполагающих обработку и анализ больших данных.
  • Четвертая группа – курсы по предметно-ориентированным знаниям, направленные на изучение анализа данных из конкретных предметных областей (медицина, информационная безопасность, государственная безопасность и прочие).

Разработанные курсы применяются в ряде ведущих вузов страны, которые входят в консорциум Центра.

В 2020 году адаптированы под дистанционный формат обучения два учебных курса полного уровня наполнения: «Принципы построения вероятностных моделей в задачах анализа больших данных» и «Прикладные задачи анализа данных».

В 2020 году в Алтайском государственном университете (АлтГУ), вошедшем в консорциум Центра, состоялось открытие Регионального центра компетенций НТИ по аналогичному направлению (технологии хранения и анализа больших данных). В частности, 20 преподавателей и аспирантов АлтГУ, которые заинтересованы в участии в проектах по большим данными, реализуемых опорным вузом региона, прошли курс «Введение в большие данные» в офлайн- и онлайн-режимах. В результате обучения слушатели получили компетенции, необходимые для успешной реализации проектов – как уже запущенных, так и новых, более комплексных.

Команда

  • Академик Игорь Соколов и. о. директора Центра, декан факультета вычислительной математики и кибернетики (ВМК) МГУ, научный руководитель, и. о. директора Национального центра цифровой экономики МГУ,
    +7 (495) 939-30-10,
    isokolov@ipiran.ru

  • Академик Константин Рудаков научный руководитель Центра, руководитель направления НИР и НИОКР — профессор кафедры математических методов прогнозирования факультета ВМК МГУ,
    +7 (499) 135-62-31,
    rudakov@ccas.ru

  • Алексей Белошицкий, заместитель директора Центра,
    +7 (916) 883-84-92,
    alexey.beloshitskiy@digital.msu.ru

  • Сергей Тростьянский, заместитель директора Центра,
    +7 (926) 845-83-04,
    sergey.trostiansky@digital.msu.ru

  • Олег Карасев, к.э.н., соруководитель направления коммерциализации Центра, проректор МГУ,
    +7 (495) 939-30-18,
    k-o-i@yandex.ru

  • Андрей Грунин, соруководитель направления коммерциализации Центра, помощник проректора МГУ,
    +7 (495) 939-12-50,
    grunin@nanolab.phys.msu.ru

  • Игорь Машечкин, д. ф.-м. н., проф., руководитель образовательного направления, заведующий кафедрой интеллектуальных информационных технологий факультета ВМК МГУ ,
    +7 (495) 939-17-89,
    mash@cs.msu.su
  • Владимир Воеводин, д. ф.-м. н., чл.-корр. РАН, руководитель инфраструктурного направления, директор Научно-исследовательского вычислительного центра ,
    +7 (495) 939-17-89,
    voevodin@parallel.ru

  • Татьяна Ершова, к.э.н., руководитель направления развития партнерских отношений, генеральный директор Института развития информационного общества ,
    +7 (903) 720-15-42,
    tatiana.ershova@digital.msu.ru


Контакты


Открытый отбор проектов НТИ

РВК проводит открытый отбор проектов НТИ, нацеленных на экспорт на зарубежные рынки технологических продуктов, разработку прорывных инновационных технологий, создание условий для компаний, работающих на рынках НТИ.

Медиа-центр

Новости проектов | Статьи
14.04.2020
В Центре компетенций НТИ на базе МГУ по направлению «Технологии хранения и анализа больших данных» совместно с Институтом проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН и ООО «Технологии системного анализа» разработана платформа текстовой аналитики на основе интеллектуальных систем сбора и обработки текстов на русском и английском языках.
17.03.2020
В Центре компетенций НТИ на базе МГУ «Технологии хранения и анализа больших данных» разработан проект ПО, которое позволяет осуществлять автоматизированный анализ данных снимков флюорографий, маммографий и кардиограммам на основе искусственного интеллекта с точностью 93%.
Все новости
31.03.2021
Команда MSUBIGDATA Центра компетенций НТИ по технологиям хранения и анализа больших данных на базе МГУ стала победителем онлайн-хакатона Audithon 2021 Счетной палаты РФ, который прошел с 25 по 28 марта. Представители Центра стали лучшими в номинации «Аналитика данных».
Все cтатьи
Место проведения: