Центр реализует восемь приоритетных и ключевых комплексных научно-исследовательских проектов.
Продукт, разрабатываемый в рамках проекта «Предиктивная аналитика технических систем», представляет собой программный комплекс и набор моделей по предиктивной аналитике для прогнозирования отказов оборудования и повышения эффективности производства. Аналитическая платформа способна снижать число простоев и сбоев при производстве, предотвращать отказы оборудования и повышать качество готовой продукции. Потенциальные потребители разработки — производственные и добывающие компании в нефтегазовой, металлургической, энергетической и других отраслях. В 2020 году командой Центра реализованы проекты по предиктивной аналитике для индустриального партнера ПАО «Северсталь»: в частности, проанализировано более 150 различных параметров и разработана модель для раннего оповещения оператора. Определено, что экономическая выгода от внедрения прогностических моделей может составлять до 60–70 млн рублей в год на одном типе оборудования. Команда проекта также занимается предиктивной аналитикой на базе спектроскопии сточных вод.
Проект «Система автоматического поиска уязвимостей в веб-приложениях» нацелен на создание высокотехнологичного программного комплекса для решения задачи автоматического непрерывного обнаружения уязвимостей в веб-приложениях на основе обработки больших данных. Программный комплекс использует анализ больших данных в виде корпуса публичных репозиториев приложений для генерации подсказок для фаззинга (тестирования методом «черного ящика»), кросс-валидации недостатков и отсеивания ложноположительных срабатываний. В 2020 году разработан макет программного комплекса, а также согласованы требования к его пользовательскому интерфейсу и API с индустриальными партнерами проекта.
Проект «Математические основы интеллектуального анализа больших данных» направлен на совершенствование методов, алгоритмов и программных средств интеллектуального анализа данных. Основные цели: развитие и создание новых методов и алгоритмов анализа структурированных и неструктурированных данных; разработка программных средств обработки распределенных данных больших объемов; применение созданных средств при решении прикладных задач. В 2020 году опубликованы четыре научные статьи в авторитетных научных изданиях. Содержание статей отражает результаты исследований, полученные в ходе реализации проекта.
В рамках проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» создается многофункциональная облачная платформа по автоматизированной диагностике болезней грудной клетки. Программное обеспечение позволяет работать с цифровыми рентгеновскими снимками, сделанными на различных аппаратах лучевой диагностики (рентген, КТ, МРТ, УЗ, ПЭТ). Одной из разработок стал сервис «АнтиКорона», который позволяет эффективнее и быстрее диагностировать COVID-19. С помощью алгоритмов искусственного интеллекта система анализирует медицинские рентгеновские изображения на предмет признаков коронавирусной пневмонии и помогает врачу поставить диагноз и сформировать индивидуальный план лечения на основе рекомендаций системы поддержки принятия врачебных решений. Весной 2020 года систему начали тестировать в Телемедицинском консультационном центре на базе Научно-практического клинического центра диагностики и телемедицинских технологий Департамента здравоохранения Москвы. Система постоянно дорабатывается путем непрерывного машинного обучения для повышения надежности и точности результатов.
Другой вариант программного обеспечения — созданный на базе многофункциональной облачной платформы сервис «АнтиКох» — с помощью искусственного интеллекта анализирует цифровые флюорограммы и в течение 0,8 секунды выдает рекомендации с классификацией по вариантам заболевания. Благодаря тому, что «АнтиКох» был выставлен в «облако», доступ к сервису получили врачи всех уровней как нашей страны, так и за рубежом. Сегодня сервисом «АнтиКох» пользуются медучреждения в 53 регионах России, уже обработаны десятки тысяч цифровых флюорограмм. Индустриальный партнер проекта — АО «Радиокомпания "Вектор"» (город Чистополь, Республика Татарстан).
Проект «Средства интеллектуального анализа больших массивов текстов» нацелен на разработку эффективных алгоритмов лингвистического анализа информации на русском и английском языках. Проект предполагает возможность кросс-языковой аналитики текстов: не требуется повторный поиск одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Внедрение решения существенно упростит работу специалистов, работающих с анализом больших объемов текстов, и значительно повысит эффективность патентного и исследовательского поиска. В 2020 году разработан экспериментальный образец программного обеспечения построения семантических описаний лексики текстов на русском и английском языках. Разработаны алгоритмы обучения стеммингу и токенизации для произвольного языка. На основе алгоритмов создан сервис по предварительной обработке текстов на 100 ведущих мировых языках, на которых публикуются научные произведения. Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.
Проект «Новые подходы к проектированию систем считывания для технологии трехмерной оптической памяти с многоуровневым кодированием» ориентирован на разработку программно-аппаратного комплекса, позволяющего производить считывание информации из высокостабильных стеклянных носителей при высокоточном и быстром их сканировании по трем координатам лазерным пучком. Разработки по этому направлению планируется использовать во многих проектах, связанных с большими данными, для сбора и анализа которых необходимо емкое и надежное хранилище. В 2020 году выбрано оптимальное программно-аппаратное решение для реализации быстрого и прецизионного перемещения стеклянных носителей с многоуровневым кодированием оптической информации и зондирующих лазерных лучей. Составлено техническое задание на создание экспериментального образца программно-аппаратного комплекса считывания информации для трехмерной оптической памяти с многоуровневым кодированием.
Проект «Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации» направлен на создание комплексной системы мониторинга технологий работы с большими данными и их стандартизации. Результаты проекта будут использоваться на практике органами власти, корпоративными клиентами и научно-образовательным сообществом. В 2020 году была проведена пилотная реализация системы мониторинга, уточнена концептуальная схема мониторинга, состав показателей и источники сведений для их расчета, подготовлен инструментарий для проведения обследований. Кроме того, была разработана оригинальная модель зрелости BD4DE-MM работы с большими данными в организации и сформулированы требования к онлайновому инструментарию для проведения самооценки уровня зрелости работы с большими данными.
В 2020 году в рамках программы Центра также были разработаны
проекты национальных стандартов в области больших данных, в том числе ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь», ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и процесс применения» и ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 5. Дорожная карта стандартов». Проекты национальных стандартов по работе с большими данными основаны на действующих международных стандартах с целью гармонизации национальной стандартизации с передовыми мировыми практиками.
В ходе реализации проекта «Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды» ведется разработка методов и алгоритмов анализа данных для управления развитием колоний гидробионтов и анализа опасных химических веществ в окружающей среде. Разработанные методы анализа данных лягут в основу специального программного комплекса. В 2020 году выполнено описание методов выявления источников загрязнений окружающей среды.