Государственный фонд фондов
Институт развития Российской Федерации

Объявления

Открытый запрос предложений на конкурс создания интеллектуального сервиса сбора фактов в архивах Национальной электронной библиотеки на основе алгоритмов глубокого машинного обучения («Нейропоиск»)

13.03.2017

В рамках направления «Нейроассистенты» «дорожной карты» «Нейронет» (далее — ДК «Нейронет») (Приложение 1) предлагается реализовать проект создания интеллектуальный сервис сбора фактов в архивах Национальной электронной библиотеки на основе алгоритмов глубокого машинного обучения (далее — «Нейропоиск»)*.

В частности целями проекта являются:

  • создание сервиса быстрого интерактивного сбора фактов для качественного повышения эффективности исследовательской работы;
  • создание сервиса поиска экспертов по любой тематике по их реальному профилю экспертизы;
  • внедрение созданных сервисов в Национальной электронной библиотеке.

Идея проекта и подход к его реализации: сервис сбора фактов призван помочь студентам, исследователям и аналитикам быстро собирать подборки фактов по любому вопросу в больших массивах документов. Существующие поисковые сервисы не решают этой задачи, т. к. обычно находят такое количество документов, которое пользователи физически не в состоянии прочитать.

Данный проект предлагает пользователям Национальной электронной библиотека (далее — НЭБ) помощь интеллектуальных агентов, способных мгновенно собирать из ее архивов подборки фактов в соответствии с текущим интересом пользователей. Те же агенты должны уметь находить не только факты, но и пользователей, которые их собирают. Т. е. агенты должны уметь перенаправлять любой вопрос пользователя тем, кто реально способен на него ответить.

Таким образом, интеллектуальный поисковый сервис должен:

  • базироваться на технологии индексации смысла фактов;
  • уметь автоматически составлять тезаурус и онтологию для всех предметных областей, представленных в архивах НЭБ;
  • обновлять свои семантические индексы и расширять предметные онтологии по мере поступления в НЭБ новых материалов в режиме постоянного до-обучения.

Предполагаемые результаты проекта: результатом проекта должен стать программный комплекс, способный в интерактивном режиме:

  • выявлять интересы пользователей НЭБ;
  • предоставлять им подборки интересующих их фактов;
  • перенаправлять их вопросы к «экспертному сообществу» пользователям НЭБ с наибольшим количеством собранных по данной проблеме фактов.

Ожидаемый эффект и ценность для НТИ: разработанные технологии индексации и поиска фактической информации в больших архивах документов могут стать основой большого числа интеллектуальных «вертикальных» поисковых сервисов:

  • в наукоемких областях науки (таких, как медицина и фармацевтика);
  • для маркетинговых и патентных исследований;
  • для юристов, журналистов, служб безопасности и т. д.

Данный проект направлен на преодоление важного технологического барьера — автоматической обработки больших массивов документов, основанной на понимании смысла текстовой информации (natural language understanding).

В проекте должны быть разработаны алгоритмы кодирования смысла фактов на любом естественном языке в любой предметной области методами машинного обучения «без учителя». Т. е. разработанные технологии машинного обучения языку не должны использовать никаких априорных экспертных знаний (словарей, тезаурусов, грамматик).

Результаты проекта смогут послужить основой для создания конкурентоспособных на мировом рынке «вертикальных» поисково-аналитических сервисов.

Общее краткое описание ключевых технических условий и требований к проекту: интеллектуальный сервис сбора фактов должен опираться на:

  • алгоритмы компактной индексации смыслов фраз и предложений любого языка, как основы семантического поиска;
  • алгоритмы выявления интересов пользователя «на лету» в ходе поисковой сессии, как основа агентского сервиса;
  • алгоритмы глубокого обучения любому языку с нуля, «без учителя» (unsupervised learning), т. е. без использования априорных экспертных знаний (словарей, тезаурусов, грамматик).

Обучение новому языку (новой предметной области) с нуля на текстовом массиве объемом не менее 5 Гбайт должно занимать не более суток на однопроцессорном сервере без использования специализированных ускорителей.

Скорость семантической индексации новой информации должна быть не меньше 1 Гбайт/час на однопроцессорном сервере без использования специализированных ускорителей.

Оценка сроков реализации проекта: работающий прототип сервиса с минимальной функциональностью должен быть создан в течение 6 месяцев после подписания Договора и получения финансирования.

В полном объеме сервис должен быть создан в течение 24 месяцев после подписания Договора и получения финансирования.

Форма подачи предложений: предложения принимаются в свободной форме, приведенные шаблоны являются ориентиром для последующего описания проекта при подготовки далее конкурсной заявки (шаблон описания проекта (Приложение 2)), рекомендуется отразить в предложении по открытому запросу вопросы, определяемые требованиями Методических указаний (Приложение 3).

Срок подачи предложений: До 30 марта 2017 года.

Адрес для подачи предложений и вопросов: Разработанные согласно шаблону предложения, а также уточняющие вопросы следует направить по адресу: konkurs@nti2035.ru с темой письма «Проект «Нейропоиск». По результатам полученных предложений возможна организация встреч с представителями РВК для детального обсуждения.

На базе собранных предложений планируется формирование требований к проекту и оказание государственной поддержки по его реализации в размере до 70% от общего бюджета. Результаты, полученные в рамках проекта, будут полностью принадлежать исполнителю.

*Данное предложение не является офертой и не ведет к заключению договоров по результатам сбора предложений по данному проекту, не создает преференций при проведении конкурсных процедур (конкурентных переговоров, запросов коммерческих предложений). Консультации являются добровольными и направлены на развитие инновационно-венчурной экосистемы. АО «РВК» оставляет за собой право провести оценку полученных предложений, использовать эти материалы при подготовке конкурсной документации и заранее информирует участников процесса о том, что не все рекомендации из предложений могут быть реализованы.





Место проведения: