23.06.2020
Постиндустриальная экономика строится на данных, информации и знаниях. Часто говорят, что большие данные — это «нефть XXI века». Кибернетика ХХ века научилась обрабатывать однородные массивы числовых данных. Современные информационные системы генерируют потоки разнородных данных, в которых перемешаны числа, тексты, сигналы, транзакции, изображения... Существует ли «универсальная формула» для извлечения полезных знаний из сырых данных? Как построить «цифровой профиль» клиента банка, интернет-магазина или сети продаж, пользователя системы дистанционного образования, цифровой библиотеки или новостного портала?
В Центре компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ работают над проектом «TopicNet», который призван решить эту задачу.
Цифровая вселенная — это данные о различных взаимосвязях и взаимодействиях, регистрируемых компьютерными системами. Пользователь ввел запрос, кликнул на рекламный баннер, приобрел товар, посмотрел видео, прочитал текст, написал комментарий — это всё взаимодействия или, говоря инженерным языком, транзакции. Мы постоянно взаимодействуем с текстами, когда читаем, пишем, ищем в Интернете. Тексты сопровождают буквально каждый предмет, производимый нашей цивилизацией. Совершенствуются технологии, способные переводить изображение или видеоряд в текстовое описание. Да и сам текст — это серия взаимодействий документа со словами. То есть мы имеем целую сеть разнообразных взаимодействий, особую роль в которой играют слова. Они обозначают всё, чем мы пользуемся и что нас окружает. Группируясь вместе, слова образуют темы, которые описывают наши интересы, несут определённые смыслы, позволяют нам коммуницировать и понимать друг друга.
Обрабатывая большие данные о взаимосвязях и взаимодействиях, TopicNet переносит смыслы слов с текстов на предметы и людей. Распространяя смыслы по сети взаимодействий, TopicNet формирует цифровые тематические профили всех объектов и субъектов, вовлеченных в эти взаимодействия. Тематический профиль — это набор тем или интересов с числовыми оценками их важности, а каждая тема — это группа связанных по смыслу слов. В этом суть технологии тематического моделирования. Этим она отличается от нейронных сетей, в которых тоже возникают профили объектов, но их не удается объяснять. Тематические профили объяснимы словами и универсальны. Они позволяют сравнивать любые объекты друг с другом независимо от их природы и находить объекты, схожие по смыслу.
Каковы сферы применения этой технологии? Вот несколько примеров задач, которые TopicNet уже умеет решать на практике.
• Профилировать клиентов банков, финансовых или торговых компаний на основе анализа транзакционных данных.
• Определять потребности клиентов и маршрутизировать обращения клиентов в контактный центр.
• Собирать тематические подборки статей, патентов, документации при поиске научно-технической информации.
• Выделять события, темы, мнения и позиции в новостных потоках.
• Искать похожие судебные решения в базе актов арбитражных судов.
• Подбирать курсы, мероприятия и индивидуальные образовательные траектории в системах дистанционного образования.
• Подбирать подходящие пользователю товары, фильмы, книги, сообщества в рекомендательных системах.
В программы Центров компетенций НТИ входят около 200 проектов по развитию сквозных технологий. РВК оказывает всестороннюю поддержку в их реализации и контролирует выполнение программ Центров.
Смотреть на Facebook
В Центре компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ работают над проектом «TopicNet», который призван решить эту задачу.
Цифровая вселенная — это данные о различных взаимосвязях и взаимодействиях, регистрируемых компьютерными системами. Пользователь ввел запрос, кликнул на рекламный баннер, приобрел товар, посмотрел видео, прочитал текст, написал комментарий — это всё взаимодействия или, говоря инженерным языком, транзакции. Мы постоянно взаимодействуем с текстами, когда читаем, пишем, ищем в Интернете. Тексты сопровождают буквально каждый предмет, производимый нашей цивилизацией. Совершенствуются технологии, способные переводить изображение или видеоряд в текстовое описание. Да и сам текст — это серия взаимодействий документа со словами. То есть мы имеем целую сеть разнообразных взаимодействий, особую роль в которой играют слова. Они обозначают всё, чем мы пользуемся и что нас окружает. Группируясь вместе, слова образуют темы, которые описывают наши интересы, несут определённые смыслы, позволяют нам коммуницировать и понимать друг друга.
Обрабатывая большие данные о взаимосвязях и взаимодействиях, TopicNet переносит смыслы слов с текстов на предметы и людей. Распространяя смыслы по сети взаимодействий, TopicNet формирует цифровые тематические профили всех объектов и субъектов, вовлеченных в эти взаимодействия. Тематический профиль — это набор тем или интересов с числовыми оценками их важности, а каждая тема — это группа связанных по смыслу слов. В этом суть технологии тематического моделирования. Этим она отличается от нейронных сетей, в которых тоже возникают профили объектов, но их не удается объяснять. Тематические профили объяснимы словами и универсальны. Они позволяют сравнивать любые объекты друг с другом независимо от их природы и находить объекты, схожие по смыслу.
Каковы сферы применения этой технологии? Вот несколько примеров задач, которые TopicNet уже умеет решать на практике.
• Профилировать клиентов банков, финансовых или торговых компаний на основе анализа транзакционных данных.
• Определять потребности клиентов и маршрутизировать обращения клиентов в контактный центр.
• Собирать тематические подборки статей, патентов, документации при поиске научно-технической информации.
• Выделять события, темы, мнения и позиции в новостных потоках.
• Искать похожие судебные решения в базе актов арбитражных судов.
• Подбирать курсы, мероприятия и индивидуальные образовательные траектории в системах дистанционного образования.
• Подбирать подходящие пользователю товары, фильмы, книги, сообщества в рекомендательных системах.
В программы Центров компетенций НТИ входят около 200 проектов по развитию сквозных технологий. РВК оказывает всестороннюю поддержку в их реализации и контролирует выполнение программ Центров.
