24.11.2020
Как быстро собрать информацию по интересующей теме, которая есть на разных языках? — Алгоритм компании «Антиплагиат» ищет тематически близкие документы вне зависимости от того, на каком языке они написаны.
В декабре 2019 года проект по пан-языковому анализу текстов на естественных языках стал победителем конкурсного отбора компаний-лидеров в рамках национальной программы «Цифровая экономика РФ», оператором которого выступила РВК.
В конце октября 2020 года компания завершила важный этап проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках». Это значит, что алгоритм сможет определять тематику документа на произвольном языке.
Анализируя большой поток документов, система «Антиплагиат» сможет выделять статьи, посвященные исследованиям, например, литий-ионных аккумуляторов, на английском, французском, русском, китайском и даже фарси.
Работа велась специалистами Лаборатории машинного интеллекта МФТИ.
«Нам удалось построить сотрудничество с ведущей командой в области тематического моделирования в мире и в самые сжатые сроки получить промышленное решение, не имеющее аналогов в мире», — говорит исполнительный директор компании Антиплагиат Юрий Чехович.
Исследовательская группа дала старт проекту с открытым кодом BigARTM в 2014 году. На сегодняшний день это самая быстрая в мире свободно доступная библиотека тематического моделирования, позволяющая обрабатывать миллионы документов. Недавно лаборатория выпустила еще одну открытую библиотеку — TopicNet, которая расширяет возможности BigARTM, делая ее более доступной и удобной.
«Проект интересен тем, что приходится работать с сотней языков, но при этом в команде нет ни одного лингвиста. Современные технологии позволяют делать то, что ещё десять лет назад представлялось чудом», — говорит Руководитель Лаборатории машинного интеллекта МФТИ профессор РАН Константин Воронцов.
«Антиплагиат» и Лаборатория машинного интеллекта МФТИ продолжат сотрудничество в рамках реализации проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках».
Смотреть на Facebook
В декабре 2019 года проект по пан-языковому анализу текстов на естественных языках стал победителем конкурсного отбора компаний-лидеров в рамках национальной программы «Цифровая экономика РФ», оператором которого выступила РВК.
В конце октября 2020 года компания завершила важный этап проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках». Это значит, что алгоритм сможет определять тематику документа на произвольном языке.
Анализируя большой поток документов, система «Антиплагиат» сможет выделять статьи, посвященные исследованиям, например, литий-ионных аккумуляторов, на английском, французском, русском, китайском и даже фарси.
Работа велась специалистами Лаборатории машинного интеллекта МФТИ.
«Нам удалось построить сотрудничество с ведущей командой в области тематического моделирования в мире и в самые сжатые сроки получить промышленное решение, не имеющее аналогов в мире», — говорит исполнительный директор компании Антиплагиат Юрий Чехович.
Исследовательская группа дала старт проекту с открытым кодом BigARTM в 2014 году. На сегодняшний день это самая быстрая в мире свободно доступная библиотека тематического моделирования, позволяющая обрабатывать миллионы документов. Недавно лаборатория выпустила еще одну открытую библиотеку — TopicNet, которая расширяет возможности BigARTM, делая ее более доступной и удобной.
«Проект интересен тем, что приходится работать с сотней языков, но при этом в команде нет ни одного лингвиста. Современные технологии позволяют делать то, что ещё десять лет назад представлялось чудом», — говорит Руководитель Лаборатории машинного интеллекта МФТИ профессор РАН Константин Воронцов.
«Антиплагиат» и Лаборатория машинного интеллекта МФТИ продолжат сотрудничество в рамках реализации проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках».
