Новости

«Антиплагиат» разработал модуль для обнаружения переводных заимствований в текстах на 100 языках

20.10.2020

Компания «Антиплагиат» разработала и запустила тестирование специализированного модуля для обнаружения переводных заимствований в текстах на ста самых распространенных языках мира. В декабре 2019 года проект компании по пан-языковому анализу текстов на естественных языках стал победителем конкурсного отбора компаний-лидеров в рамках национальной программы «Цифровая экономика РФ», оператором которого выступила РВК.

В последние годы системы машинного перевода вышли на новый уровень и стали постоянным помощником ученых и студентов. Вместе с тем, серьезно выросло количество попыток выдать переводной текст за оригинальный. Такие попытки не ограничиваются очевидным направлением перевода с английского на национальный. Регулярно обнаруживаются переводы с русского на национальные языки стран СНГ. Кроме того, «донорами» могу выступать и другие языки: китайский, немецкий, французский и т.д.

Стратегическая цель разработки «Антиплагиат» — сделать так, чтобы система обнаруживала заимствования вне зависимости от того, с какого на какой язык был осуществлен перевод, а также от того, сделан он человеком или выполнен машинным переводчиком. При том, что в мире ведется достаточно много исследований в этой области, большей частью они не ориентированы на получение решений, способных работать в условиях высоких нагрузок, то есть обрабатывать сотни документов в минуту, при сопоставлении их с многомиллионными коллекциями потенциальных источников. 

«Мы подошли к завершению исследования новейших технологий мультиязычной векторизации текстовых фрагментов. Современные алгоритмы машинного обучения позволят сравнивать смысловое содержание текстов на ста языках без промежуточного этапа перевода. В частности, это семейство подходов на основе BERT — наиболее обсуждаемая сейчас в NLP-сообществе тема. Исследовательская группа нашей компании начала активно следить за разработками в этом направлении с 2017 года, что позволило разработать модуль сравнения текстов на ста языках и запустить активную фазу его испытаний уже сейчас», — прокомментировал Юрий Чехович, исполнительный директор «Антиплагиат».

Испытания новой функциональности будут проводиться в том числе и в промышленном окружении на реальных документах реальных пользователей в конце 2020 и в 2021 году. На первом этапе алгоритмы настроены на максимизацию точности, чтобы не доставлять неудобства пользователям ложноположительными сигналами. Затем настройки алгоритмов будут финализированы уже с учетом результатов тестирования. Такой подход позволит постепенно расширять полноту поиска, сохраняя при этом высокий уровень точности обнаружения заимствований.



Справочная информация

О РВК

РВК — государственный фонд фондов, институт развития венчурной отрасли Российской Федерации. Основные цели деятельности АО «РВК»: стимулирование создания в России собственной индустрии венчурного инвестирования и исполнение функций Проектного офиса Национальной технологической инициативы (НТИ). Уставный капитал АО «РВК» составляет более 30 млрд руб. 100% капитала РВК принадлежит Российской Федерации в лице Федерального агентства по управлению государственным имуществом Российской Федерации (Росимущество). Общее количество фондов, сформированных АО «РВК», достигло 29, их суммарный размер — 64,4 млрд руб. Доля АО «РВК» — 38 млрд руб. Фонды с участием капитала АО «РВК» проинвестировали более 290 портфельных компаний на общую сумму 23 млрд руб.
www.rvc.ru

Место проведения: