Media Review

Опубликованы датасеты конкурса Up Great ПРО//ЧТЕНИЕ на русском языке

© Depositphotos / racorn

На сайте конкурса ПРО//ЧТЕНИЕ размещены первые наборы текстовых эссе на русском языке для использования участниками конкурса при подготовке решений в области анализа текстов с использованием искусственного интеллекта, сообщает пресс-служба Российской венчурной компании.

Технологический конкурс Up Great ПРО//ЧТЕНИЕ направлен на разработку ИИ-решений, способных находить смысловые, логические и фактические ошибки в текстах на естественном языке. Для победы искусственный интеллект должен будет справиться с этой задачей не хуже, чем человек.

На данный момент датасет содержит более 200 текстов, в дальнейшем для его расширения планируется задействовать механизм краудсорсинга: учителя и преподаватели смогут самостоятельно загружать тексты для обучения ИИ на открытую платформу. В течение срока проведения конкурса планируется увеличить датасет до 20 тысяч текстов.

Датасет включает как неразмеченную, так и обучающую выборки текстов. Неразмеченная выборка содержит текстовые эссе в исходном виде по русскому языку и литературе, истории, обществознанию, написанные учащимися при подготовке к экзаменам в средней школе и на старших курсах вузов, без исправлений преподавателями. Обучающая выборка включает тексты из неразмеченной выборки, уже проверенные несколькими профильными преподавателями-экспертами.

«На настоящий момент выборка очень небольшая. Нескольких сотен размеченных файлов, безусловно, недостаточно для обучения ИИ участников конкурса для решения задачи на достаточно хорошем уровне. Поэтому мы планируем в течение всего конкурса добавлять в нее новые документы, а также запустить краудсорс, который позволит создать датасет в десятки и даже сотни тысяч размеченных работ», — привели в пресс-службе комментарий директора по развитию технологических конкурсов Up Great Юрия Молодых .

По его словам, планируется еще до окончания конкурса запустить цифровую платформу, на которой учителя смогут проверять работы школьников в рамках образовательного процесса.

«На первом этапе это будет обычная ручная проверка, перенесенная в цифровую среду, но по мере появления достаточно хороших решений ИИ будет брать на себя выявление некоторых типов ошибок, облегчая работу учителей еще до того момента, как у конкурса появится победитель», — пояснил Молодых.

Также планируется к публикации еще одна текстовая выборка, которая будет содержать тексты со скрытой от участников конкурса разметкой, выполненной преподавателями.

«Проверяя, то есть размечая такие тексты, участники смогут в любой момент сравнить при помощи алгоритма платформы конкурса, насколько их проверка совпала с проверкой профессиональным преподавателем», — говорится в сообщении.

Конкурс ПРО//ЧТЕНИЕ проходит в несколько этапов и продлится до конца 2022 года. Испытания будут проходить регулярно до тех пор, пока одна из команд не покажет результат, превосходящий способности человека. В ходе соревнований решения участников должны будут проанализировать и найти ошибки в нескольких сотнях эссе, при этом решение по каждому тексту ИИ должен принять не более чем за 30 секунд. Первые испытания запланированы на ноябрь 2020 года. Соревнования будут организованы отдельно для текстов на русском и английском языках. Призовой фонд каждого конкурса составит по 100 миллионов рублей.

Оператором конкурса выступает Российская венчурная компания. Соорганизаторы — Фонд «Сколково» и АСИ. Технический партнер конкурса — Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ.


Место проведения: