08.11.2019
В рубрике «Технологические фронтиры» еще одна сквозная технология НТИ — машинное обучение. Этот модный термин сегодня приложим, кажется, к любому процессу. Стоит разобраться, где на самом деле можно применять машинное обучение и как оно работает.
Машинное обучение, или machine learning по-английски, — это большой класс методов искусственного интеллекта, необходимых для автоматизированного извлечения и анализа новых знаний непосредственно из данных. В простейшем случае к таким знаниям относятся закономерности, которые машина обнаруживает при помощи различных алгоритмов, и описывает их в форме математических моделей. На основе таких моделей можно делать прогнозы и оптимизировать различные процессы.
Когда всё началось? Еще в 1950-х годах появились первые автоматические системы, которые с помощью алгоритмов искали закономерности в статистических данных, оценивали близость точек в пространстве и вычисляли направления. Такие алгоритмы относятся к методам классического обучения. Именно они сегодня рекомендуют вам фильмы, статьи, подбирают товары, не дают спаму попасть в вашу почту. Эти алгоритмы работают отлично, но пока неидеально. Классическая история, когда после покупки автомобиля реклама еще пару месяцев предлагает разные модели авто вместо того, чтобы предложить, например, зимнюю резину. Поэтому исследователи по всему миру постоянно ищут новые методы поиска закономерностей и их описания в виде моделей, которые могут быть представлены не только традиционными формулами, но и другими способами (например, системами правил, графами и пр.).
Что нужно для машинного обучения? В первую очередь — входные данные: чем они насыщеннее и объемнее, тем точнее результат. Собираются данные самыми разными способами — от ручного отбора экспертами до «слива» в машину всего, что есть, без разбора. Датасеты (наборы данных) могут содержать самые разнообразные данные — цифры, звуки, картинки, лайки пользователей. Датасеты — ценный товар, поэтому компании редко их раскрывают. Также для обучения понадобится задать какие-то признаки — что именно из датасета использовать машине (например, частоту определенных слов в письмах и их эмоциональный тон). Если признаков слишком много и они малоинформативны, результат обучения может быть плохим. Важен также сам алгоритм установления связей, то есть метод машинного обучения.
Методы машинного обучения можно поделить на четыре больших группы:
✅ классическое обучение с учителем и без
✅ обучение с подкреплением
✅ ансамблевые методы
✅ нейросети и глубокое обучение.
Классическое обучение по-прежнему широко применяется в ситуациях, когда есть понятные данные с простыми признаками. Если данных нет, но есть некая среда, из которой их можно получить (например, робот-пылесос в квартире), то применяется обучение с подкреплением. Ансамбли применяются там же, где и классика, но находят закономерности гораздо точнее. Идея ансамблей в том, чтобы взять несколько не слишком эффективных методов и заставить их исправлять ошибки друг друга. Нейросети конкурируют с ансамблями и используются, когда данные совсем разрозненные (миллионы картинок из интернета) и не совсем понятно, что из них можно получить.
По направлению «Технологии машинного обучения и когнитивные технологии» в рамках НТИ работает Центр компетенций на базе Университета ИТМО. В планах Центра — в ближайшем будущем разработать технологии, которые позволят на основе разнородных данных строить и использовать цифровые личности клиентов банков и других финансовых организаций, цифровые модели города, создавать и интерпретировать предсказательные модели цифровой клиники, а также запустить цифровую платформу метаобучения интеллектуальных моделей на основе промышленных больших данных.
Подробнее о Центре компетенций НТИ и его проектах можно узнать по ссылке:
https://www.rvc.ru/eco/overcoming_technological_barriers/competence_centers_nti/144109/
С 5 по 7 декабря в Сочи пройдет форум «Глобальное технологическое лидерство», который посвящен внедрению передовых сквозных технологий в высокотехнологичных отраслях и развитию инновационной экосистемы государства.
Подробнее о форуме: https://techleaders.ru/
Смотреть на Facebook
Машинное обучение, или machine learning по-английски, — это большой класс методов искусственного интеллекта, необходимых для автоматизированного извлечения и анализа новых знаний непосредственно из данных. В простейшем случае к таким знаниям относятся закономерности, которые машина обнаруживает при помощи различных алгоритмов, и описывает их в форме математических моделей. На основе таких моделей можно делать прогнозы и оптимизировать различные процессы.
Когда всё началось? Еще в 1950-х годах появились первые автоматические системы, которые с помощью алгоритмов искали закономерности в статистических данных, оценивали близость точек в пространстве и вычисляли направления. Такие алгоритмы относятся к методам классического обучения. Именно они сегодня рекомендуют вам фильмы, статьи, подбирают товары, не дают спаму попасть в вашу почту. Эти алгоритмы работают отлично, но пока неидеально. Классическая история, когда после покупки автомобиля реклама еще пару месяцев предлагает разные модели авто вместо того, чтобы предложить, например, зимнюю резину. Поэтому исследователи по всему миру постоянно ищут новые методы поиска закономерностей и их описания в виде моделей, которые могут быть представлены не только традиционными формулами, но и другими способами (например, системами правил, графами и пр.).
Что нужно для машинного обучения? В первую очередь — входные данные: чем они насыщеннее и объемнее, тем точнее результат. Собираются данные самыми разными способами — от ручного отбора экспертами до «слива» в машину всего, что есть, без разбора. Датасеты (наборы данных) могут содержать самые разнообразные данные — цифры, звуки, картинки, лайки пользователей. Датасеты — ценный товар, поэтому компании редко их раскрывают. Также для обучения понадобится задать какие-то признаки — что именно из датасета использовать машине (например, частоту определенных слов в письмах и их эмоциональный тон). Если признаков слишком много и они малоинформативны, результат обучения может быть плохим. Важен также сам алгоритм установления связей, то есть метод машинного обучения.
Методы машинного обучения можно поделить на четыре больших группы:
✅ классическое обучение с учителем и без
✅ обучение с подкреплением
✅ ансамблевые методы
✅ нейросети и глубокое обучение.
Классическое обучение по-прежнему широко применяется в ситуациях, когда есть понятные данные с простыми признаками. Если данных нет, но есть некая среда, из которой их можно получить (например, робот-пылесос в квартире), то применяется обучение с подкреплением. Ансамбли применяются там же, где и классика, но находят закономерности гораздо точнее. Идея ансамблей в том, чтобы взять несколько не слишком эффективных методов и заставить их исправлять ошибки друг друга. Нейросети конкурируют с ансамблями и используются, когда данные совсем разрозненные (миллионы картинок из интернета) и не совсем понятно, что из них можно получить.
По направлению «Технологии машинного обучения и когнитивные технологии» в рамках НТИ работает Центр компетенций на базе Университета ИТМО. В планах Центра — в ближайшем будущем разработать технологии, которые позволят на основе разнородных данных строить и использовать цифровые личности клиентов банков и других финансовых организаций, цифровые модели города, создавать и интерпретировать предсказательные модели цифровой клиники, а также запустить цифровую платформу метаобучения интеллектуальных моделей на основе промышленных больших данных.
Подробнее о Центре компетенций НТИ и его проектах можно узнать по ссылке:
https://www.rvc.ru/eco/overcoming_technological_barriers/competence_centers_nti/144109/
С 5 по 7 декабря в Сочи пройдет форум «Глобальное технологическое лидерство», который посвящен внедрению передовых сквозных технологий в высокотехнологичных отраслях и развитию инновационной экосистемы государства.
Подробнее о форуме: https://techleaders.ru/
