Митасов Андрей Павлович :
другие произведения.
Металоция неведомого. Модуль Р. Роботы
Самиздат:
[
Регистрация
] [
Найти
] [
Рейтинги
] [
Обсуждения
] [
Новинки
] [
Обзоры
] [
Помощь
|
Техвопросы
]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
Юридические услуги.
Круглосуточно
Комментарии: 1, последний от 12/01/2024.
© Copyright
Митасов Андрей Павлович
(
apm@tut.by
)
Размещен: 12/01/2024, изменен: 02/02/2025. 754k.
Статистика.
Эссе
:
Философия
,
Естествознание
,
Изобретательство
Металоция неведомого
Иллюстрации/приложения: 13 шт.
Скачать
FB2
Ваша оценка:
не читать
очень плохо
плохо
посредственно
терпимо
не читал
нормально
хорошая книга
отличная книга
великолепно
шедевр
Аннотация:
Выжимка информации из Инета по "обучению с подкреплением".
Предварительный анализ.
Крайнее изменение 02.02.2025
"... И все же программный конструкт, в отличие от слов поэта,
реален в том смысле, что он движется и работает,
производя видимые результаты, отличные от него самого.
Он печатает результаты, рисует картинки, издает звуки,
двигает манипуляторами.
В наше время волшебство мифов и легенд стало реальностью.
Стоит набрать правильное заклинание на клавиатуре,
и экран дисплея оживает,
показывая вещи, которых никогда не было
и не могло быть."
Фредерик Брукс - "Мифический человеко-месяц".
Оглавление:
Вместо предисловия.
Введение в "обучение с подкреплением".
Еще одно введение в "обучение с подкреплением".
Терминология "обучения с подкреплением".
"Обучение с подкреплением" для "чайников".
Проблемы обучения с подкреплением.
Классическое изложение обучения с подкреплением.
Комментарии Bing к "краеугольным постулатам" RL.
Немного информации о лидере в области обучении AI-агентов играм.
"Конституция роботов" и констатация реальной ситуации.
ИИ-системы осваивают классическую геометрию.
На пути к ИИ общего назначения - взгляд пятилетней давности.
ROS - Robot Operating System.
Обучение в воображении.
Метод Policy Gradient для "чайников".
Model-Based алгоритм для "чайников".
Обучение в воображении для настоящих "героев-отморозков".
Немного о будущем робототехники.
Следующий раунд вопросов к Copilot.
Обучение с подкреплением" в больших языковых системах.
И снова о "классическом образовании" в RL.
Практические проблемы уравнения Беллмана.
От глубокого обучения к глубокому мышлению.
DeepSeek-вариации на тему PPO.
Иллюстрации:
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 2.1".
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 2.2".
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 3.0".
"Иерархическое обучение" от Copilot.
Тральщик "Наставник" от "Модели Kandinsky 3.1".
"Реализация чистой reward function" от Copilot.
Каравелла "Copilot" от "Модели Kandinsky 3.1".
=========
07.12.2023 12:29
Вместо предисловия.
В оглавление.
Прошедший 2023 год можно смело называть годом
больших языковых моделей (LLM) и мультимодальных моделей (MMLM).
В основе большинства успешных LLM лежит технология трансформеров
и обучение методом обратного распространения ошибки.
В основе многих успешных MMLM лежит обучение методом диффузии.
Но этими успешными подходами не ограничивает мир "машинного обучения".
По некоторым прогнозам 2024 год станет годом прорыва в "обучении с подкреплением",
ориентированное в основном на разработку умных роботов,
которое в прошлом году было несколько "в тени"
на фоне блистательного успеха самых разных ГПТэшек и мультимоделей.
И под этим оптимизмом есть определенные основания.
Например, такие:
"Google DeepMind сумела запустить когнитивную эволюцию роботов".
Автор: Корректор
https://aftershock.news/?q=node/1319135
.
6/Дек/23 09:49
Поэтому, чтобы "держать руку на пульсе", появилась мысль,
что стоит завести отдельный модуль,
в котором можно собрать и архивные и свежие материалы на эту тему,
и попытаться как-то их проанализировать.
Кроме того при первом же ознакомлении с этой темой,
выяснилось, что многие идеи/концепции/конструкции в этой области могут иметь
интересные перспективы/варианты применения и в других областях
"машинного обучения", включая и языковые модели и обработку текстов,
на которые в предыдущем году в основном и был ориентирован проект "Металоция".
Кроме того, частично "обучение с подкреплением" используется
и в ГПТэшках и в ММшэках в "выходных фильтрах" этих систем,
для целого ряда задач, и это тоже представляет определенный интерес.
"Обучение с подкреплением" (Reinforcement Learning) (RL)
вообще говоря это достаточно "специфическая" часть нейронаук,
которая возникла и оформилась одной из первых,
и в какой-то мере может считаться "элитарной" частью всего "машинного обучения".
Причина в том, что в основе ее подходов лежит существующее понимание того,
каким образом может/должно возникать сложное поведение в результате
эволюционного развития "аппарата управления" в результате
длительного и целенаправленного обучения не на примерах,
а на взаимодействии со сложной средой
и оценкой собственных действий при этом взаимодействии.
Основоположникам и последователям этого подхода представляется,
что это наиболее короткий путь к созданию общего и сильного ИИ.
Причем эта уверенность иногда достигает такой степени,
что на основе идей "обучения с подкреплением"
строятся даже мировоззренческие концепции и картины Мира, см. например:
"Теория познания, основанная на поведенческих моделях".
Автор: Kilorad
https://habr.com/ru/articles/562560/
13 июн 2021 в 14:36
Надо признать, что освоение "обучения с подкреплением"
дело достаточно трудоемкое и не очень простое.
В этой области сформировался целый корпус свои терминов, подходов, решений,
стандартных задач, метрик, статистик и т.д. и т.п.,
что по первоначалу кажется, что это вообще какая-то новая "terra incognita",
не имеющая связи с "большой землей" ни языковых, ни генеративных ИИ-моделей.
Но это не совсем так, и даже если по первоначалу такое ощущение очень стойкое,
то мере раскапывания материалов какие-то общие точки постепенно находятся,
хотя еще раз надо подчеркнуть, это действительно иная и обширная область
"машинного обучения".
Вот, собственно, и все предисловие.
А теперь можно приступать к процессу "поедания слоника маленькими частями".
======
01.01.2024 15:39
Введение в "обучение с подкреплением".
В оглавление.
Введений в "обучение с подкреплением" достаточно много,
но мне представляется лучше начать с наиболее простого в части изложения:
"Введение в обучение с подкреплением:
от многорукого бандита до полноценного RL агента"
Автор: a-pichugin (Артем Пичугин)
https://habr.com/ru/companies/newprolab/articles/343834/
.
4 дек 2017 в 13:23
Автор оригинала: Arthur Juliani
https://medium.com/@awjuliani/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149
Постарался по максимуму вырезать пока не очень понятные слова,
оставив только самую суть.
//// Начало цитирования.
........
Введение
Основное отличие обучения с подкреплением (reinforcement learning)
от классического машинного обучения
заключается в том, что искусственный интеллект
обучается в процессе взаимодействия с окружающей средой,
а не на исторических данных.
Соединив в себе способность нейронных сетей
восстанавливать сложные взаимосвязи
и самообучаемость агента (системы)
в reinforcement learning, машины достигли огромных успехов,
победив сначала в нескольких видеоиграх Atari,
а потом и чемпиона мира по игре в го.
Если вы привыкли работать с задачами обучения с учителем,
то в случае reinforcement learning действует немного иная логика.
Вместо того, чтобы создавать алгоритм,
который обучается на наборе пар <факторы - правильный ответ>,
в обучении с подкреплением необходимо научить агента
взаимодействовать с окружающей средой,
самостоятельно генерируя эти пары.
Затем на них же он будет обучаться
через систему
наблюдений (observations),
выигрышей (reward)
и действий (actions).
Очевидно, что теперь в каждый момент времени
у нас нет постоянного правильного ответа,
поэтому задача становится немного хитрее.
В этой серии статей мы будем создавать и обучать
агентов обучения с подкреплением.
.......
Решение полноценной задачи обучения с подкреплением
Теперь, ...
перейдем к рассмотрению более сложной задачи,
которая и будет представлять собой пример полноценного reinforcement learning:
оценивая текущее состояние системы,
агент должен выбирать действия,
которые максимизируют выигрыш не только сейчас, но и в будущем.
Системы, в которых может быть решена обучения с подкреплением
называются Марковскими процессами принятия решений
(Markov Decision Processes, MDP).
Для таких систем характерны выигрыши и действия,
обеспечивающие переход из одного состояния в другое,
причем эти выигрыши зависят от текущего состояния системы и решения,
которое принимает агент в этом состоянии.
Выигрыш может быть получен с задержкой во времени.
Формально Марковский процесс принятия решений
может быть определен следующим образом.
MDP состоит из набора всех возможных состояний S и действий А,
причем в каждый момент времени
он находится в состоянии s и совершает действие a из этих наборов.
Таким образом, дан кортеж (s, a)
и для него определены T(s,a)
- вероятность перехода в новое состояние s' и R(s,a) - выигрыш.
В итоге в любой момент времени в MDP
агент находится в состоянии s, принимает решение a
и в ответ получает новое состояние s' и выигрыш r.
Для примера,
даже процесс открывания двери можно представить
в виде Марковского процесса принятия решений.
Состоянием будет наш взгляд на дверь,
а также расположение нашего тела и двери в мире.
Все возможные движения тела, что мы можем сделать,
и являются набором A,
а выигрыш - это успешное открытие двери.
Определенные действия (например, шаг в сторону двери)
приближают нас к достижению цели,
однако сами по себе не приносят выигрыша,
так как его обеспечивает только непосредственно открывание двери.
В итоге, агент должен совершать такие действия,
которые рано или поздно приведут к решению задачи.
Задача стабилизации перевернутого маятника
//// Это классическая задача в обучении с подкреплением,
//// на которой тренируются/проверяются многие модели,
//// называемые AI ботами.
Воспользуемся OpenAI Gym
- платформой для разработки и тренировки AI ботов
с помощью игр и алгоритмических испытаний
и возьмем классическую задачу оттуда:
задача стабилизации перевернутого маятника или Cart-Pole.
В нашем случае суть задачи заключается в том,
чтобы как можно дольше удерживать стержень в вертикальном положении,
двигая тележку по горизонтали:
... в данной системе есть:
Наблюдения.
Агент должен знать, где стержень находится сейчас и под каким углом.
Это наблюдение нейросеть будет использовать
для оценки вероятности того или иного действия.
Отсроченный выигрыш.
Необходимо двигать тележку таким образом,