Обучение с подкреплением

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

Среда обычно описывается в форме марковского процесса принятия решений (МППР), поскольку многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования[1]. Основное отличие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знание точной математической модели МППР и нацелены на большие МППР, где точные методы становятся неосуществимыми.

Среда и агент

Агент воздействует на среду, а среда воздействует на агента. О такой системе говорят, что она имеет обратную связь. Такую систему нужно рассматривать как единое целое, и поэтому линия раздела между средой и агентом достаточно условна. Конечно, с анатомической или физической точек зрения между средой и агентом (организмом) существует вполне определённая граница, но если эту систему рассматривать с функциональной точки зрения, то разделение становится нечётким. Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, придающего форму куску мрамора, либо частью материала, которым пытается управлять нервная система.

Впервые такого рода обучение с обратной связью было предложено и изучено в 1961 году в работе Михаила Львовича Цетлина, известного советского математика[2].

М. Л. Цетлин тогда поместил конечный автомат определённой конструкции во внешнюю среду, которая с вероятностями, зависящими от совершаемого автоматом действия, наказывала или поощряла автомат. В соответствии с реакцией среды автомат самостоятельно изменял своё внутреннее состояние, что приводило к постепенному снижению числа наказаний, то есть обучению.

Для анализа поведения этого автомата был впервые использован аппарат цепей Маркова, разработанный А. А. Марковым, который позволил получить точные и доказательные результаты.

Этот материал был опубликован в одном из наиболее престижных и влиятельных научных советских изданий — «Доклады Академии наук СССР». М. Л. Цетлин называл эту проблему изучением поведения автомата в случайной среде.

Статья М. Л. Цетлина вызвала волну публикаций, в которых предлагались всевозможные усовершенствования конструкций конечных автоматов, интенсивно использовавшиеся в многочисленных приложениях.

М. Л. Цетлин ввёл в оборот новый термин — целесообразное поведение автомата в случайной среде. Его ученик, В. Л. Стефанюк, рассмотрел в 1963 году задачу о коллективном поведении, определив новый термин — «коллективное поведение автоматов» и детально исследовав поведение пары автоматов, введённых М. Л. Цетлиным в его первой публикации о целесообразном поведении автоматов.

В. Л. Стефанюком была изготовлена действующая обучающаяся модель на полупроводниковых элементах и вакуумных радиолампах, в которой было реализовано коллективное поведение двух таких автоматов. Эта модель была защищена в 1962 году в качестве выпускной работы на Физическом факультете Московского государственного университета.

Мысль о коллективном поведении была использована В. Л. Стефанюком при публикации им в 1967 г. модели коллективного поведения радиостанций и разработке им оригинальной системы мобильной связи, представленной им в нескольких статьях и в кандидатской диссертации, защищенной в 1968 году.

М. Л. Цетлиным была сформулирована задача об играх автоматов, которая моделировала несколько важных проблем биологии и социологии. Несколько позже М. Л. Цетлин и С. Л. Гинзбург описали конструкцию так называемого ε-автомата, который часто используется в современных публикациях по обучению с подкреплением.

Конструкция ε-автомата представляет собой стохастический автомат, работающий в детерминированной среде, которая выдает платежи этому автомату в зависимости от совершаемого им действия. Для математического анализа поведения одиночного ε-автомата и коллективного поведения таких автоматов В. Л. Стефанюк разработал ряд новых асимптотических методов, в которых показано, что основную роль в поведении ε-автоматов играют равновесные состояния. Этими методами В. Л. Стефанюком были получены законченные результаты о поведении ε-автоматов в ряде ситуаций коллективного поведения, относящихся к экономике и медицине.

Многочисленные советские публикации о целесообразном поведении автоматов, представленные в виде докладов на национальных и международных конференциях, через много лет навели авторов обучения с подкреплением на мысль о выделении этого типа обучения в отдельный класс.

Что касается коллективного поведения автоматов, то что-то подобное вылилось у зарубежных авторов в концепцию многоагентных систем, которая изучалась в терминах искусственного интеллекта и программирования. Однако математические методы анализа и доказательства в многоагентных системах практически не использовались, в отличие от работ М. Л. Цетлина и В. Л. Стефанюка по целесообразному поведению автомата, а также по коллективному поведению и играм нескольких автоматов.

Система подкрепления и её виды

Розенблатт пытался классифицировать различные алгоритмы обучения, называя их системами подкрепления.[3] Он даёт следующее определение:

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона — метода коррекции ошибки, который можно отнести к обучению с учителем, Розенблатт также ввёл понятие об обучении без учителя, предложив несколько способов обучения:

  • Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей , которые ведут к элементу , изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.
  • Гамма-системой подкрепления называется такое правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, делённому на число всех связей. Эта система обладает свойством консервативности относительно весов, так как у неё полная сумма весов всех связей не может ни возрастать, ни убывать.

Реализации

  • BURLAP (Brown-UMBC Reinforcement Learning and Planning) — библиотека одно- и многоагентных алгоритмов планирования и обучения с подкреплением, язык Java, лицензия LGPL
  • MMLF (Maja Machine Learning Framework) — библиотека алгоритмов обучения с подкреплением и набор тестовых сред для их проверки, язык Python, лицензия GPL
  • OpenAI Gym — платформа для разработки и сравнения алгоритмов обучения с подкреплением от OpenAI, язык Python, лицензия MIT
  • PyBrain — библиотека алгоритмов машинного обучения, язык Python, лицензия BSD
  • RLPy — библиотека для проведения экспериментов по обучению с подкреплением, язык Python, 3-х пунктовая лицензия BSD
  • Teachingbox — инструментарий для разработки алгоритмов обучения с подкреплением, язык Java, лицензия GPL

См. также

Примечания

  1. van Otterlo, M. Reinforcement learning and markov decision processes / van Otterlo, M., Wiering, M.. — 2012. — Vol. 12. — P. 3–42. — ISBN 978-3-642-27644-6. — doi:10.1007/978-3-642-27645-3_1.
  2. Гельфанд И. М., Пятецкий-Шапиро И. И., Цетлин М. Л. О некоторых классах игр и игр автоматов // Докл. АН СССР, 1963, том 152, номер 4, С. 845—848.
  3. Розенблатт, Ф., с. 85—88.

Литература

  • Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением = Reinforcement Learning. — 2-е издание. — М.: ДМК пресс, 2020. — 552 с. — ISBN 978-5-97060-097-9.
  • Розенблатт, Ф. Принципы нейродинамики: Перцептроны и теория механизмов мозга = Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. — М.: Мир, 1965. — 480 с.
  • Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением = Reinforcement Learning. — М.: БИНОМ. Лаборатория знаний, 2017. — 399 с. — ISBN 978-5-94774-351-7.

Ссылки

Read other articles:

Israel vehicle license plates For Vehicle registration plates issued to Palestinian residents of Israeli-occupied territories, see Vehicle registration plates of the State of Palestine. An Israeli vehicle registration plate, or an Israeli license plate, is a vehicle registration plate, a metal or plastic plate or plates attached to a motor vehicle or trailer, used in Israel for official identification purposes. Israeli registration plates are issued by various approved licensing firms, like Dina…

AninaKota Lambang kebesaranLetak AninaNegara RumaniaCountyCounty Caraş-SeverinStatusKotaPemerintahan • Wali kotaGheorghe Neicu (Partai Demokrat)Populasi (2000) • Total10.886Zona waktuUTC+2 (EET) • Musim panas (DST)UTC+3 (EEST) Anina (pengucapan bahasa Rumania: [aˈnina] ( simak); Jerman: Steierdorf-Anina; Hungaria: Stájerlakanina) adalah kota yang terletak di County Caraş-Severin, Rumania barat daya.Secara administratif, di kota ini terd…

American politician This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Roy Romer – news · newspapers · books · scholar · JSTOR (October 2018) (Learn how and when to remove this template message) Roy R…

العلاقات الفنلندية الفيتنامية فنلندا فيتنام   فنلندا   فيتنام تعديل مصدري - تعديل   العلاقات الفنلندية الفيتنامية هي العلاقات الثنائية التي تجمع بين فنلندا وفيتنام.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة…

Ada usul agar artikel ini digabungkan dengan Purba Julu, Tambangan, Mandailing Natal. (Diskusikan) Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Purba Julu, Puncak Sorik Marapi, Mandailing Natal – berita · surat kabar · buku · cendekiawan · JSTOR Purba…

Americans of Argentine birth or descent Argentine AmericansTotal population286,346 (2018)[1]0.09% of the U.S. population (2018)[1]Regions with significant populationsFlorida, Texas, California, Illinois, New York, New Jersey, Minnesota, Connecticut, Pennsylvania, MassachusettsLanguagesEnglish, Spanish, ItalianReligionPredominantly Roman Catholic Church OthersRelated ethnic groupsUruguayan Americans, Spanish Americans, Italian Americans Argentine Americans (Spanish: argentino-esta…

كأس بلغاريا 2015–16 تفاصيل الموسم كأس بلغاريا  النسخة 94  البلد بلغاريا  التاريخ بداية:23 سبتمبر 2015  نهاية:24 مايو 2016  المنظم اتحاد بلغاريا لكرة القدم  البطل سسكا صوفيا  مباريات ملعوبة 33   عدد المشاركين 32   كأس بلغاريا 2014–15  كأس بلغاريا 2016–17  تعديل مصدري…

U.S. Army general officer James H. DickinsonOfficial portrait, 2024Born1962 or 1963 (age 61–62)Estes Park, Colorado, U.S.AllegianceUnited StatesBranchUnited States ArmyYears of service1985–2024RankGeneralCommands held United States Space Command United States Army Space and Missile Defense Command 32nd Army Air and Missile Defense Command 94th Army Air and Missile Defense Command 35th Air Defense Artillery Brigade 1st Battalion, 7th Air Defense Artillery Regiment Battle…

SKF-91488 Names Preferred IUPAC name 4-(Dimethylamino)butyl carbamimidothioate Identifiers CAS Number 68643-23-2 3D model (JSmol) Interactive image ChEMBL ChEMBL1230270 ChemSpider 5037 DrugBank DB07106 PubChem CID 5227 UNII 1I4LVX494H CompTox Dashboard (EPA) DTXSID50988329 InChI InChI=1S/C7H17N3S/c1-10(2)5-3-4-6-11-7(8)9/h3-6H2,1-2H3,(H3,8,9)Key: UFYJLJINUGVUHO-UHFFFAOYSA-N SMILES [H]/N=C(/N)\SCCCCN(C)C Properties Chemical formula C7H17N3S Molar mass 175.29 g·mol−1 Except whe…

Federasi Sepak Bola LatviaUEFADidirikan19 Juni 1921; 102 tahun lalu (1921-06-19)Bergabung dengan FIFA1922–19401992–sekarangBergabung dengan UEFA1992PresidenVadims ĻašenkoWebsitewww.lff.lv Federasi Sepak Bola Latvia (bahasa Latvia: Latvijas Futbola federācija [] simakⓘ; LFF [ˌelːefˈefː] simakⓘ) ) adalah badan yang mengatur sepak bola di Latvia dengan kantor pusatnya berlokasi di ibu kota Riga. Kegiatannya meliputi pengorganisasian kejuaraan sepak bola Latvia (Opt…

Grand Prix cycliste de Montréal 2017 GénéralitésCourse8e Grand Prix cycliste de MontréalCompétitionUCI World Tour 2017 1.UWTDate10 septembre 2017Distance205,7 kmPays CanadaLieu de départMontréalLieu d'arrivéeMontréalÉquipes20Partants160Arrivants101Vitesse moyenne38,272 km/hSite officielSite officielRésultatsVainqueur Diego Ulissi (UAE Team Emirates)Deuxième Jesús Herrada (Movistar Team)Troisième Tom-Jelte Slagter (Cannondale-Drapac)Meilleur grimpeur Bauke Mollema (Trek-Segafredo) …

County in Colón, PanamaCristóbal CorregimientoCountyCristóbal's Bldg. 1104CristóbalCoordinates: 9°21′N 79°54′W / 9.350°N 79.900°W / 9.350; -79.900Country PanamaProvinceColónDistrictColónArea[1] • Land428.5 km2 (165.4 sq mi)Population (2010)[1] • Total49,422 • Density115.3/km2 (299/sq mi) Population density calculated based on land area.Time zoneUTC−5 (EST) Hotel Washingt…

Oriana FallaciLahir(1929-06-29)29 Juni 1929Firenze, ItaliaMeninggal15 September 2006(2006-09-15) (umur 77)Firenze, ItaliaMakamCimitero degli Allori, FirenzePekerjaanWartawati, penulis, pewawancara politikBahasaItalia Oriana Fallaci (bahasa Italia: [oˈrjaːna falˈlaːtʃi]; 29 Juni 1929 – 15 September 2006) adalah seorang wartawati, penulis dan pewawancara politik asal Italia. Sebagai seorang pemberontak pada Perang Dunia II, ia telah lama dan sukses dalam karier jurna…

Development from a Tethytherian ancestor and radiation of species This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (March 2014) (Learn how and when to remove this template message) This article needs additional c…

Religion inancient RomeMarcus Aurelius (head covered)sacrificing at the Temple of Jupiter Practices and beliefs libation votum temples festivals ludi funerary practices imperial cult mystery religions Priesthoods Pontifices Augures Vestales Flamines Fetiales Epulones Fratres Arvales Deities Twelve major gods Capitoline Triad Aventine Triad Underworld indigitamenta Agriculture Birth Deified leaders: Julius Caesar Augustus Related topics Glossary of ancient Roman religion Roman mythology Ancient G…

American mass media company (2005–2019) This article is about the media conglomerate in operation from 2005 to 2019. For the previous incarnation of the company, see Viacom (1952–2005). Viacom Inc.Logo used from 2005 to 2019Headquarters at One Astor Plaza in New York CityCompany typePublicTraded asNasdaq: VIA (Class A)Nasdaq: VIAB (Class B)IndustryMass mediaEntertainmentPredecessorThe first incarnation of ViacomFoundedDecember 31, 2005; 18 years ago (2005-12-31)Fo…

Richard Wagner The German composer Richard Wagner was a controversial figure during his lifetime, and has continued to be so after his death.[1] Even today he is associated in the minds of many with Nazism and his operas are often thought to extol the virtues of German nationalism. The writer and Wagner scholar Bryan Magee has written: I sometimes think there are two Wagners in our culture, almost unrecognizably different from one another: the Wagner possessed by those who know his work,…

МифологияРитуально-мифологическийкомплекс Система ценностей Сакральное Миф Мономиф Теория основного мифа Ритуал Обряд Праздник Жречество Мифологическое сознание Магическое мышление Низшая мифология Модель мира Цикличность Сотворение мира Мировое яйцо Мифическое вр…

Brian McDermott Informasi pribadiNama lengkap Brian James McDermottTanggal lahir 8 April 1961 (umur 63)Tempat lahir Slough, Berkshire, InggrisPosisi bermain GelandangInformasi klubKlub saat ini Reading (Manajer)Karier senior*Tahun Tim Tampil (Gol)1978–1984 Arsenal 61 (12)1983 → Fulham (pinjaman) 3 (0)1984 → IFK Norrköping (pinjaman) 17 (5)1984–1987 Oxford United 24 (2)1986 → Huddersfield Town (pinjaman) 4 (1)1987–1988 Cardiff City 51 (8)1988–1990 Exeter City 68 (4)1990–1992…

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: コルク – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2017年4月) コルクを打ち抜いて作った瓶の栓 コルク(木栓、蘭&…

Kembali kehalaman sebelumnya