Redigerer
Lærende automaton
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
'''Lærende automaton''' [singular: automaton, plural: automata] er en type algoritme for [[maskinlæring]] som er studert siden 1970-tallet. I forhold til andre metoder for læring så er lærende automaton en gren av adaptiv kontrollteori, som ble undersøkt av Narendra og Thathachar (1974), og som opprinnelig ble beskrevet som [[Endelig tilstandsmaskin|finite state automaton]]. Lærende automaton velger nåværende handling basert på tidligere erfaring, gitt observerte treningsdata. Metoden er basert på [[forsterkende læring]], gitt et [[Stokastisk prosess|stokastisk miljø]] og en [[Markov prosess|Markov beslutningsprosess]] (MDP). == Historie == Forskning på lærende automata kan spores tilbake til arbeider gjort av [[Mikhail Tsetlin|Mikahel Tsetlin]] i Sovjetunionen tidlig på 1960-tallet. Sammen med kolleger utga han en samling av artikler om hvordan matriser kan brukes for å beskrive funksjoner i automata. I tillegg arbeidet Tsetlin med ''fornuftig atferd'' og ''kollektive atferd'' i automata, og på automata brukt i spill. Lærende automata ble også undersøkt av forskere i USA på 1960-tallet. Begrepet ''lærende automaton'' (''learning automaton'') ble ikke brukt før Narendra og Thathachar introdusert det i en artikkel de publiserte i 1974. == Definisjon == En lærende automat er en enhet for adaptiv beslutningsprosess i et stokastisk miljø som lærer optimal handling gjennom gjentatt interaksjon med sitt miljø. Handlingene som tas er bestemt av sannsynlighetsfordelingen til tidligere respons fra miljøet, gitt automatens tidligere handlinger (a posteriori respons). Innenfor feltet forsterket læring så er lærende automata karakterisert som ''policy iterators''. I motsetning til andre automata for forsterket læring så manipulerer policy iterators direkte regelen <math display="inline">\pi</math> (policyen <math display="inline">\pi</math>). Et annet eksempel på policy iterators er [[Evolutionary algorithm|evolusjonære algoritmer]]. Formelt så definerte Narendra og Thathachar en stokastisk prosess som: * et sett <math display="inline">x</math> av mulige påtrykk (innsignal), * et sett <math display="inline">\mathbf{ \Phi } = \left \{ \Phi_1, \mbox{…}, \Phi_s \right \} </math> av mulige interne tilstander, * et sett <math display="inline">\mathbf{ \alpha } = \left \{ \alpha_1, \mbox{…}, \alpha_s \right \} </math> av mulige respons (utsignal), eller handlinger, med <math display="inline">r \leqslant s</math>, * en initiell tilstandsvektor <math display="inline">p \left ( 0 \right ) = \left \langle p_1 \left ( 0 \right ), \mbox{…}, p_s \left ( 0 \right ) \right \rangle</math>, * en [[Computable function|beregnbar funksjon]] <math display="inline">A</math> som etter hvert tidssteg <math display="inline">t</math> beregner <math display="inline">p \left ( t + 1 \right )</math> fra <math display="inline">p \left ( t \right )</math>, det nåværende påtrykket (innsignalet), og den nåværende tilstanden, og * en funksjon <math display="inline">G: \Phi \to \alpha</math> som beregner responsen (utsignal) for hvert tidssteg. I den publiserte artikkelen så undersøkte de kun stokastiske automata med <math>r = s</math> og hvor <math display="inline">G</math> er [[bijektiv]], noe som gjorde at de kunne behandle handlinger og tilstander på samme vis. Tilstandene i en slik automat tilsvarer tilstandene i en Markov-prosess med diskrete tilstander og parametre (discrete-state discrete-parameter Markov process).<ref name=":0">{{Kilde artikkel|tittel=Learning Automata - A Survey|publikasjon=IEEE Transactions on Systems, Man, and Cybernetics|doi=10.1109/tsmc.1974.5408453|url=https://doi.org/10.1109/tsmc.1974.5408453|dato=Juli 1974|forfattere=|fornavn=Kumpati S.|etternavn=Narendra|etternavn2=Thathachar|fornavn2=M. A. L.|via=|serie=4|språk=en-US|bind=SMC-4|hefte=|sider=323–334|issn=0018-9472|besøksdato=2018-05-03|sitat=}}</ref> Ved hvert tidssteg <math display="inline">t = 0, 1, 2, 3, \mbox{…}</math> så vil automaten lese et påtrykk (innsignal) fra miljøet, oppdatere <math display="inline">p \left ( t \right )</math> til <math display="inline">p \left ( t + 1 \right )</math> med funksjonen ''<math display="inline">A</math>'', velge tilfeldig en etterfølgende tilstand i henhold til sannsynligheten gitt av <math display="inline">p \left ( t + 1 \right )</math>, og gi tilhørende handling som respons (utsignal). Automatens miljø leser handlingen og sender det neste påtrykket til automaten. Ofte brukes settet <math display="inline">x = \left \{ 0, 1 \right \}</math> som påtrykk, med 0 og 1 tilsvarende henholdsvis ''ikke-straff'' og ''straff'' fra miljøet. I dette tilfellet vil automaten minimere antallet straffepåtrykk, og tilbakekoblingen mellom automaten og miljøet er kalt en «P-modell». Mer generelt så vil en «Q-modell» tillate et tilfeldig påtrykk <math display="inline">x</math>, og en «S-modell» bruker et reelle nummer i et intervall <math display="inline">\left [ 0, 1 \right ]</math> som <math display="inline">x</math>.<ref name=":0" /> == Lærende automata for endelige handlinger == En klasse av lærende automata for endelige handlinger (Finite action-set learning automata – FALA) er en klasse av lærende automata hvor antall mulige handlinger er begrenset eller, i mer matematiske termer, hvor størrelsen på handlingsrommet er begrenset. == Referanser == <references /> == Litteratur == * Philip Aranzulla og John Mellor <!--- ---Trying to flesh out the previous poor reference hint, I found Mellor's home page and added all publications of Mellor+Aranzulla found there. They seem to fit not very well into this article, however.--- --->([https://web.archive.org/web/20131203032954/http://www.bradford.ac.uk/scim/staff-profiles/profile/?u=jemellor arkivert hjemmeside]): ** {{Kilde artikkel|år=2000|fornavn=J.|etternavn=Mellor|fornavn2=P.|etternavn2=Aranzulla|tittel=Using an S-Model Response Environment with Learnng Automata Based Routing Schemes for IP Networks|publikasjon=Proc. Eighth IFIP Workshop on Performance Modelling and Evaluation of ATM and IP Networks|sider=56/1-56/12|sted=Ilkley,UK}} ** {{Kilde artikkel|år=1997|fornavn=J.|etternavn=Mellor|fornavn2=P.|etternavn2=Aranzulla|tittel=Comparing two routing algorithms requiring reduced signalling when applied to ATM networks|publikasjon=Proc. Fourteenth UK Teletraffic Symposium on Performance Engineering in Information Systems|sider=20/1-20/4|sted=UMIST, Manchester, UK}} * {{Kilde artikkel|etternavn=Narendra|fornavn=K.|etternavn2=Thathachar|fornavn2= M.A.L.|tittel=Learning automata – a survey|publikasjon=IEEE Transactions on Systems, Man, and Cybernetics|dato=Juli 1974| volum= SMC-4| nummer=4| sider=323–334| url=http://www.dklevine.com/archive/refs4481.pdf| doi=10.1109/tsmc.1974.5408453}} * {{Kilde bok|url=https://bibsys-almaprimo.hosted.exlibrisgroup.com:443/primo_library/libweb/action/dlDisplay.do?vid=BIBSYS&search_scope=default_scope&docId=BIBSYS_ILS71465364100002201&fn=permalink|tittel=Automaton theory and modeling of biological systems|etternavn=Mikhail L. Tsetlin|dato=1973|utgiver=Academic Press|isbn=0127016503|serie=Mathematics in science and engineering|bind=vol. 102|utgivelsessted=New York}} == Se også == * [[Forsterkende læring]] * [[Spillteori]] * [[Automatteori]] {{Autoritetsdata}} [[Kategori:Reguleringsteori]] [[Kategori:Endelig tilstandsmaskin]] [[Kategori:Kunstig intelligens]]
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Maler som brukes på denne siden:
Mal:Autoritetsdata
(
rediger
)
Mal:ISOtilNorskdato
(
rediger
)
Mal:Kilde artikkel
(
rediger
)
Mal:Kilde bok
(
rediger
)
Modul:Citation/CS1
(
rediger
)
Modul:Citation/CS1/COinS
(
rediger
)
Modul:Citation/CS1/Configuration
(
rediger
)
Modul:Citation/CS1/Date validation
(
rediger
)
Modul:Citation/CS1/Identifiers
(
rediger
)
Modul:Citation/CS1/Utilities
(
rediger
)
Modul:Citation/CS1/Whitelist
(
rediger
)
Modul:External links
(
rediger
)
Modul:External links/conf
(
rediger
)
Modul:External links/conf/Autoritetsdata
(
rediger
)
Modul:Genitiv
(
rediger
)
Modul:ISOtilNorskdato
(
rediger
)
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon