Redigerer
Dependensparsing
(avsnitt)
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
== Data- og regelbaserte metoder == Det finnes flere typer dependensparsere som benytter seg av forskjellige metoder for tekstanalyse, bl.a. regelbaserte parsere og datadrevne parsere. Regelbaserte parsere bruker en formell grammatikk for å analysere tekst. Denne formelle grammatikken representerer et språk, og er satt sammen av regler for hvordan språket er bygget opp. Reglene som parseren bruker er menneskeskapte og kan ta lang tid å lage. Ord som kan være flertydige eller høre til flere ordklasser er et problem for regelbaserte parsere, fordi det ofte finnes mange regler som kan representere den samme setningen. For at denne typen parsere skal komme frem til den korrekte analysen kan den bruke statistikk for å avgjøre hvilken analyse som er mest sannsynlig<ref name=":0">{{Kilde bok|url=https://web.stanford.edu/~jurafsky/slp3/14.pdf|tittel=Speech and Language Processing|etternavn=Jurafsky|fornavn=Daniel|etternavn2=Martin|fornavn2=James|utgiver=|år=2017|isbn=|utgivelsessted=|side=1|sider=|kapittel=Ch 14: Dependency Parsing|sitat=|besøksdato=2017-10-27|arkivurl=https://web.archive.org/web/20171011052058/http://web.stanford.edu/~jurafsky/slp3/14.pdf|arkivdato=2017-10-11|url-status=død}}</ref><ref>{{Kilde bok|url=https://web.stanford.edu/~jurafsky/slp3/11.pdf|tittel=Speech and Language Processing|etternavn=Jurafsky|fornavn=Daniel|etternavn2=Martin|fornavn2=James|utgiver=|år=2017|isbn=|utgivelsessted=|side=22|sider=|kapittel=Ch 11: Formal Grammars of English|sitat=}}</ref>. Den andre typen dependensparsere er datadrevne parsere. I motsetning til regelbaserte parsere har datadrevne parsere ingen predefinerte regler. De fleste datadrevne parsere baserer seg på ikke-deterministiske teknikker for parsing ved bruk av sannsynlighetsmodeller og dynamiske algoritmer<ref>{{Kilde artikkel|tittel=MaltParser: A language-independent system for data-driven dependency parsing|publikasjon=Natural Language Engineering|url=https://stp.lingfil.uu.se/~nivre/docs/nle07.pdf|dato=12. januar 2007|forfattere=Nivre et al|via=|bind=13|hefte=2|sider=96|sitat=|besøksdato=2017-10-27|arkiv-dato=2017-08-10|arkiv-url=https://web.archive.org/web/20170810170943/http://stp.lingfil.uu.se/~nivre/docs/nle07.pdf|url-status=yes}}</ref>. Ved hjelp av en annotert tekst (tagged) lager parseren en statistisk modell som senere brukes til å analysere tekst som ikke har blitt annotert. Siden denne typen parsere baserer seg på statistikk og data, vil den kunne generalisere og analysere data som den ikke har sett før, i motsetning til regelbasert parsing som ikke kan analysere en setning dersom det ikke finnes en regel som kan representere setningen. En annen fordel med datadreven dependensparsing er at denne typen parsere kan håndtere språk som ikke har en bestemt rekkefølge på ord. En regelbasert parser vil måtte ha en regel for hver mulige rekkefølge av ord, mens datadrevne parsere håndterer dette ved å ha en dependenslink som representerer en gitt relasjon<ref name=":0" />. === Ulike parsere === Vi har tre ulike avhengighetsbaserte parsere: Syntaktiske parsere, statistiskeparsere og datadrevne parsere. Syntaktiske parsere søker gjennom alle mulige parsertre for en setning for å velger den mest sannsynlige. Statistiske parsere har predefinerte regler i samsvar med sannsynlighet for å finne meningen med setningen. Den tilegner hver regel med en sannsynlighet som vil gi den relative frekvensen av den regelen. Datadrevene parsere har i motsetning til statistiske parsere ingen predefinerte regler, men tar inn et annotert tekstkorpus. Når det har blitt gjort vil den kunne annotere ikke-annoterte tekster ved hjelp av sannsynlighet. === Verktøy === Det finnes en rekke tilgjengelige modeller for dependensparsing på internett. Blant disse har vi: * [https://nlp.stanford.edu/software/nndep.shtml Stanford Neural Network Dependency Parser] * [http://www.maltparser.org/ MaltParser] * [http://ufal.mff.cuni.cz/udpipe UDPipe] * [http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/imstrans.en.html IMStrans] * [http://turkunlp.github.io/Finnish-dep-parser/ TurkuNLP] * [http://www.seas.upenn.edu/~strctlrn/MSTParser/MSTParser.html MSTParser] {{Wayback|url=http://www.seas.upenn.edu/~strctlrn/MSTParser/MSTParser.html |date=20171123103315 }} Python-biblioteket [https://spacy.io/ spaCy] har også støtte for [https://spacy.io/usage/linguistic-features#dependency-parse dependensparsing] samt visualisering av resulterende trær. Disse verktøyene tar i bruk data- og regelbaserte metoder, og de datadrevne verktøyene vil vanligvis bestå av tre ting: en formell modell som beskriver hva vi godtar eller gir betydning i dependensanalysen, en mengde annotert tekst og en metode for å indusere den faktiske analysen. Prosessen vil da være at vi trener en modell på de annoterte tekstene, gjerne en trebank med dependensannotasjoner og for eksempel PoS-tagger som også ofte er brukt sammen; når vi har en modell som er trent er vi klare for induksjon og den faktiske analysen. === Evaluering === Det er også vanlig å ta i bruk vanlige mål for resultater til analysen, og for å kunne gjøre dette kreves det et gyllent eksempel med annotert data: altså data som er helt riktig annotert. Hvis vi da bruker verktøyet på denne gylne dataen, vil vi kunne regne ut mål som f.eks. "UAS" ("Unlabeled Attachment Score") som representerer gjennomsnittlig prosent av hvor ofte modellen gjettet riktig hode på eller "LAS" ("Labeled Attachment Score") som er gjennomsnittlig riktig gjettet for både hode og dependens etikett. Dette er viktig for å kunne teste verktøy opp i mot andre verktøy, og hvis de er trent og evaluert på samme data kan vi da få et mål på hvilket verktøy som er best under de forhold.
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Denne siden er medlem av 1 skjult kategori:
Kategori:CS1-vedlikehold: Eksplisitt bruk av m.fl.
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon