Redigerer
Apache OpenNLP
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
{{Infoboks programvare | status = Aktiv | operativsystem = [[GNU/Linux]], [[Mac OS X]], [[Microsoft Windows|Windows]], [[FreeBSD]] }} '''Apache OpenNLP''' er et verktøysett som utnytter [[Maskinlæring]] for [[Natural Language Processing]] (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel [[språk]] deteksjon, [[leksikalsk analyse|tokenisering]], setnings segmentering, part-of-speech labelling, named entity extraction, chunking, [[parsing]] og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester. Biblioteket er skrevet i [[Java (programmeringsspråk)|Java]] og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)<ref>{{cite web |url=https://opennlp.apache.org/building.html|title=Apache OpenNLP - Building from Source|language=no|access-date=5. januar 2025}}</ref>. == Detaljer == * Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen ''langdetect-183.bin'' for nedlasting. Den kan identifisere 103 språk <ref>{{cite web |url=https://opennlp.apache.org/models.html#language_detection|title=Apache OpenNLP - Language Detection Model|language=en|access-date=5. januar 2025}}</ref>. * Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel ''opennlp-no-ud-bokmaal-sentence-1.2-2.5.0.bin'' for setningsgjenkjenning i norske tekster.<ref>{{cite web |url=https://opennlp.apache.org/models.html#sentence_detection|title=Apache OpenNLP - Sentence Detection Models|language=en|access-date=5. januar 2025}}</ref>. * Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv. * Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 32 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.<ref>{{cite web |url=https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html|title=Apache Stanbol - OpenNLP POS Tagging Engine|language=no|access-date=5. januar 2025}}</ref> * Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler. ==Se også== * [[Apache Software Foundation]] * [[Apache License]] ==Referanser== <references/> {{Apache}} {{Autoritetsdata}} [[Kategori:Lingvistikk]] [[Kategori:Språkteknologi]] [[Kategori:Apache Software Foundation]] [[Kategori:Fri programvare]]
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Maler som brukes på denne siden:
Apache OpenNLP
(
rediger
)
Mal:Apache
(
rediger
)
Mal:Autoritetsdata
(
rediger
)
Mal:Cite web
(
rediger
)
Mal:Commonscat fra Wikidata
(
rediger
)
Mal:Hlist/styles.css
(
rediger
)
Mal:ISOtilNorskdato
(
rediger
)
Mal:Infoboks/styles.css
(
rediger
)
Mal:Infoboks programvare
(
rediger
)
Mal:Infoboks rad
(
rediger
)
Mal:Infoboks slutt
(
rediger
)
Mal:Infoboks start
(
rediger
)
Mal:Kilde www
(
rediger
)
Mal:Navboks
(
rediger
)
Mal:Wikidata-norsk
(
rediger
)
Modul:Arguments
(
rediger
)
Modul:Citation/CS1
(
rediger
)
Modul:Citation/CS1/COinS
(
rediger
)
Modul:Citation/CS1/Configuration
(
rediger
)
Modul:Citation/CS1/Date validation
(
rediger
)
Modul:Citation/CS1/Identifiers
(
rediger
)
Modul:Citation/CS1/Utilities
(
rediger
)
Modul:Citation/CS1/Whitelist
(
rediger
)
Modul:External links
(
rediger
)
Modul:External links/conf
(
rediger
)
Modul:External links/conf/Autoritetsdata
(
rediger
)
Modul:Genitiv
(
rediger
)
Modul:GetParameters
(
rediger
)
Modul:ISOtilNorskdato
(
rediger
)
Modul:Navbar
(
rediger
)
Modul:Navbar/configuration
(
rediger
)
Modul:Navboks
(
rediger
)
Modul:Navbox/configuration
(
rediger
)
Modul:Navbox/styles.css
(
rediger
)
Modul:Reference score
(
rediger
)
Modul:Reference score/conf
(
rediger
)
Modul:Reference score/i18n
(
rediger
)
Modul:String
(
rediger
)
Modul:String2
(
rediger
)
Modul:Wd-norsk
(
rediger
)
Modul:Wd-norsk/i18n
(
rediger
)
Modul:WikidataBilde
(
rediger
)
Modul:WikidataCommonscat
(
rediger
)
Modul:WikidataDato
(
rediger
)
Modul:WikidataListe
(
rediger
)
Modul:WikidataListe/conf
(
rediger
)
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon