Redigerer
Tf-idf
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
{{Liten forbokstav|tf-idf}} '''Termfrekvens–invers dokumentfrekvens''' (engelsk: ''term frequency-inverse document frequency'', forkortet '''tf–idf''', '''TF*IDF''', '''TFIDF''', '''TF–IDF''', eller '''Tf–idf''') er et numerisk mål for hvor viktig en term er i et dokument. TF-IDF er beregnet på bakgrunn av ''termfrekvens'' (Term frequency) og ''invers dokumentfrekvens ''(Inverse Document Frequency). TF-IDF brukes ofte i informasjonsinnhenting, og søk. TF-IDF verdiene brukes ofte til å sammenlikne dokumenter i en samling mot en spørring, for å finne det mest relevante resultatet<ref name="Manning"> Manning Christopher D, "Introduction to Information Retrieval" Cambrigde, 2009</ref>, for eksempel ved bruk av vektormodellen == Definisjoner == Termfrekvens er en målestokk på hvor ofte en term oppstår i et dokument, med andre ord hvor mange ganger eksisterer term ''t'' i dokument ''d''. Dokumentfrekvens er en målestokk som viser hvor mange av dokumentene i den gjeldende samlingen som inneholder termen. Dette kan for eksempel være antall dokumenter i samlingen som inneholder termen ''t''. I TF-IDF bruker vi{{hvem}} inversen av dokumentfrekvens. IDF er definert som: IDF<sub></sub> = <math> Log \frac{N}{df_{t}}</math> Dermed kan vi definere TF-IDF som: TF-IDF<math>_{t,d}</math> = tf<math>_{t,d} \times</math>idf<math>_{t} </math> == Fordeler med TF-IDF == Fordeler med TF-IDF er at det alltid blir gitt en vekt til term ''t'' i et dokument ''d'' som er: *Høyest når ''t'' oppstår mange ganger i få dokumenter *Lavere når termen ''t'' oppstår få ganger i et dokument, eller oppstår i mange dokumenter *Lavest når en term oppstår i tilnærmet alle dokumentene == Varianter av TF-IDF == === Sublineær TF === Dersom et ord oppstår tretti ganger i et dokument, er ikke ordet nødvendigvis tredve ganger så viktig som dersom ordet oppstår kun en gang i et dokument. For å forhindre at en term blir ansett som tredve ganger så viktig som et ord som kun oppstår en gang, kan vi bruke ''sublineær ''(Sublinear) tf-skalering. Istedenfor å øke tf verdien med en hver gang ordet oppstår kan vi bruke logaritmen av termfrekvensen. ''w f''<math>_{t,d}</math> = <math> \begin{cases} 1 + logt f_{t,d}, & \mbox{hvis }tf\mbox{større enn 0} \\ 0, & \mbox{ ellers} \end{cases} </math> === Maksimum tf-normalisering === Maksimum tf normalisering er en teknikk der vi normaliserer alle tf-vektene i et dokument, på bakgrunn av den høyeste tf verdien i det gjeldende dokumentet. For hvert dokument la tf<sub>max</sub>(d) = max<sub>τ<math>\in</math> d</sub> tf<sub>τ, d,</sub> der τ dekker alle termene i dokument ''d''. Så regner vi ut normalisert term frekvens for alle termer ''t'' i dokument ''d''. Dermed kan vi definere maksimum tf-normalisering som: ntf<sub>t,d</sub> = <math>a + (1 - A)\frac{tf_{t,d}}{tf_{max}d'}</math> Der A er en verdi mellom 0 og 1, og er vanligvis satt til 0,4. A er en verdi som brukes til å dempe påvirkningen fra andre termer. Denne metoden normaliserer alle termer avhengig av den største termen i dokumentet. Den største fordelen med denne metoden er at den reduserer påvirkingen av at lengre dokumenter får høyere treffgrad fordi dokumentene inneholder flere ord. == Bruk av TF-IDF == TF-IDF brukes som rangeringsfunksjon i flere implementasjoner av søk. TF-IDF verdiene er verdiene som oftest blir brukt i [[Vektorrom-modellen|vektormodellen]], en modell som sammenlikner dokumenter for å finne det dokumentet som er mest relevant. I tillegg er det flere forbedrede søkealgoritmer som BM25<ref name="Manning" /> som bruker TF-IDF til å finne de mest relevante artiklene. ==Referanser== <references/> [[Kategori:Søkealgoritmer]]
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Maler som brukes på denne siden:
Mal:Fix
(
rediger
)
Mal:Fix/category
(
rediger
)
Mal:Hvem
(
rediger
)
Mal:Ifsubst
(
rediger
)
Mal:Liten forbokstav
(
rediger
)
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon