Kysy kirjastonhoitajalta

Aineisto koostuu koneoppimisessa käytettäväksi tarkoitetuista TF-IDF-datamatriiseista, jotka on koostettu "Kysy kirjastonhoitajalta" -kysymys/vastauskorpuksesta. Korpus on suomenkielinen. Datamatriisit soveltuvat erityisesti hyvin paljon luokkia sisältävien nk. Extreme Multi-label Text Classification (XMTC)-koneoppimismallien koulutukseen.

Alkuperäinen korpus sisältää 3150 suomenkielistä lyhyehköä dokumenttia Kysy kirjastonhoitajalta -palvelusta. Jokainen dokumentti on yleisön esittämä kysymys, johon kirjastonhoitaja on vastannut.

Korpus poimittiin yli 25000 kysymys/vastaus-parin kokoelmasta rajaten niin, että dokumentissa on oltava vähintään 4 subjektia.

Korpus on jaettu seuraaviin hakemistoihin:

all: sisältää kaikki dokumentit (N = 3150)
train: sisältää ennen vuotta 2016 esitetyt kysymykset (N = 2625), jotka on tarkoitettu koulutukseen
maui-train: satunnainen otosjoukko (N = 200) train-hakemistosta, joka on tarkoitettu Maui-mallin kouluttamiseen
validate: sisältää vuonna 2016 esitettyjä kysymyksiä (N = 213), jotka on tarkoitettu validointiin (esim. hyperparametrien valitsemiseen luokittelijalle)
test: sisältää vuonna 2017 esitetyt kysymykset (N = 312), jotka on tarkoitettu lopulliseen arviointiin

Alkuperäinen korpus on saatavissa osoitteesta https://github.com/NatLibFi/Annif-corpora/tree/master/fulltext/kirjastonhoitaja

Varsinainen Kysy kirjastonhoitajalta -palvelu löytyy osoitteesta https://www.kirjastot.fi/kysy. Kirjastot.fi-toimitus vastaa palvelun kehittämisestä ja ylläpidosta.

Data-aineistot

TXT
Datamatriisi (test) XMTC-koneoppimismallien...
Datamatriisi XMTC-koneoppimismallien koulutukseen (TF-IDF)...

Lataa
TXT
Datamatriisi XMTC-koneoppimismallien...
Datamatriisi XMTC-koneoppimismallien koulutukseen (TF-IDF)...

Lataa
TXT
Datamatriisi (test) XMTC-koneoppimismallien...
Datamatriisi XMTC-koneoppimismallien koulutukseen (TF-IDF)...

Lataa
TXT
Datamatriisi XMTC-koneoppimismallien...
Datamatriisi XMTC-koneoppimismallien koulutukseen (TF-IDF)...

Lataa

Lisätiedot

Kokoelma	Avoin data
Ylläpitäjä	CSC – Tieteen Tietotekniikan Keskus Oy
Ylläpitäjän sähköpostiosoite	analytics@csc.fi
Lisätietoa verkossa	https://github.com/NatLibFi/Annif-corpora/tree/master/fulltext/kirjastonhoitaja
Päivitystiheys	epäsäännöllinen
Viimeksi muokattu	04.02.2022 Näytä muutoshistoria
Luotu	21.12.2020

Avainsanat

Kategoriat

Lisenssi

To the extent possible under law CSC – Tieteen Tietotekniikan Keskus Oy has waived all copyright and related or neighboring rights to Kysy kirjastonhoitajalta.

Avoimuusaste

Tykkää tietoaineistosta

Tilastot

Viikoittaiset vierailut viimeisten 12kk ajalta

Sivunäytöt:: Viimeisten 30 päivän aikana: 0; Viimeisten 12 kk aikana: 9; Koko ajalta: 132
Lataukset:: Viimeisten 30 päivän aikana: 0; Viimeisten 12 kk aikana: 0; Koko ajalta: 6