Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.
Forrige møte fant sted på AFK, fredag 1. februar. 2007. Informasjon om møtet ligger på SpellNorwegian/Møte/2008-02-01.
Neste møte blir mandag den 17. mars på ?? kl. 17:30–20:30. Informasjon om møtet ligger på SpellNorwegian/Møte/2008-03-17.
Tilstede
Petter Reinholdtsen, Terje Erlend Reite og Axel Bojer.
Referent
Axel Bojer
Møtereferat
Om skriptet «speling2words» og den tilhørende «make»-fila
Vi fortsatte med å se på «speling2words» -- hvordan den virker og hva den gjør, i sammenheng med Make-skriptet som den er koblet til (skriptet ligger i mappa «speling.org/src/spell-norwegian» i cvs-en til no.speling.org). Vi prøvde også å kjøre det, noe vi denne gang fikk til Videre kommentarer/dokumentasjon (litt spredt, men mer finnes på nettsiden nevnt nedenfor):
Petters annonsering av skriptet: https://lister.ping.uio.no/pipermail/i18n-no/2007-November/005610.html
Noen byggeavhengigheter måtte løses, se: http://no.speling.org/lagNyeOrdlister.html
- «apt-get build-dep inorwegian» skulle tatt hånd om alle avhengighetene (på Debian etch), men det virket ikke på Kubuntu 7.10
- Skriptet trenger minst 1 GB for å kjøres innen rimelig tid (ikke bruke vekselminne) fordi det er såpass mange ord som skal hentes inn i minnet og behandles. Axels bærbare taklet ikke dette :-/
- «make update-from-spelingorg speling-new.nb speling-new.nn» eller bare «make update-from-spelingorg» skal altså virke, sist gjorde vi den feilen å bruke makefila i undermappa scripts, derfor virket det ikke.
speling-good.nb/nn, som er nevnt i skriptet opprettes av skriptet underveis, det var derfor vi ikke fant disse filene noe sted
- Alle skripfilene er kodet i Latin1, da det er det eneste ispell forstår. Dette påvirker altså også aspell, myspell og hunspell.
- Linje 114 er en lengre streng som skal filtrere ut uønskede ord, som antatt. Meningen med linja:
return unless m/^[a-cçd-eéêèëf-oóôòp-uüv-zæäøöåA-CÇD-EÉÊÈËF-OÓÔÒP-UÜV-ZÆÄØÖÅ]+$/;
er altså å bare bruke de ordene som inneholder gyldige norske tegn, og ingen andre. Dette fordi bl.a. en god del tall og uttrykk (setninger, altså mer enn ett ord) o.a også er med i ordbankens liste. Disse behøver vi ikke og/eller kan vi ikke bruke i stavekontrollen, så de filtrerer vi ut.
- «make distcheck» sjekker at alt lar seg bygge (men ikke om innholdet er i orden)
- Både nn.phonet.dat og nb.phonet.dat er symbolske lenker til samme fil (aspell-phonet.dat)
- Ord på færre enn 3 bokstaver (altså ett eller 2 tegn) fjernes av speling2words, dette da de fleste 8eller alle) disse ordene er lagt inn allerede, dessuten finnes en god del enkelttegn i ordbankens liste som vi slik filtrerer ut. Med men funksjonen på linje 114 (se over) er ikke dette siste lenger viktig.
Som før nevnt er altså rekkefølgen: Ordbankens ordliste(1) --> Tyges database(2) --> Norsk.words(3). Fra (1) må endel ord filtreres bort (se nedenfor). Til (2) retter vi altså ved å sende inn rettede og sjekkede ord via e-post til en egen e-postliste. Alt på (3) ligger også på Tyge.
- Følgende ord filtreres bort (se kildekoden til speling2words der dette er dokumentert nærmere):
- Enkelttall, enkelttegn
- Ord med punktum, hermetegn, apostrof, skråstrek og mellomrom, da ordlistene ikke klarer å håndtere dette (dette gjelder uttrykk som «hoppe over bord» o.a.). -- Som nevnt tas bare de ordene med som inneholder de tegnene som er listet opp ovenfor. (Hvis noen mener noen er utelatt, kan lista forlenges)
- Ord med bindestrek (som ikke skriptet vårt håndterer).
Hva vi gjorde
- I tillegg til å gå igjennom dokumentasjonen ovenfor kjørte vi skriptet for å lage en ny ordliste. 18.947 ord ble avvist (se ovenfor for hva slags ord dette er).
Om ordbankens liste
Denne lista inneholder omtrent 1,6 millioner ord, som en fullformordliste. Lista er lagt ut til fri benyttelse under GPL på http://www.edd.uio.no/prosjekt/ordbanken/ Sida krever at du registrerer deg.
Gjøremål (både langsiktige og kortsiktige)
- Vi ble enige om å gi ut en ny versjon snarest. Vi velger å utelate ord som inneholder ordelingsregler, da vi fant mange feil der og ikke har tid nå til å sjekke alle. Dette er uansett nye ord, så vi får bare færre nye ord på denne måten (det vil si færre av ordbankens ord og færre av de som er lagt inn siden sist via e-post-innmeldingssystemet). Petter bygger.
- I makefila kan ssed-kommandoene forbedres slik at den sjekker om de filene som er opprettet er i orden før den legger inn de foreløpige filene som nye filer.
Legge inn lenke til og siste versjon av Ordbankens liste i no.speling.orgs cvs og de tilhørende nettsidene. Disse ligger her: http://www.edd.uio.no/prosjekt/ordbanken/
- Legg inn nærmere informasjon om et skript på Tyge som lar en legge inn mange ord på en gang, skal være postet på i18n-lista.
- Samle informasjonen fra e-postlistene, møtereferatene og andre kilder til et enhetlig dokument med lenker slik at alt ligger samlet og oversiktlig. Først når vi forstår det systemet vi har kan vi bestemme hvor vi bør forbedre det og bestemme hva som er kortsiktig og hva som er langsiktige planer.
- Flere gjøremål er nevnt i tidligere møtereferater.