Differences between revisions 1 and 9 (spanning 8 versions)
Revision 1 as of 2008-02-27 11:20:53
Size: 1922
Editor: ?AxelBojer
Comment:
Revision 9 as of 2008-03-11 12:32:24
Size: 5574
Editor: ?AxelBojer
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
Møtet fant sted på Akershus fylkeskommune (AFK), fredag 1. februar 2008 kl. 17:30–20:30.

Forrige møte fant sted på AFK, tirsdag 26. januar. 2007 [[BR]] Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-01-26"].

Neste møte blir tirsdag den 26. februar på AFK galleri kl. 18–20:30. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-02-26"].
Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.[[BR]]
Forrige møte fant sted på AFK, fredag 1. februar. 2007. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-02-01"].[[BR]]
Neste møte blir mandag den 17. mars på ?? kl. 17:30–20:30. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-03-17"].[[BR]]
Line 10: Line 8:
Axel Bojer, Petter Reinholdtsen og Terje Erlend Reite Petter Reinholdtsen, Terje Erlend Reite og Axel Bojer.
Line 16: Line 14:
== speling2words ==
 * Vi fortsatte med å se på «speling2words» -- hvordan den virker og hva den gjør, i sammenheng med Make-skriptet som den er koblet til -- i mappa «speling.org/src/spell-norwegian».
 * Vi prøvde også å kjøre det, noe vi denne gang fikk til :-)
Noen byggeavhengigheter måtte løses, se:
http://no.speling.org/lagNyeOrdlister.html
== Om skriptet «speling2words» og den tilhørende «make»-fila ==
 * Vi fortsatte med å se på «speling2words» -- hvordan den virker og hva den gjør, i sammenheng med Make-skriptet som den er koblet til (skriptet ligger i mappa «speling.org/src/spell-norwegian» i cvs-en til no.speling.org). Vi prøvde også å kjøre det, noe vi denne gang fikk til :-) Videre kommentarer/dokumentasjon (litt spredt, men mer finnes på nettsiden nevnt nedenfor):
 * Petters annonsering av skriptet: https://lister.ping.uio.no/pipermail/i18n-no/2007-November/005610.html
 * Noen byggeavhengigheter måtte løses, se: http://no.speling.org/lagNyeOrdlister.html
 * «apt-get build-dep inorwegian» skulle tatt hånd om alle avhengighetene (på Debian etch), men det virket ikke på Kubuntu 7.10
 * Skriptet trenger minst 1 GB for å kjøres innen rimelig tid (ikke bruke vekselminne) fordi det er såpass mange ord som skal hentes inn i minnet og behandles. Axels bærbare taklet ikke dette :-/
 * «make update-from-spelingorg speling-new.nb speling-new.nn» eller bare «make update-from-spelingorg» skal altså virke, sist gjorde vi den feilen å bruke makefila i undermappa scripts, derfor virket det ikke.
 * speling-good.nb/nn, som er nevnt i skriptet opprettes av skriptet underveis, det var derfor vi ikke fant disse filene noe sted :-)
 * Alle skripfilene er kodet i Latin1, da det er det eneste ispell forstår. Dette påvirker altså også aspell, myspell og hunspell.
 * Linje 114 er en lengre streng som skal filtrere ut uønskede ord, som antatt. Meningen med linja:
Line 22: Line 25:
«make update-from-spelingorg speling-new.nb speling-new.nn»
skal altså virke, sist gjorde vi den feilen å bruke makefila i undermappa scripts, derfor virket det ikke.
return unless m/^[a-cçd-eéêèëf-oóôòp-uüv-zæäøöåA-CÇD-EÉÊÈËF-OÓÔÒP-UÜV-ZÆÄØÖÅ]+$/;
Line 25: Line 27:
speling-good.nb/nn som er nevnt i skriptet opprettes ac skriptet underve4is, det var derfor vi ikke fant disse filene noe sted :-) er altså å bare bruke de ordene som inneholder gyldige norske tegn, og ingen andre. Dette fordi bl.a. en god del tall og uttrykk (setninger, altså mer enn ett ord) o.a også er med i ordbankens liste. Disse behøver vi ikke og/eller kan vi ikke bruke i stavekontrollen, så de filtrerer vi ut.
Line 27: Line 29:
Ellers så vi altså på selve koden, og lurer på et par ting:  * «make distcheck» sjekker at alt lar seg bygge (men ikke om innholdet er i orden)
 * Både nn.phonet.dat og nb.phonet.dat er symbolske lenker til samme fil (aspell-phonet.dat)
 * Ord på færre enn 3 bokstaver (altså ett eller 2 tegn) fjernes av speling2words, dette da de fleste 8eller alle) disse ordene er lagt inn allerede, dessuten finnes en god del enkelttegn i ordbankens liste som vi slik filtrerer ut. Med men funksjonen på linje 114 (se over) er ikke dette siste lenger viktig.
 * Som før nevnt er altså rekkefølgen: Ordbankens ordliste(1) --> Tyges database(2) --> Norsk.words(3). Fra (1) må endel ord filtreres bort (se nedenfor). Til (2) retter vi altså ved å sende inn rettede og sjekkede ord via e-post til en egen e-postliste. Alt på (3) ligger også på Tyge.
 * Følgende ord filtreres bort (se kildekoden til speling2words der dette er dokumentert nærmere):
   * Enkelttall, enkelttegn
   * Ord med punktum, hermetegn, apostrof, skråstrek og mellomrom, da ordlistene ikke klarer å håndtere dette (dette gjelder uttrykk som «hoppe over bord» o.a.). -- Som nevnt tas bare de ordene med som inneholder de tegnene som er listet opp ovenfor. (Hvis noen mener noen er utelatt, kan lista forlenges)
   * Ord med bindestrek (som ikke skriptet vårt håndterer).
Line 29: Line 38:
* Linje 114 er en lengre streng som skal filtrere ut uønskede ord, som antatt. Fila er kodet i Latin1, da det er det eneste ispell forstår.
Meningen med linja:
return unless m/^[a-c�d-e����f-o���p-u�v-z�����A-C�D-E����F-O���P-U�V-Z�����]+$/;
er å bare bruke de ordene som inneholder gyldige norske tegn, og ingen andre. Dette fordi bl.a. en god del tall og uttrykk (setninger, altså mer enn ett ord) o.a også er med i ordbankens liste. Disse behøver vi ikke og/eller kan vi ikke bruke i stavekontrollen, så de filtrerer vi ut.
== Hva vi gjorde ==
 * I tillegg til å gå igjennom dokumentasjonen ovenfor kjørte vi skriptet for å lage en ny ordliste. 18.947 ord ble avvist (se ovenfor for hva slags ord dette er).

== Om ordbankens liste ==
Denne lista inneholder omtrent 1,6 millioner ord, som en fullformordliste. Lista er lagt ut til fri benyttelse under GPL på http://www.edd.uio.no/prosjekt/ordbanken/ Sida krever at du registrerer deg.

== Gjøremål (både langsiktige og kortsiktige) ==
 * Vi ble enige om å gi ut en ny versjon snarest. Vi velger å utelate ord som inneholder ordelingsregler, da vi fant mange feil der og ikke har tid nå til å sjekke alle. Dette er uansett nye ord, så vi får bare færre nye ord på denne måten (det vil si færre av ordbankens ord og færre av de som er lagt inn siden sist via e-post-innmeldingssystemet). Petter bygger.
 * I makefila kan ssed-kommandoene forbedres slik at den sjekker om de filene som er opprettet er i orden før den legger inn de foreløpige filene som nye filer.
 * Legge inn lenke til og siste versjon av Ordbankens liste i no.speling.orgs cvs og de tilhørende nettsidene. Disse ligger her: http://www.edd.uio.no/prosjekt/ordbanken/
 * Legg inn nærmere informasjon om et skript på Tyge som lar en legge inn mange ord på en gang, skal være postet på i18n-lista.
 * Samle informasjonen fra e-postlistene, møtereferatene og andre kilder til et enhetlig dokument med lenker slik at alt ligger samlet og oversiktlig. Først når vi forstår det systemet vi har kan vi bestemme hvor vi bør forbedre det og bestemme hva som er kortsiktig og hva som er langsiktige planer.
 * Flere gjøremål er nevnt i tidligere møtereferater.

[http://wiki.debian.org/SpellNorwegian/Møteplan Referat fra tidligere møter]

Møtet fant sted på Akershus fylkeskommune (AFK), tirsdag 26. februar 2008 kl. 18–20:30.?BR Forrige møte fant sted på AFK, fredag 1. februar. 2007. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-02-01"].?BR Neste møte blir mandag den 17. mars på ?? kl. 17:30–20:30. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-03-17"].?BR

Tilstede

Petter Reinholdtsen, Terje Erlend Reite og Axel Bojer.

Referent

Axel Bojer

Møtereferat

Om skriptet «speling2words» og den tilhørende «make»-fila

  • Vi fortsatte med å se på «speling2words» -- hvordan den virker og hva den gjør, i sammenheng med Make-skriptet som den er koblet til (skriptet ligger i mappa «speling.org/src/spell-norwegian» i cvs-en til no.speling.org). Vi prøvde også å kjøre det, noe vi denne gang fikk til :-) Videre kommentarer/dokumentasjon (litt spredt, men mer finnes på nettsiden nevnt nedenfor):

  • Petters annonsering av skriptet: https://lister.ping.uio.no/pipermail/i18n-no/2007-November/005610.html

  • Noen byggeavhengigheter måtte løses, se: http://no.speling.org/lagNyeOrdlister.html

  • «apt-get build-dep inorwegian» skulle tatt hånd om alle avhengighetene (på Debian etch), men det virket ikke på Kubuntu 7.10
  • Skriptet trenger minst 1 GB for å kjøres innen rimelig tid (ikke bruke vekselminne) fordi det er såpass mange ord som skal hentes inn i minnet og behandles. Axels bærbare taklet ikke dette :-/
  • «make update-from-spelingorg speling-new.nb speling-new.nn» eller bare «make update-from-spelingorg» skal altså virke, sist gjorde vi den feilen å bruke makefila i undermappa scripts, derfor virket det ikke.
  • speling-good.nb/nn, som er nevnt i skriptet opprettes av skriptet underveis, det var derfor vi ikke fant disse filene noe sted :-)

  • Alle skripfilene er kodet i Latin1, da det er det eneste ispell forstår. Dette påvirker altså også aspell, myspell og hunspell.
  • Linje 114 er en lengre streng som skal filtrere ut uønskede ord, som antatt. Meningen med linja:

return unless m/^[a-cçd-eéêèëf-oóôòp-uüv-zæäøöåA-CÇD-EÉÊÈËF-OÓÔÒP-UÜV-ZÆÄØÖÅ]+$/;

er altså å bare bruke de ordene som inneholder gyldige norske tegn, og ingen andre. Dette fordi bl.a. en god del tall og uttrykk (setninger, altså mer enn ett ord) o.a også er med i ordbankens liste. Disse behøver vi ikke og/eller kan vi ikke bruke i stavekontrollen, så de filtrerer vi ut.

  • «make distcheck» sjekker at alt lar seg bygge (men ikke om innholdet er i orden)
  • Både nn.phonet.dat og nb.phonet.dat er symbolske lenker til samme fil (aspell-phonet.dat)
  • Ord på færre enn 3 bokstaver (altså ett eller 2 tegn) fjernes av speling2words, dette da de fleste 8eller alle) disse ordene er lagt inn allerede, dessuten finnes en god del enkelttegn i ordbankens liste som vi slik filtrerer ut. Med men funksjonen på linje 114 (se over) er ikke dette siste lenger viktig.
  • Som før nevnt er altså rekkefølgen: Ordbankens ordliste(1) --> Tyges database(2) --> Norsk.words(3). Fra (1) må endel ord filtreres bort (se nedenfor). Til (2) retter vi altså ved å sende inn rettede og sjekkede ord via e-post til en egen e-postliste. Alt på (3) ligger også på Tyge.

  • Følgende ord filtreres bort (se kildekoden til speling2words der dette er dokumentert nærmere):
    • Enkelttall, enkelttegn
    • Ord med punktum, hermetegn, apostrof, skråstrek og mellomrom, da ordlistene ikke klarer å håndtere dette (dette gjelder uttrykk som «hoppe over bord» o.a.). -- Som nevnt tas bare de ordene med som inneholder de tegnene som er listet opp ovenfor. (Hvis noen mener noen er utelatt, kan lista forlenges)
    • Ord med bindestrek (som ikke skriptet vårt håndterer).

Hva vi gjorde

  • I tillegg til å gå igjennom dokumentasjonen ovenfor kjørte vi skriptet for å lage en ny ordliste. 18.947 ord ble avvist (se ovenfor for hva slags ord dette er).

Om ordbankens liste

Denne lista inneholder omtrent 1,6 millioner ord, som en fullformordliste. Lista er lagt ut til fri benyttelse under GPL på http://www.edd.uio.no/prosjekt/ordbanken/ Sida krever at du registrerer deg.

Gjøremål (både langsiktige og kortsiktige)

  • Vi ble enige om å gi ut en ny versjon snarest. Vi velger å utelate ord som inneholder ordelingsregler, da vi fant mange feil der og ikke har tid nå til å sjekke alle. Dette er uansett nye ord, så vi får bare færre nye ord på denne måten (det vil si færre av ordbankens ord og færre av de som er lagt inn siden sist via e-post-innmeldingssystemet). Petter bygger.
  • I makefila kan ssed-kommandoene forbedres slik at den sjekker om de filene som er opprettet er i orden før den legger inn de foreløpige filene som nye filer.
  • Legge inn lenke til og siste versjon av Ordbankens liste i no.speling.orgs cvs og de tilhørende nettsidene. Disse ligger her: http://www.edd.uio.no/prosjekt/ordbanken/

  • Legg inn nærmere informasjon om et skript på Tyge som lar en legge inn mange ord på en gang, skal være postet på i18n-lista.
  • Samle informasjonen fra e-postlistene, møtereferatene og andre kilder til et enhetlig dokument med lenker slik at alt ligger samlet og oversiktlig. Først når vi forstår det systemet vi har kan vi bestemme hvor vi bør forbedre det og bestemme hva som er kortsiktig og hva som er langsiktige planer.
  • Flere gjøremål er nevnt i tidligere møtereferater.