Referat fra tidligere møter

Møtet fant sted på Akershus fylkeskommune (AFK), 11.12.07 kl. 17:30–21.

Forrige møte fant sted på AFK, mandag 26. november. 2007
Informasjon om møtet ligger på SpellNorwegian/Møte/2007-11-26.

Neste møte blir sannsynligvis mandag den 14. januar på AFK galleri kl. 17:30–21. Informasjon om møtet ligger på SpellNorwegian/Møte/2008-01-14.

Tilstede

Michael Fogeborg, Axel Bojer og Terje Erlend Reite

Referent

Axel Bojer

Møtereferat

Vi startet med å gå igjennom hva vi har fra før av informasjon, deretter så vi på strukturen på ordlista slik den foreligger på http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/ Vi konsentrerte oss om fila source.gz, da det er der den fullstendige lista ligger, og de andre er bare utsnitt av denne helheten.

Database på Tyge

Problemet

Vi lekte oss litt med Perl for å se hva vi kunne få til, og det viser seg å være ikke spesielt vanskelig å hente ut relevant informsjon, da tekstfila er godt strukturert, iallfall innad i hver enkelt ordblokk av typen:

WORD: ord
STATUS: +
EDITOR: meg
DATE: i dag

Derimot er det endel ulikheter og problemer som vi har forsøkt å finne en løsning på:

  1. Hva gjør vi med dobbeltoppføringer?
    1. Hva om CORRECTION er samme som WORD?
    2. Hva om en av oppføringene er mer omfattende (flere angitte felt, f.eks. informasjon om ordklasser i den ene av dobbeltoppføringene, men ikke de andre)
    3. Hvilken oppføring skal ha forrang om vi har flere, kan dette gjøres automatisk?

Løsningsforslag

Regler:

  1. Ranger viktigheten etter authority-lista (det følgende er alle de oppføringene vi fant brukt)
    1. AUTHORITY: Norsk ordbank ordbank_bm.zip 2007-07-09
    2. (Likestilte, da dette er manuelt sjekket i en ordbok)
      • AUTHORITY: Norske synonymer blå ordbok av Dag Gundersen
        AUTHORITY: Norsk Ordbok
        AUTHORITY: Norsk ordbok
        AUTHORITY: Norsk Ordbok med 1000 illustrasjoner
        AUTHORITY: Norsk ordbok med 1000 illustrasjoner, annen utg.

    3. Alt annet
  2. I en ordblokk: Hvis WORD og CORRECTION er like, dropp linja CORRECTION
  3. Hvis EDITOR og WORD i en ordblokk er lik EDITOR og WORD i en annen ordblokk, la da nyeste ordblokk være autorativ (bruk DATE-feltet).
  4. Hvis EDITOR ikke er angitt proriteres ordet lavere enn andre oppføringer av samme ord av andre EDITOR.

Kommentarer til reglene

Et problem med regel tre er kanskje hvis man sender samme ord to ganger samme dag, da trenger man en tilleggsregel. Om ordene legges inn med det sist innmeldte sist, så kan rekkefølgen være et tilleggskriterium.

Regel tre kan brukes til å rette opp feiloppføringer i andre felt enn WORD. Rettelser for dette feltet ser i fortsatt ingen automatisk løsning på, men kanskje man kunne laget et system for å sende ut ord til korrektur der automatikken ikke strekker til. Nøyaktig hvilke ord dette er må fastlegges.

Hva betyr
EDITOR: Rune Klevelands ordliste
hører ikke den informasjonen til i feltet SOURCE?

Reglene kunne vi tenke oss brukt til en automatisk bearbeidelse, for eksempel å hente ut ord fra databasen.

Felt som er i bruk

Vi hentet ut statistikk over hvilke felt som er i bruk og hvor ofte hver av dem er blitt brukt. De fire første er brukt hver gang (og er obligatoriske), mens de andre er dels ganske sjeldne.

DATE

1 206 265

EDITOR

1 206 265

STATUS

1 206 265

WORD

1 206 265

AUTHORITY

628 388

COMPOSITE-WORD

24 968

HYPHENATION

19 657

ROOT

18 094

CONJUGATION

17 645

CLASS

17 735

CONJUGATION-RULE

17 048

CORRECTION

6 039

COMMENT

3 566

SYNONYM

398

EXAMPLE

76

CATEGORY

13

DESCRIPTION

7

SOURCE

3

ANTONYM

1

Noen av disse vil kanskje bare ligge lagret enn så lenge, da vi ikke har noe å bruke dem til, men f.eks. informasjon om CLASS og CONJUGATION-RULE kan brukes til å fastslå hvilke ord som kan settes sammen om noen tar dette i bruk. Men det vil på den annen side også kreve at dette er angitt for mer enn bare noen få ord hvis det skal være nyttig. Kanskje Ordbanken i framtiden kan levere mer metainformasjon?