Differences between revisions 2 and 3
Revision 2 as of 2007-12-10 23:18:04
Size: 4610
Editor: ?AxelBojer
Comment:
Revision 3 as of 2007-12-10 23:33:20
Size: 4892
Editor: ?AxelBojer
Comment:
Deletions are marked like this. Additions are marked like this.
Line 7: Line 7:
Neste møte blir sannsynligvis mandag den 14. januar på AFK galleri kl. 17:30–21.
Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-01-14"].
Neste møte blir sannsynligvis mandag den 14. januar på AFK galleri kl. 17:30–21. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-01-14"].
Line 17: Line 16:
Vi startet med å gå igjennom hva vi har fra før av informasjon, deretter så vi på strukturen på ordlista slik den foreligger på http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/ Vi konsentrerte oss om fila source.gz, da det er der den fullstendige lista ligger, og de andre er bare utsnitt av denne helheten.  Vi startet med å gå igjennom hva vi har fra før av informasjon, deretter så vi på strukturen på ordlista slik den foreligger på http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/ Vi konsentrerte oss om fila source.gz, da det er der den fullstendige lista ligger, og de andre er bare utsnitt av denne helheten.
Line 23: Line 22:
WORD: ord [[BR]]
STATUS: + [[BR]]
EDITOR: meg [[BR]]
DATE: i dag [[BR]]
WORD: ord [[BR]] STATUS: + [[BR]] EDITOR: meg [[BR]] DATE: i dag [[BR]]
Line 34: Line 30:
Line 40: Line 35:
     AUTHORITY: Norske synonymer blå ordbok av Dag Gundersen [[BR]]
     AUTHORITY: Norsk Ordbok [[BR]]
     AUTHORITY: Norsk ordbok [[BR]]
    
AUTHORITY: Norsk Ordbok med 1000 illustrasjoner [[BR]]
    
AUTHORITY: Norsk ordbok med 1000 illustrasjoner, annen utg. [[BR]]
   . AUTHORITY: Norske synonymer blå ordbok av Dag Gundersen [[BR]] AUTHORITY: Norsk Ordbok [[BR]] AUTHORITY: Norsk ordbok [[BR]] AUTHORITY: Norsk Ordbok med 1000 illustrasjoner [[BR]] AUTHORITY: Norsk ordbok med 1000 illustrasjoner, annen utg. [[BR]]
Line 49: Line 40:
Line 55: Line 45:
Hva betyr [[BR]]
EDITOR: Rune Klevelands ordliste [[BR]]
hører ikke den informasjonen til i feltet SOURCE?
Hva betyr [[BR]] EDITOR: Rune Klevelands ordliste [[BR]] hører ikke den informasjonen til i feltet SOURCE?
Line 59: Line 47:
Reglene kunne vi tenke oss brukt til en automatisk bearbeidelse, for eksempel å hente ut ord fra databasen.  Reglene kunne vi tenke oss brukt til en automatisk bearbeidelse, for eksempel å hente ut ord fra databasen.
Line 63: Line 51:
|| DATE ||<style="text-align: right;"> 1 206 265 ||
|| EDITOR ||<style="text-align: right;"> 1 206 265 ||
|| STATUS ||<style="text-align: right;"> 1 206 265 ||
|| WORD ||<style="text-align: right;"> 1 206 265 ||
|| AUTHORITY ||<style="text-align: right;"> 628 388 ||
|| COMPOSITE-WORD ||<style="text-align: right;"> 24 968 ||
|| HYPHENATION ||<style="text-align: right;"> 19 657 ||
|| ROOT ||<style="text-align: right;"> 18 094 ||
|| CONJUGATION ||<style="text-align: right;"> 17 645 ||
|| CLASS ||<style="text-align: right;"> 17 735 ||
|| CONJUGATION-RULE ||<style="text-align: right;"> 17 048 ||
|| CORRECTION ||<style="text-align: right;"> 6 039 ||
|| COMMENT ||<style="text-align: right;"> 3 566 ||
|| SYNONYM ||<style="text-align: right;"> 398 ||
|| EXAMPLE ||<style="text-align: right;"> 76 ||
|| CATEGORY ||<style="text-align: right;"> 13 ||
|| DESCRIPTION || 7 ||
|| SOURCE ||3 ||
|| ANTONYM || 1 ||
Line 64: Line 71:
DATE = 1 206 265 [[BR]]
EDITOR = 1 206 265 [[BR]]
STATUS = 1 206 265 [[BR]]
WORD = 1 206 265 [[BR]]
AUTHORITY = 628 388 [[BR]]
COMPOSITE-WORD = 24 968 [[BR]]
HYPHENATION = 19 657 [[BR]]
ROOT = 18 094 [[BR]]
CONJUGATION = 17 645 [[BR]]
CLASS = 17 735 [[BR]]
CONJUGATION-RULE = 17 048 [[BR]]
CORRECTION = 6 039 [[BR]]
COMMENT = 3 566 [[BR]]
SYNONYM = 398 [[BR]]
EXAMPLE = 76 [[BR]]
CATEGORY = 13 [[BR]]
DESCRIPTION = 7 [[BR]]
SOURCE = 3 [[BR]]
ANTONYM = 1 [[BR]]

[http://wiki.debian.org/SpellNorwegian/Møteplan Referat fra tidligere møter]

Møtet fant sted på Akershus fylkeskommune (AFK), 5.11.07 kl. 17:30–21.

Forrige møte fant sted på AFK, mandag 26. november. 2007 ?BR Informasjon om møtet ligger på ["SpellNorwegian/Møte/2007-11-26"].

Neste møte blir sannsynligvis mandag den 14. januar på AFK galleri kl. 17:30–21. Informasjon om møtet ligger på ["SpellNorwegian/Møte/2008-01-14"].

Tilstede

Michael Fogeborg, Axel Bojer og Terje Erlend Reite

Referent

Axel Bojer

Møtereferat

Vi startet med å gå igjennom hva vi har fra før av informasjon, deretter så vi på strukturen på ordlista slik den foreligger på http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/ Vi konsentrerte oss om fila source.gz, da det er der den fullstendige lista ligger, og de andre er bare utsnitt av denne helheten.

Database på Tyge

Problemet

Vi lekte oss litt med Perl for å se hva vi kunne få til, og det viser seg å være ikke spesielt vanskelig å hente ut relevant informsjon, da tekstfila er godt strukturert, iallfall innad i hver enkelt ordblokk av typen:

WORD: ord ?BR STATUS: + ?BR EDITOR: meg ?BR DATE: i dag ?BR

Derimot er det endel ulikheter og problemer som vi har forsøkt å finne en løsning på:

  1. Hva gjør vi med dobbeltoppføringer?
    1. Hva om CORRECTION er samme som WORD?
    2. Hva om en av oppføringene er mer omfattende (flere angitte felt, f.eks. informasjon om ordklasser i den ene av dobbeltoppføringene, men ikke de andre)
    3. Hvilken oppføring skal ha forrang om vi har flere, kan dette gjøres automatisk?

Løsningsforslag

Regler:

  1. Ranger viktigheten etter authority-lista (det følgende er alle de oppføringene vi fant brukt)
    1. AUTHORITY: Norsk ordbank ordbank_bm.zip 2007-07-09
    2. (Likestilte, da dette er manuelt sjekket i en ordbok)
      • AUTHORITY: Norske synonymer blå ordbok av Dag Gundersen ?BR AUTHORITY: Norsk Ordbok ?BR AUTHORITY: Norsk ordbok ?BR AUTHORITY: Norsk Ordbok med 1000 illustrasjoner ?BR AUTHORITY: Norsk ordbok med 1000 illustrasjoner, annen utg. ?BR

    3. Alt annet
  2. I en ordblokk: Hvis WORD og CORRECTION er like, dropp linja CORRECTION
  3. Hvis EDITOR og WORD i en ordblokk er lik EDITOR og WORD i en annen ordblokk, la da nyeste ordblokk være autorativ (bruk DATE-feltet).
  4. Hvis EDITOR ikke er angitt proriteres ordet lavere enn andre oppføringer av samme ord av andre EDITOR.

Kommentarer til reglene

Et problem med regel tre er kanskje hvis man sender samme ord to ganger samme dag, da trenger man en tilleggsregel. Om ordene legges inn med det sist innmeldte sist, så kan rekkefølgen være et tilleggskriterium.

Regel tre kan brukes til å rette opp feiloppføringer i andre felt enn WORD. Rettelser for dette feltet ser i fortsatt ingen automatisk løsning på, men kanskje man kunne laget et system for å sende ut ord til korrektur der automatikken ikke strekker til. Nøyaktig hvilke ord dette er må fastlegges.

Hva betyr ?BR EDITOR: Rune Klevelands ordliste ?BR hører ikke den informasjonen til i feltet SOURCE?

Reglene kunne vi tenke oss brukt til en automatisk bearbeidelse, for eksempel å hente ut ord fra databasen.

Felt som er i bruk

Vi hentet ut statistikk over hvilke felt som er i bruk og hvor ofte hver av dem er blitt brukt. De fire første er brukt hver gang (og er obligatoriske), mens de andre er dels ganske sjeldne.

DATE

1 206 265

EDITOR

1 206 265

STATUS

1 206 265

WORD

1 206 265

AUTHORITY

628 388

COMPOSITE-WORD

24 968

HYPHENATION

19 657

ROOT

18 094

CONJUGATION

17 645

CLASS

17 735

CONJUGATION-RULE

17 048

CORRECTION

6 039

COMMENT

3 566

SYNONYM

398

EXAMPLE

76

CATEGORY

13

DESCRIPTION

7

SOURCE

3

ANTONYM

1

Noen av disse vil kanskje bare ligge lagret enn så lenge, da vi ikke har noe å bruke dem til, men f.eks. informasjon om CLASS og CONJUGATION-RULE kan brukes til å fastslå hvilke ord som kan settes sammen om noen tar dette i bruk. Men det vil på den annen side også kreve at dette er angitt for mer enn bare noen få ord hvis det skal være nyttig. Kanskje Ordbanken i framtiden kan levere mer metainformasjon?