sk-spell

podpora slovenčiny v Open Source programoch

ispell-sk   

posledná zmena: 18. February 2009

ispell je pomerne známy Open Source spell checker. Na tejto stránke nájdete projekt, cieľom ktorého je vyvíjať slovník slovenského jazyka pre tento program.

licencia

Dáta sú vydané pod licenciami GPL (v2), LGPL (v2.1) a MPL (1.1). Anglické znenie licencie nájdete na http://www.opensource.org/licenses. Preklady licencií GPL a LGPL nájdete na www.gnu.sk a www.gnu.cz

download

“admin friendly” links:

packages, ports

inštalácia

Spracovanie slovníka a gramatického súboru vykonáte príkazom make (bsd make alebo gnu make). buildhash, súčasť programu ispell musí byť nainštalovaný a prístupný v ceste ($PATH).

$ tar xvzf ispell-sk-x.y.z.tgz
$ cd ispell-sk-x.y.z
$ make

Inštaláciu súborov slovak.aff a slovak.hash (default do /usr/lib/ispell/) spustíte príkazom (vyžaduje root)

$ sudo make install

V prípade, že chcete inštalovať slovník do iného adresára, použite premennú $(DESTDIR), napr.

$ sudo make DESTDIR=/usr/local/lib/ispell/ install 

zmeny

23.7.2006 – aktualizácia slovníka, pridané 3-písmenkové slová (vďaka p. Vernarskému)

ďaľšie linky

používanie slovníka a pridávanie nových slov

Daný súbor môžete skontrolovať pomocou príkazu:

$ ispell -d slovak subor

Vzhľadom na použitú kódovaciu stránku (iso-8859-2) nie je možné v Ispelle použiť slová s písmenom ö (napr. föhn, göteborgský), hoci Pravidlá slovenského pravopisu tieto slová poznajú.

Pokiaľ počas kontroly pri nájdení neznámeho slova zvolíte možnosť I(insert), bude slovo pridané do súboru $HOME/.ispell_slovak. Ak chcete pomôcť s vytváraním slovníka, zašlite tento súbor (pokiaľ to bude možné, tak vyčistený od nespisovných a cudzích slov) na adresu Zdenko Podobný [zdpo (at) mailbox (.) sk].

Ak chcete iba prispieť k rozšíreniu slovníka a nechcete text interaktívne kontrolovať, môžete použiť príkaz

$ ispell -d slovak -l < subor > vystup

ktorý pracuje neinteraktívne a uloží do súboru výstup všetky slová z kontrolovaného súboru, ktoré sa nenachádzajú v slovníku. Zasielajte nám prosím iba súbory, ktoré vznikli kontrolou súčasných spisovných textov.

Pokiaľ chcete pridariť flag nejakému slovu (v základnom tvare) skúste najprv pohľadať najvhodnejší flag (žiaľ nie pre všetky slová je vhodné použiť flag podľa vzoru, ktorý sa používa podľa Pravidiel slovenského pravopisu, Napr. podľa [1] by sa slovo motocykel mal skloňovať podľa vzoru dub (a teda by malo mať flag B) a v lokále by malo končiť na písmeno -i. Toto je však dosť problematické zabezpečiť v pravidlách pre vzor dub. Oveľa jednoduchšie je priradiť slovo motocykel k vzoru stroj a teda použiť flag J. Týmto je možné zabezpečiť, že pravidlá nebudú zbytočne komplikované. Mimochodom flag B je už aj tak veľmi komplikovaný — obsahuje 161 pravidiel a bude ho treba optimalizovať…

Na otestovanie kombinácie flagu so slovom použite nasledovný príkaz:

$ echo slovo/flag | ispell -e -d slovak

Príklad:

$ echo motocykel/B | ispell -e -d slovak 
$ echo motocykel/J | ispell -e -d slovak

Osobitne je vhodné takto skontrolovať slovesá, ktoré pre väčšinu z nás je dosť ťažké zaradiť do správneho vzoru. Použité “flagy” v slovenskej verzii:

  AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz
Obsadené A B C D E F   H I J K L M N O P Q R S T U V W X Y Zz
Voľné  a b c d e fGg h i j k l m n o p q r s t u v w x y

popis flagov:

N prefix ne
Z žena – množné číslo
z žena-iba jednotné číslo (napr. látkové podst. mená-ropa, názvy jazykov-slovenčina prípadne ďalšie veci, pre ktoré sa nepoužíva množné číslo…
U ulica
D dlaň
K kosť a gazdiná
M mesto
S srdce
V vysvedčenie
A dievča
C chlap a kuli
H hrdina
B dub
O dub – zámen hlások v koncovke
J stroj
L zvieracie podstatné mená mužského rodu
Q pomnožné
Y prídavné mená – všetky, kt. nie sú zakončené na -í
I prídavné mená zakončené na -í
F stupňovanie prídavných mien – 3. stupeň
P stupňovanie prídavných mien – 2. stupeň
X slovesá podľa vzorov chytať, robiť s krátkou koncovkou
E slovesá podľa vzorov chytať, robiť s dlhou koncovkou
W slovesá podľa vzorov pracovať
T slovesá podľa vzorov česať
R slovesá podľa vzorov kričať, brať

Poznámky k pridávaniu slov k flagu z/Z

Pred pridaním slova k týmto flagom treba najprv otestovať, či sa vygenerujú všetky prípustné pády správne. Kľúčovými pádmi sú Genitív množného čísla (affix pravidlá pre tento pád vzoru žena sú vytvorené príliš na mieru slovám, ktoré boli k dispozícií pri ich tvorbe. Na 98% nebude vytvorený tento pád pre slová s počtom písmen 4 a menej — treba ho potom podľa Pravidiel dopísať do ‘slovak-noflag.words’ resp. poslať ich správcovi Ispellu s upozornením, že všetko nie je v poriadku), Datív a Lokál množného čísla. Pri vzore žena sa dôsledne dodržiava rytmický zákon — aj keď výnimky existujú (musia byť uvedené v Pravidlách).

Do flagov z/Z patria všetky slová ženského rodu zakončené na ‘a’, pred ktorou sa nachádza nemäkká spoluhláska a cudzie slová končiace na -ea, -eu, -oa. Rozhodnutie, či má mať slovo flag ‘z’ alebo ‘Z’ zavisí viac menej od citu. Pokiaľ Pravidlá uvádzajú Gen. množ. čísla, tak slovo má mať ‘flag Z’ — v ostatných prípadoch sa treba rozhodnúť (radšej preferujte ‘z’ ako ‘Z’, lebo množné číslo je dosť komplikované a nemusí dať správne výsledky.

Pokiaľ sú problémy pri generovaní množného čísla treba použiť iba ‘flag z’ a zvyšok ručne dopísať do ‘slovak-noflag.words’ (toto sa stalo napríklad slovu ‘mŕtvina’).

Rozdelenie hlások

samohlásky:

krátke: a ä o u i y e
dlhé: á ó ú í ý é (prípadne aj ŕ ĺ)
dvojhlásky: ia ie iu ô (považované za dlhé)

V niektorých prípadoch sa môže vyskytnúť kombinácia ‘io’ — toto nie je považované za dvojhlásku a nie je možné túto kombináciu považovať za ‘dlhú hlásku’.

spoluhlásky:
(na rozdiel od samohlások môžu tvoriť slabiku – treba na to dávať pozor pri rytmickom zákone): b, c, č, d, ď, dz, dž, f, g, h, ch, j, k, l, ľ, m, n, r, s, š, t, ť, v, z, ž
r, ŕ, l, ĺ — môžu vystupovať ako samohlásky, keď sú medzi spoluhláskami (zámlka)

mäkké: c, dz, j, ľ, š, č, ť, ž, ň, ď
tvrdé: g, h, ch, k, d, t, n, l
obojaké: b, m, p, v, f, r, s, z

Použitá literatúra:
[1] Ladislav Navrátil: Skloňovanie podstatných mien, Enigma 1996
[2] Pravidlá slovenského pravopisu, Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, 2000
[3] Jozef Mistrík, Slovenčina pre každého, Slovenské pedagogické nakladateľstvo Bratislava, 1967

autori

prispievatelia:

© projekt sk-spell

RSS [opensource] [w3c] [firefox] [textpattern]