Граматика за български език
Това е версия 0.1 на системата за граматически анализ на български
език Граматика. За сега системата може да разпознава типа и формата
на въведените думи (за справка на броя думи, които се разпознават
вижте главния сайт). В бъдеще трябва да се направи модул за проверка
на съгласуване на частите на речта, за определяне на мястото на
запетайките и пр.
Ако искате да пробвате версията, щракнете на връзката Граматика
в секцията Онлайн. Ако искате да се занимавате с развитие на
системата, прочетете инструкциите за изтегляне и компилиране.
Указания за изтегляне и компилиране на граматиката
Изтеглете последната версия на Граматика от хранилището SVN.
Разархивирайте файла, влезте в директорията и компилирайте
програмата по следния начин:
c++ test.cpp
При което се получава изпълним файл с името a.out
, който
може да стартирате. За да работи програмата има нужди от данни, които не се
разпространяват за момента с нея (защото са много обемни и защото все
още е само версия за разработчици). За да си набавите данните,
трябва да изтеглите версията за разработчици на БГ Офис от
тук.
Тя се използва за да се генерират базите с думи и типове
за системата Граматика. Разархивирайте файла, влезте в директорията
bgoffice/bin/grammar
и изпълнете командата:
./build_all.sh
Командата ще генерира всички необходими файлове за работата на
системата. След изпълнението на командата ще се получат следните файлове
с разширение .dat
:
root_words.dat
, derivative_words.dat
,
config.dat
, parts.dat
, types.dat
.
Копирайте тези файлове в директорията, където се намира системата
Граматика (може да използвате командата mv *.dat
, други
файлове с разширението няма, така че е безопасно да се ползва).
След като сте готови, стартирайте ./a.out
. Програмата
чете данните от стандартния вход и печата резултата на стандартния
изход. Просто, въведете дума, на която искате да видите типа и формата.
Забележете, че се приемат думи само на кирилица, кодова таблица CP1251,
само малки букви и без никакви други знаци. Примерно:
./a.out
граматиката
съществително име, женски род - ед.ч., членувано
граматика основна форма
граматика ед.ч.
граматиката ед.ч., членувано
граматики мн.ч.
граматиките мн.ч., членувано
[няма форма] звателна форма