Граматичен анализ Онлайн: Офис помощник Граматика

Граматика за български език

Това е версия 0.1 на системата за граматически анализ на български език Граматика. За сега системата може да разпознава типа и формата на въведените думи (за справка на броя думи, които се разпознават вижте главния сайт). В бъдеще трябва да се направи модул за проверка на съгласуване на частите на речта, за определяне на мястото на запетайките и пр.

Ако искате да пробвате версията, щракнете на връзката Граматика в секцията Онлайн. Ако искате да се занимавате с развитие на системата, прочетете инструкциите за изтегляне и компилиране.

Указания за изтегляне и компилиране на граматиката

Изтеглете последната версия на Граматика от хранилището SVN. Разархивирайте файла, влезте в директорията и компилирайте програмата по следния начин:

c++ test.cpp

При което се получава изпълним файл с името a.out, който може да стартирате. За да работи програмата има нужди от данни, които не се разпространяват за момента с нея (защото са много обемни и защото все още е само версия за разработчици). За да си набавите данните, трябва да изтеглите версията за разработчици на БГ Офис от тук. Тя се използва за да се генерират базите с думи и типове за системата Граматика. Разархивирайте файла, влезте в директорията bgoffice/bin/grammar и изпълнете командата:

./build_all.sh

Командата ще генерира всички необходими файлове за работата на системата. След изпълнението на командата ще се получат следните файлове с разширение .dat: root_words.dat, derivative_words.dat, config.dat, parts.dat, types.dat. Копирайте тези файлове в директорията, където се намира системата Граматика (може да използвате командата mv *.dat, други файлове с разширението няма, така че е безопасно да се ползва).

След като сте готови, стартирайте ./a.out. Програмата чете данните от стандартния вход и печата резултата на стандартния изход. Просто, въведете дума, на която искате да видите типа и формата. Забележете, че се приемат думи само на кирилица, кодова таблица CP1251, само малки букви и без никакви други знаци. Примерно:

./a.out
граматиката
съществително име, женски род - ед.ч., членувано
граматика                     основна форма
граматика                     ед.ч.
граматиката                   ед.ч., членувано
граматики                     мн.ч.
граматиките                   мн.ч., членувано
[няма форма]                  звателна форма