За проекта
Този проект има за цел да създаде база с думи за проверка на правописа, проверка за съгласуване на частите на речта (проверка на граматиката) и сричкопренасяне. Идеята е да се направят пакети за поддръжка на българския език за продукти със свободен/отворен изходен код като OpenOffice.org, aspell, ispell, Mozilla и други.
Системата е основана изцяло на книгата/учебника на Кръстев Б., Морфология на българския език в 187 типови таблици. С., НИ, 1984. Много интересно и полезно четиво. Първоначално идеята беше да се създаде проверка на правописа. Имаше събрани достатъчно думи, но липсваха правилата за образуване на словоформите. След намирането на тази книга, количествените натрупвания преминаха в качествени и тогава се промени изцяло формата и структурата на данните за да отговарят на тези 187 типа. Промениха се и идеята, и стратегията за развитие на проверката на правописа. Информацията, която сега се съдържа във файловете, дава възможност за осъществяване на много повече цели освен проверка на правописа. Сравнително лесно може да се направи система за проверка на съгласуването на частите на речта. Не е трудно да се направи програма за разпознаване на думите и определяне на техния тип, лице, числото и дали (не) са членувани. Но това са бъдещи планове.
Думите идват главно от две места. Първата партида (около 30 000 думи) идват от SA Dictionary и от O2 Dictionary (известен преди като Otto Dictionary). След това бяха добавени около 20 000 нови думи от http://dabuzzard.250free.com/. Третата партида думи, около 10 000, включваше компютърни термини, наименования на държави, градове и др. понятия, главно събирани от Интернет. Също така беше прегледан списъкът с думи, който остана необработен от предната версия. В момента по-важната задача е да се прегледат наличните думи за грешки. Българските имена и фамилии са събирани от разни списъци в Интернет. Главно от страниците на комисията за изборите, където са публикувани всички кандидат депутати и от разни други места, където има списъци с имена на хора. Имената на градовете и държавите са събирани от разни правителствени страници в Интернет, където има примерно списък на страните, с които имаме не знам си каква спогодба.
Към системата има няколко скрипта на Perl, с чиято помощ се извършва проверка на системата, добавяне на нови думи и генерирана на речници за OpenOffice.org, aspell и ispell. Най-добре да използвате системата под Linux (понеже голяма част от командите, които използвам ги няма под Windows). Ако някой иска да ползва системата за генериране на речници или добавяне на нови думи под Windows, трябва да си инсталира Perl и Cygwin. Но тогава Windows-a ще заприлича на Linux, та затова направо си инсталирайте Linux и забравете за Windows.
Ако желаете само да добавяте нови думи и да генерирате речниците, то прочетете кратките обяснения в стил "Как да?".
Ако някой мисли да се занимава с разширяване на системата, добре е да прочете спецификацията й. Там има няколко файла, които описват структурата на директориите, типовете и файловете с данни. Има подробно обяснение на структурата на директориите и правилата за дефиниране и създаване на типове и подтипове. Описан е и процесът на обхождане на тези типове (файлове) и начина на генериране на последователни имена. Има и подробна спецификация за вътрешната структура на файловете (формата на данните). Описани са правилата за обработка на файл. Описан е начинът за образуване на словоформи от основната форма.
Проектът се развива заедно с развитието на продуктите. Така примерно, към ООо бе добавен синонимен речник. Поради тази причина, стана наложително да се създаде и синонимен речник. Също така, проектът KBE Dictionary бе интегриран с този проект. Идеята е в далечното бъдеще да се създаде система за автоматичен превод на и от английски език. Също така, наложително беше да се интегрират наличните речници като синонимен и правописен в KBE Dictionary. Поради тази причина, KBE Dictionary вече няма да се поддържа, кодът ще бъде интегриран в този проект и продуктът ще се казва БГ Офис помощник.
Речниците са конвертирани до текстови файлове и могат да бъдат редактирани с обикновен текстов редактор. Който изявява желание, може да добавя нови думи или да оправя грешки. Има създадени няколко скрипта на Perl, които проверяват текстовите файлове и генерират речниците в двоичния формат. Форматът на базите не е променен спрямо старата версия, така че може да ползвате тези бази със старата програма.
Синонимният речник все още е в начална фаза на разработка и няма много думи. Думите идват от английско-българската база. Примерно, думата like има превод "подобен, сходен, приличащ на", което е едно синонимно гнездо.
Синонимният речник също е в текстов формат и може да се конвертира до формат, поддържан от Офис помощника. Също така, има скриптове, които конвертират синонимния речник до формат за ООо. По този начин се поддържат всички функции, които предоставя ООо. Става въпрос за проверка на правописа, сричкопренасяне и синонимен речник.