masterspammer (masterspammer) wrote,
masterspammer
masterspammer

Очень в отпуск хочется...

...и он ожидается вот-вот.

Сил ковырять что-то лампово-полупроводниковое нет вообще; только на старом терминале mhdd трудится над старым винтом из ноута. Понял отчего терминал начал тормозить - за время его службы память постоянно уменьшалась и теперь там только 512М. Ну да, а на мамином компе теперь два гига... как раз отсюда ;-)

Из цифровых дел - только словари.

Сначала есть лебедевский:
...
частичка/I
частичность/F
частичный/AS
частник/K
частнопрактикующий/A
...

flag *A:
#
# прилагательные и причастия
#
# прилагательные/причастия на -ый (м.р. в ед. и мн.ч.)
    [^Ц] Ы Й    >       -ЫЙ,ОГО         # белый > белого (р.п.)
    Ц Ы Й       >       -ЫЙ,ЕГО         # куцый > куцего (р.п.)
    [^Ц] Ы Й    >       -ЫЙ,ОМУ         # белый > белому (д.п.)
    Ц Ы Й       >       -ЫЙ,ЕМУ         # куцый > куцему (д.п.)
    Ы Й         >       -Й,М            # белый > белым (т.п.)

То есть слова и склонялка; а есть ещё и корпуса кусок, там вот так:

1
ЁЖ      NOUN,anim,masc sing,nomn
ЕЖА     NOUN,anim,masc sing,gent
ЕЖУ     NOUN,anim,masc sing,datv
ЕЖА     NOUN,anim,masc sing,accs
ЕЖОМ    NOUN,anim,masc sing,ablt
ЕЖЕ     NOUN,anim,masc sing,loct
ЕЖИ     NOUN,anim,masc plur,nomn
ЕЖЕЙ    NOUN,anim,masc plur,gent
ЕЖАМ    NOUN,anim,masc plur,datv
ЕЖЕЙ    NOUN,anim,masc plur,accs
ЕЖАМИ   NOUN,anim,masc plur,ablt
ЕЖАХ    NOUN,anim,masc plur,loct

(этого ёжика все уже видели наверно, привет, kmike, кстати!)

И вот с эти ежом я скрещиванием ужей и занимаюсь. Хочется

1. мелкого словаря (200 мегов это перебор и даже 100 тоже);
2. найти и устранить ошибки (а они есть, я уже нашёл);
3. всякой разной работы с НЕзнакомыми словами и их формами (предсказание, исправление ошибок и прочее) и добавление в словарь тоже;
4. поддержки оммонимии (не до снятия пока), у Лебедева - нет, если прилагательное и сущиствительное пишутся одинаково, то просто будет суммарный набор флагов;
5. ненужных для смысла (в корпусе их нет), но требуемых для понимания человеком склонений, спряжений и прочего; у Лебедева они только в комментариях;
6. мультиплатформенности (в данном случае - Python, JavaScript, C, Java, Perl) - я не пишу код, я пишу генератор кода.

Пока научился это счастье (словари) парсить, сделал генератор в Python и опробовал его в режимах "склонялка для всего" и то же - наизнанку, сделал предсказание правил для склонялки для прилагательных (полностью, то есть результат лучше того, что у Лебедева) и исправление (введение множественного числа с сохранением склонения) правил для существительных; так же добавил пару обнаруженных в процессе правил.

Tags: ЛичноЖизненное, ТекстовыеАлгоритмы, Язык
Subscribe

  • 3D в La Scala

    Это вот про такую картинку - где сзади стенки сходятся и зажимают треугольный рассекатель. И вот ещё про что.…

  • От субботы до субботы!

    Шкафчики красиво подвесил - в точности в той конфигурации, как они висели на прошлой их (не нашей!) кухне. Обнаружил небольшой уклон вбок (заметную…

  • Алдан

    Кажется, я знаю, как назвать своё "произведение" на Z80; про идею я писал несколько раз, а кратко это: 1. "системный" режим,…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments