masterspammer (masterspammer) wrote,
masterspammer
masterspammer

Category:

Инсинуирую помаленьку

Когда-то, почти уже в прошлой жизни, пишу поисковый полнотекстовый алгоритм, никого не трогаю. Морфология, индексы, всё как надо. Натыкаюсь на довольно редкий баг - при поиске некоторых слов находятся (реально подсвечиваясь в тексте, то есть они там есть) другие - не то, чтоб совсем посторонние, но как-то сродни, причём не очень понятно - как. Но точно - сродни. Данных много, ошибка вылезает при нагрузочном тестировании, на мелких данных прячется.

Пример "инсинуации" - "Пелевин". Вот и понимай, как хочешь.

Как именно искал, уже не помню, но проблема оказалась такой: при добавлении слова в словарь (в определённых условиях) возвращался неверный ID, то ли от предыдущего слова, то ли от следующего и вот только это вхождение индексировалось неверно. Получалось, что при добавлении текста с новыми словами иногда два новых слова путались. А при проверке на мелких данных не было такого, чтоб добавлялись два слова подряд, почти всё в словаре было.
Tags: Мозгоёбари, Обломы, Офигинеть!, РазборПолётов, ТекстовыеАлгоритмы
Subscribe

  • (no subject)

    По тихой грусти прошёл тест по шкале депрессии Бека. Получил 11 (легкая депрессия, субдепрессия); потом подумал, что мой ответ про потерю веса…

  • Алдан

    Кажется, я знаю, как назвать своё "произведение" на Z80; про идею я писал несколько раз, а кратко это: 1. "системный" режим,…

  • (no subject)

    В общем, загад (вот гад!) не бывает богат. Из запланированного сделал абсолютный минимум. Эпиграфом субботы был анекдот про лягушку, ходившую по…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 2 comments