masterspammer (masterspammer) wrote,
masterspammer
masterspammer

Category:

Инсинуирую помаленьку

Когда-то, почти уже в прошлой жизни, пишу поисковый полнотекстовый алгоритм, никого не трогаю. Морфология, индексы, всё как надо. Натыкаюсь на довольно редкий баг - при поиске некоторых слов находятся (реально подсвечиваясь в тексте, то есть они там есть) другие - не то, чтоб совсем посторонние, но как-то сродни, причём не очень понятно - как. Но точно - сродни. Данных много, ошибка вылезает при нагрузочном тестировании, на мелких данных прячется.

Пример "инсинуации" - "Пелевин". Вот и понимай, как хочешь.

Как именно искал, уже не помню, но проблема оказалась такой: при добавлении слова в словарь (в определённых условиях) возвращался неверный ID, то ли от предыдущего слова, то ли от следующего и вот только это вхождение индексировалось неверно. Получалось, что при добавлении текста с новыми словами иногда два новых слова путались. А при проверке на мелких данных не было такого, чтоб добавлялись два слова подряд, почти всё в словаре было.
Tags: Мозгоёбари, Обломы, Офигинеть!, РазборПолётов, ТекстовыеАлгоритмы
Subscribe

  • (no subject)

    Много всякого, но добрался и до деревяшек - применил новые фанерины, снял фаски (грани скруглил фрезой) и прогрунтовал поверхность. Как минимум +2…

  • Наши руки не для скуки

    (но они немного крюки, да) За время стройки и около того несколько отошёл от того, чтоб делать руками мелкие вещи. Проблема осознанна, кое-что…

  • la scala bass reflex mod vs лень

    К la Scala иногда приделывают фазоинвертор понизу. Выходит обычно хорошо. Давно обдумывая вариант - две колонки, сверху столешница - поглядывал на…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 2 comments