Записи Друзья Комментарии

rss habrahabr rss habrahabr

Аватар rss_habrahabr

-Поиск по дневнику

-Подписка по e-mail

-Постоянные читатели

count

-Статистика

Создан: 22.11.2006
Записей:
Комментариев:
Написано: 2

Отчеты:
Посетители
Поисковые фразы

[Перевод] Конвейер обработки текста в Sphinx

Среда, 24 Декабря 2014 г. 13:25 + в цитатник

Обработка текста в поисковом движке выглядит достаточно простой снаружи, однако на самом деле это сложный процесс. При индексации текст документов должен быть обработан стриппером HTML, токенайзером, фильтром стопслов, фильтром словоформ и морфологическим процессором. А ещё при этом нужно помнить про исключения (exceptions), слитные (blended) символы, N-граммы и границы предложений. При поиске всё становится ещё сложнее, поскольку помимо всего вышеупомянутого нужно вдобавок обрабатывать синтаксис запроса, который добавляет всевозможные спец. символы (операторы и маски). Сейчас мы расскажем, как всё это работает в Sphinx.

Картина в целом

Упрощённо конвейер обработки текста (в движке версий 2.х) выглядит примерно так:

Выглядит достаточно просто, однако дьявол кроется в деталях. Есть несколько очень разных фильтров (которые применяются в особом порядке); токенайзер занимается ещё чем-то помимо разбиения текста на слова; и наконец под «и т.д.» в блоке морфологии на самом деле находится ещё по меньшей мере три разных варианта.

Поэтому более точной будет следующая картина:

А теперь перейдём к деталям

http://habrahabr.ru/post/246679/

<a href="https://www.liveinternet.ru/users/rss_habrahabr/post347663857/">[РџРµСЂРµРІРѕРґ] РљРѕРЅРІРµР№РµСЂ РѕР±СЂР°Р±РѕС‚РєРё С‚РµРєСЃС‚Р° РІ Sphinx</a><br/>РћР±СЂР°Р±РѕС‚РєР° С‚РµРєСЃС‚Р° РІ РїРѕРёСЃРєРѕРІРѕРј РґРІРёР¶РєРµ РІС‹РіР»СЏРґРёС‚ РґРѕСЃС‚Р°С‚РѕС‡РЅРѕ РїСЂРѕСЃС‚РѕР№ СЃРЅР°СЂСѓР¶Рё, РѕРґРЅР°РєРѕ РЅР° СЃР°РјРѕРј РґРµР»Рµ СЌС‚Рѕ СЃР»РѕР¶РЅС‹Р№ РїСЂРѕС†РµСЃСЃ. РџСЂРё РёРЅРґРµРєСЃР°С†РёРё С‚РµРєСЃС‚ РґРѕРєСѓРјРµРЅС‚РѕРІ РґРѕР»Р¶РµРЅ Р±С‹С‚СЊ РѕР±СЂР°Р±РѕС‚Р°РЅ СЃС‚СЂРёРїРїРµСЂРѕРј HTML, С‚РѕРєРµРЅР°Р№Р·РµСЂРѕРј, С„РёР»СЊС‚СЂРѕРј СЃС‚РѕРїСЃР»РѕРІ, С„РёР»СЊС‚СЂРѕРј СЃР»РѕРІРѕС„РѕСЂРј Рё РјРѕСЂС„РѕР»РѕРіРёС‡РµСЃРєРёРј РїСЂРѕС†РµСЃСЃРѕСЂРѕРј. Рђ РµС‰С‘ РїСЂРё СЌС‚РѕРј РЅСѓР¶РЅРѕ РїРѕРјРЅРёС‚СЊ РїСЂРѕ РёСЃРєР»СЋС‡РµРЅРёСЏ (exceptions), СЃР»РёС‚РЅС‹Рµ (blended) СЃРёРјРІРѕР»С‹, N-РіСЂР°РјРјС‹ Рё РіСЂР°РЅРёС†С‹ РїСЂРµРґР»РѕР¶РµРЅРёР№. РџСЂРё РїРѕРёСЃРєРµ РІСЃС‘ СЃС‚Р°РЅРѕРІРёС‚СЃСЏ РµС‰С‘ СЃР»РѕР¶РЅРµРµ, РїРѕСЃРєРѕР»СЊРєСѓ РїРѕРјРёРјРѕ РІСЃРµРіРѕ РІС‹С€РµСѓРїРѕРјСЏРЅСѓС‚РѕРіРѕ РЅСѓР¶РЅРѕ РІРґРѕР±Р°РІРѕРє РѕР±СЂР°Р±Р°С‚С‹РІР°С‚СЊ СЃРёРЅС‚Р°РєСЃРёСЃ Р·Р°РїСЂРѕСЃР°, РєРѕС‚РѕСЂС‹Р№ РґРѕР±Р°РІР»СЏРµС‚ РІСЃРµРІРѕР·РјРѕР¶РЅС‹Рµ СЃРїРµС†. СЃРёРјРІРѕР»С‹ (РѕРїРµСЂР°С‚РѕСЂС‹ Рё РјР°СЃРєРё). РЎРµР№С‡Р°СЃ РјС‹ СЂР°СЃСЃРєР°Р¶РµРј, РєР°... <a href="https://www.liveinternet.ru/users/rss_habrahabr/post347663857/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet