Как «Дадата» ищет дубли в списках торговых точек
|
|
Вторник, 28 Ноября 2017 г. 16:30
+ в цитатник
Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.
Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:
- Евразия.
- «САКУРА» Японская кухня.
- Доминант.
- Магазин-бутик «Евразия».
- Милениум, ООО, продуктовый магазин.
- Киви/ООО/Челябинск.
- Супермаркет эко-продуктов «Доминант».
Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.
А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Что за проблемы и как мы их решаем
https://habrahabr.ru/post/343150/
Метки:
author DEADStop
поисковые технологии
алгоритмы
блог компании hflabs
дедупликация
торговые представители
fmcg
юр. лицо
дедубликация
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-