-Поиск по дневнику

Поиск сообщений в rss_rss_hh_new

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 17.03.2011
Записей:
Комментариев:
Написано: 51


Как «Дадата» ищет дубли в списках торговых точек

Вторник, 28 Ноября 2017 г. 16:30 + в цитатник


Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

  1. Евразия.
  2. «САКУРА» Японская кухня.
  3. Доминант.
  4. Магазин-бутик «Евразия».
  5. Милениум, ООО, продуктовый магазин.
  6. Киви/ООО/Челябинск.
  7. Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Что за проблемы и как мы их решаем

https://habrahabr.ru/post/343150/

Метки:  

 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку