Скрипт для поиска похожих тем, по заголовку и… : нужен программист, фриланс

  • Предложения0
  • Бюджет 0.00$
  • Средняя ставка 0.00$

Опубликовано 14.05.2019

Активный

Описание проекта

Добрый день.
Есть табличка 1 с названием тем с форума, и табличка 2 с названиями и текстами тем на другом форуме.
Нужно реализовать алгоритм поиска похожих тем, то есть для каждой записи из таблицы 1 проверить, нет ли такой же темы в таблице2. Названия тем при этом могут отличаться по морфологии слов, по порядку слов, по знакам препинания.
Например в таблице 1 будет "Скрипт для умного поиска похожих тем [SQL]" а в таблице 2 будет "Поиск похожих тем". 
Так же нужно анализировать сами тексты темы1 и темы2. Например две рерайтнутые новости, обе ссылаются на один источник ссылкой где-то в тексте. Анализатор должен увидеть повтор ссылки и учесть это. 

Записей в табличках по 200к строчек, язык русский.
Скорее всего, скрипт надо делать с использованием elastic, sphinx, mongo или подобных систем, с поддержкой морфологии. Желательно, чтобы это работало как вебсервис, чтобы можно было при создании новой темы на лету искать возможные повторы.

На выходе должна быть возможность выгрузки результатов для последующего анализа, то есть sql таблица повторов, и сервис или  алгоритм поиска похожести на лету.

Сами таблички вышлю уже исполнителю.
Стоимость договорная, предлагайте свою цену. Можно и Безопасную Сделку, после выбора исполнителя. 

Нужен человек, который уже решал подобные задачи с поиском дублей. Стоимость договорная, важно именно качество поиска и скорость работы на этом количестве данных.

Ссылка на источник только для авторизованых пользователей. Пожалуйста войдите.

Информация работодателя

9783 проект(ов) опубликовано нанято 2 фрилансеров Украина
Участник с:01.06.2018
ПРЕДЛОЖЕНИЯ ИСПОЛНИТЕЛЯ(0)

Нет предложений.