Дискуссионный математический форумМатематический форум
Математический форум Math Help Planet

Обсуждение и решение задач по математике, физике, химии, экономике

Теоретический раздел
Часовой пояс: UTC + 3 часа [ Летнее время ]
новый онлайн-сервис
число, сумма и дата прописью

Часовой пояс: UTC + 3 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ 1 сообщение ] 
Автор Сообщение
 Заголовок сообщения: Вычисление коэффициента совпадения строк
СообщениеДобавлено: 28 май 2013, 12:26 
Не в сети
Начинающий
Зарегистрирован:
28 май 2013, 12:09
Сообщений: 1
Cпасибо сказано: 0
Спасибо получено:
0 раз в 0 сообщении
Очков репутации: 1

Добавить очки репутацииУменьшить очки репутации
Здравствуйте, уважаемые математики и не совсем математики!

Так как сам я в этой теме не силен, то прошу прощения, если создал тему не в той ветке — думаю, администратор сможет перенести ее, если что-то не так.

Задача оказалась не совсем тривиальной (по крайней мере для меня).
Приступлю к описанию:
Существует алгоритм, который нормализует строки (так скажем, минимизирует возможные опечатки в них) (алгоритм MetaPhone, адаптированный под русский язык [http://web.archive.org/web/20071107145942/http://kankowski.narod.ru/dev/metaphoneru.htm] и адаптированный мной под нужды задачи).
И существует другой алгоритм, в котором эти нормализированные строки перемалываются и вычисляются определенные переменные. На основе этих переменных нужно составить формулу, результат которой будет соответствовать идентичности строк (от 0 до 100 или от 0 до 1).

Приведу пример:

Сравниваемая строка: «ПУШКИН»
Эталонная строка «АЛИКСАНДРСИРГИИВИЧПУШКИН»

A: количество похожих чанков: 5
B: количество идущих подряд похожих чанков: 5
N: количество несовпадающих чанков: 0
D: разница в количестве чанков: 18
E: количество чанков в эталонной строке: 23
C: количество чанков в сравниваемой строке: 5

Пояснения: строка разбивается на чанки (части) со сдвигом на один символ. Доспустимые изменения в алгоритме - можно менять размер чанка (сейчас это 2 символа), можно менять нормализацию (например не удалять пробелы).

В случае строки «ПУШКИН», чанки получаются такими: ПУ, УШ, ШК, КИ, ИН

Мной использовались варианты:
A * 2 / (E + C) - плохие результаты
A / E - плохие результаты
A + B / (E + C) - средние результаты
Ну и + с различными вариациями D и N в формуле. Либо было неуниверсально, либо слишком далеко от реальности

Буду рад дискуссии и помощи

Вернуться к началу
 Профиль  
Cпасибо сказано 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему      Страница 1 из 1 [ 1 сообщение ]

 Похожие темы   Автор   Ответы   Просмотры   Последнее сообщение 
Два любопытных совпадения

в форуме Специальные разделы

ivashenko

6

112

27 фев 2024, 12:09

Вероятность совпадения

в форуме Теория вероятностей

vangolo

11

884

25 апр 2018, 12:30

Составить ДЛК из строк

в форуме Интересные задачи участников форума MHP

Nataly-Mak

0

494

24 июл 2021, 20:46

Построение ЛК из строк

в форуме Теория чисел

Nataly-Mak

6

336

27 дек 2019, 21:05

Задача на кратные совпадения

в форуме Теория вероятностей

anastasiia_17

0

134

25 дек 2019, 11:21

Задача на кратные совпадения

в форуме Теория вероятностей

anastasiia_17

1

114

25 дек 2019, 11:18

Вероятность совпадения результата двух ГСЧ

в форуме Теория вероятностей

podarok

4

275

15 сен 2018, 22:45

Безуспешный поиск кубического совпадения

в форуме Интересные задачи участников форума MHP

Xenia1996

5

154

03 мар 2024, 01:20

Вероятность совпадения двух чисел

в форуме Теория вероятностей

merlin_08

10

1283

17 янв 2018, 12:15

Вероятность совпадения номера кода

в форуме Теория вероятностей

zogina-kate

2

513

05 апр 2014, 21:33


Часовой пояс: UTC + 3 часа [ Летнее время ]



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  

Яндекс.Метрика

Copyright © 2010-2023 MathHelpPlanet.com. All rights reserved