Математический форум Math Help Planet
Обсуждение и решение задач по математике, физике, химии, экономике Теоретический раздел |
Часовой пояс: UTC + 3 часа [ Летнее время ] |
новый онлайн-сервис число, сумма и дата прописью |
|
Часовой пояс: UTC + 3 часа [ Летнее время ] |
Страница 1 из 1 |
[ 1 сообщение ] |
|
Автор | Сообщение | |
---|---|---|
grumblerbear |
|
|
Так как сам я в этой теме не силен, то прошу прощения, если создал тему не в той ветке — думаю, администратор сможет перенести ее, если что-то не так. Задача оказалась не совсем тривиальной (по крайней мере для меня). Приступлю к описанию: Существует алгоритм, который нормализует строки (так скажем, минимизирует возможные опечатки в них) (алгоритм MetaPhone, адаптированный под русский язык [http://web.archive.org/web/20071107145942/http://kankowski.narod.ru/dev/metaphoneru.htm] и адаптированный мной под нужды задачи). И существует другой алгоритм, в котором эти нормализированные строки перемалываются и вычисляются определенные переменные. На основе этих переменных нужно составить формулу, результат которой будет соответствовать идентичности строк (от 0 до 100 или от 0 до 1). Приведу пример: Сравниваемая строка: «ПУШКИН» Эталонная строка «АЛИКСАНДРСИРГИИВИЧПУШКИН» A: количество похожих чанков: 5 B: количество идущих подряд похожих чанков: 5 N: количество несовпадающих чанков: 0 D: разница в количестве чанков: 18 E: количество чанков в эталонной строке: 23 C: количество чанков в сравниваемой строке: 5 Пояснения: строка разбивается на чанки (части) со сдвигом на один символ. Доспустимые изменения в алгоритме - можно менять размер чанка (сейчас это 2 символа), можно менять нормализацию (например не удалять пробелы). В случае строки «ПУШКИН», чанки получаются такими: ПУ, УШ, ШК, КИ, ИН Мной использовались варианты: A * 2 / (E + C) - плохие результаты A / E - плохие результаты A + B / (E + C) - средние результаты Ну и + с различными вариациями D и N в формуле. Либо было неуниверсально, либо слишком далеко от реальности Буду рад дискуссии и помощи |
||
Вернуться к началу | ||
[ 1 сообщение ] |
Похожие темы | Автор | Ответы | Просмотры | Последнее сообщение |
---|---|---|---|---|
Два любопытных совпадения
в форуме Специальные разделы |
6 |
112 |
27 фев 2024, 12:09 |
|
Вероятность совпадения
в форуме Теория вероятностей |
11 |
884 |
25 апр 2018, 12:30 |
|
Составить ДЛК из строк | 0 |
494 |
24 июл 2021, 20:46 |
|
Построение ЛК из строк
в форуме Теория чисел |
6 |
336 |
27 дек 2019, 21:05 |
|
Задача на кратные совпадения
в форуме Теория вероятностей |
0 |
134 |
25 дек 2019, 11:21 |
|
Задача на кратные совпадения
в форуме Теория вероятностей |
1 |
114 |
25 дек 2019, 11:18 |
|
Вероятность совпадения результата двух ГСЧ
в форуме Теория вероятностей |
4 |
275 |
15 сен 2018, 22:45 |
|
Безуспешный поиск кубического совпадения | 5 |
154 |
03 мар 2024, 01:20 |
|
Вероятность совпадения двух чисел
в форуме Теория вероятностей |
10 |
1283 |
17 янв 2018, 12:15 |
|
Вероятность совпадения номера кода
в форуме Теория вероятностей |
2 |
513 |
05 апр 2014, 21:33 |
Часовой пояс: UTC + 3 часа [ Летнее время ] |
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9 |
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения |