Задача. Поиск сложного в сложном.

Поделиться12009-08-16 17:34:36

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Есть выражение и еще база выражений, нужно из базы выбрать похожие.
Напоминает поиск регэкспа (regular expression), но не в тексте как обычно, а в базе регэкспов.

В начале было слово. Длиной 10-1000 букв. Потом слов стало много, 10-100 слов. Их проанализировали, выделили в них общее и описали всю группу одним выражением. Потом выражений тоже стало много, 1000000. Возник вопрос как искать новое выражение в этой базе.

Набор строк собирается в одно выражение с помощью скобок и операторов *?&|,
например выражение А,((Б&В)|(?Г,Д)) это образ для набора строк АГД, АД, АБВ, АВБ,

*n означает любые символы длиной до n
? перед символом означает что он может быть или не быть
, означает что разделяемые им символы идут в указанном порядке и оба нужны, задает порядок следования
| означает либо то что слева либо то-что-справа, задает множество вариантов
& означает оба символа в любом порядке, прямом или обратном, задает множество всех перестановок

Символы имеют коэффициент вроде ценности, нужно в первую очередь искать соответствия по символам с наибольшей ценностью, а результаты упорядочить по сумме ценности совпавших элементов.

И искомый образ и база строятся по этим правилам, при нахождении соответствия нужно указать какая именно строка букв оказалась унифицирующей для искомого образа и выбранного из базы.

Наиболее ценный образ должен выдаваться как можно быстрее, за ним все остальные.

0

Поделиться22009-08-16 21:52:03

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Эта задача много где встречается кроме распознавания рукописного текста. Например Яндекс находит текст по словам, хотя не все слова могут присутствовать.
В общем-то все можно сделать прямо, но проблема в эффективности. Желательно как-то базу индексировать. Можно просто распаковать все выражения в строки из букв не содержащие операторов, проиндексировать это все (кстати индекс тоже похож на образ). Потом аналогично распаковать запрос и поискать все его варианты. Получится множество выборок, которые собрать (опять таки группу результатов тоже можно собирать в один образ).

Образы многозначные, наверняка потом будет выполняться перебор вариантов под некоторые условия. При поиске тоже возможен перебор вариантов при поиске унифицирующей два образа строки. Хорошо бы совместить эти два перебора, то есть указывать дополнительные условия при поиске. Например в запросе будет не один образ, а цепочка или дерево образов от более абстрактных и общих к конкретным и разным. Это так же реализует контекстное управление. Группа образов сама является образом, характеризующим некие тематику, стиль или что-то в этом роде. Желательно быстро перестраивать или фильтровать индекс с этими приоритетами.

Скорость проще получить как раз за счет конкретности запроса. Просто выбираем самый уникальный элемент и сразу отбираем по нему небольшую часть базы.

0

Поделиться32009-08-16 22:04:21

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Вместо "образа" я сначала думал "сигнатура", но оно сильно обобщилось и сейчас условно "образ", т.к. смысл его не до конца определен. Немного напоминает типизированную переменную, грамматику, шаблон.

Пока в виде дерева, без внутренней логики. А в принципе у такого еще могут быть правила вроде "если в этом ИЛИ-элементе из множества выбран такой вариант, то вот в этом нужно синхронно выбирать такой". Такие условия можно будет задавать списком образов, а пока не нужно.

0

Поделиться42009-08-17 02:13:05

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

три ассоциации возникло...
1. а почему не марковские цепи? они все-таки более понятны, чем регулярные выражения
2. регулярные выражения валидируют слово, но не продуцируют его, для открытого словаря мы всегда будет иметь проблему перестраивания...
3. непонятно в чем будет "выгода"... индекс по словам будет быстрее и удобнее индека по регулярным выражениям...

0

Поделиться52009-08-17 02:51:14

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

1. Марковские цепи - если вместо имен сделать ссылки получим то же самое дерево. Там просто уровни явно обозначены и рекурсия красиво делается, тут рекурсию не нужно. Можно и так. Особенно если какой-то оператор будет не удобным, придется разорвать выражение на группу выражений без этого оператора, а связывать их символами.
2. По регэкспам можно генерировать, только этого обычно не делают. Регэкспы переводят в конечный автомат и прогоняют через него текст. А можно просто случайно двигаться по автомату и выдавать по какой ветви пошли, если двигаться только по существующим ребрам получим только допустимые слова.
3. Я думал не про сами слова, а про признаки от препроцессинга, в которые перекодируется и картинка и словарь. А потом ищем одно в другом и вот такая работа получается. Признаков чем больше тем лучше, да еще комбинаторика, думаю просто "словами" их будет слишком много.

Нейросети вот очень чуствительны к сдвигам. Если букву выкинуть и сдвинуть оставшиеся, это будет совсем другой образ, если только там буквы не повторяются. Для обучения пришлось бы давать все вырезки, как и при распознавании. Тут оптимизации никакой, наоборот только лишние затраты.

0

Поделиться62009-08-17 02:58:23

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

да, согласен, это похожие вещи, собственно, слово-продуцирующее дерево, о котором ты писал как самом простом варинте
- это тоже самое... наверное, все варианты имеют плюсы и минусы...
тогда непонятно - в именно заключается задача...

0

Поделиться72009-08-17 03:12:06

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

хочется чтобы все было быстро и красиво

0

Поделиться82009-08-17 15:39:01

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Еще выражения напоминают уравнения. Каждое уравнение описывает некоторое множество решений. Нужно найти в базе уравнение, имеющее максимальное число общих решений с заданным уравнением.

0

Поделиться92009-08-17 18:47:45

Автор: Орлов
Активный участник
Зарегистрирован: 2009-08-05
Приглашений: 0
Сообщений: 77
Уважение: [+0/-0]
Позитив: [+0/-0]
Провел на форуме:
10 часов 12 минут
Последний визит:
2011-01-11 21:02:33

Для разных языков будут разные деревья.
Т.е. это грамматика. Т.е. не семантика.

0

Поделиться102009-08-18 01:13:06

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Конечно можно разные языки приводить к одному смыслу. Но тут вроде смысл один, это сами строки в раскодированном виде. Их слишком много.
Тут я пока тольком не представляю даже как сделать какую-нибудь "каноническую форму", чтобы два выражения с совпадающим смыслом обязательно выглядели в ней одинаково.

0

Поделиться112009-08-19 15:15:10

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Множество точек из евклидового пространства описывается уравнениями. Нахождение точек, соответствующие двум уравнениями, называется решением системы уравнений.
Тут тоже пространство, но строк, совсем не евклидово. Два регэкспа типа уравнений, задают какие-то подпространства строк. Нужно найти все общие строки, или хотя бы одну, или самую значимую. В общем решить систему. 10000 раз при распознавании одной страницы.

0

Искусственный Интеллект

Меню навигации

Пользовательские ссылки

Информация о пользователе