Сравнительный анализ методов определения нечетких дубликатов для Web-документов
© Зеленков Ю.Г, Сегалович И.В
http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf
---
Очень интересная статья, поднимающая одну из важнейших проблем.
Искусственный Интеллект |
Привет, Гость! Войдите или зарегистрируйтесь.
Вы здесь » Искусственный Интеллект » Макеты и реализации » Сравнительный анализ методов определения нечетких дубликатов
Сравнительный анализ методов определения нечетких дубликатов для Web-документов
© Зеленков Ю.Г, Сегалович И.В
http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf
---
Очень интересная статья, поднимающая одну из важнейших проблем.
Статья больше практичная чем хорошая. Нет оценки числа возможных сверток, при этом стала бы очень ярко видна вся убогость описанных методов. А так плохо считающие студенты могут подумать что это очень серьезно, там изложены Открытия-в-ИИ и все такое.
Кому тема интересна пусть сначала посчитают средний размер функции, сравнивающей документы. Желание искать красивую формулу в одну строчку сразу пропадет.
Теоретической ценности статья не представляет. Только рассмотрено что на практике можно сделать. Что могут сделать не использующие компьютеров программисты (не интресующиеся ИИ) на очень ограниченных компьютерах.
в целом (да и в большинстве частностей), я с тобой согласен...
два замечания есть:
1. тема сравнения "сложноструктурированных" данных (текст, картинки, звук, видео) очень важна... одна из ключевых
2. любые эвристические попытки обойти NPC в этом занятии - любопытны и поучительны...
NPC не самый плохой класс сложности. Вот новая картинка http://www.csin.ru/blog/2006-08-28-complexity-zoo/
Сложноструктурированость тоже не основная проблема. В начале текста может определяться язык, а сам основной текст уже на нем. Тут проблема не в структуре, а именно в языке. Структура в тексте может быть расписана на всех известных языках, но компьютер этого не поймет и будет искать что-то свое.
Тут проблема не в структуре, а именно в языке.
а можно задачу изменить... ты помнишь мой Классификатор?
- Есть коллекция растров, нужно построить дерево "похожести" картинок друг другу...
(кстати хочу его чуть-чуть доработать и выложить в Макетики с решением тестов Бонгарда в качестве иллюстрации)
Там нет никакого языка... там проблема "абстрактной" классификации...
там язык создается в процессе показа тестовых картинок и более того, классификационное дерево
получает разным, если показывать картинки в разной последовательности...
(я вообще считаю это хорошим индикатором "интеллектуальности")
З.Ы. классный, кстати, ресурс - http://www.csin.ru/ - спасибо!
Отредактировано Egg (2009-08-03 20:52:22)
Все же не понятно как быть с объявлением/модификацией языка внутри текста. По-моему в ЕЯ-текстах такого много, особенно если в тексте пишется о чем-то новом.
Я для таких экспериментов все основной язык не выберу, все чего-то не нравится.
А картинки хорошо бы распознавать до программы движения кистью, вот, кстати о формальностях, нереально-реальный художник
[youtube]http://www.youtube.com/watch?v=iZ4H5Rw6wTg[/youtube]
Отредактировано NO (2009-08-03 21:49:52)
Вы здесь » Искусственный Интеллект » Макеты и реализации » Сравнительный анализ методов определения нечетких дубликатов