Сравнительный анализ методов определения нечетких дубликатов

Поделиться12009-08-03 05:13:19

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

Сравнительный анализ методов определения нечетких дубликатов для Web-документов
© Зеленков Ю.Г, Сегалович И.В

http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf

---
Очень интересная статья, поднимающая одну из важнейших проблем.

Поделиться22009-08-03 14:39:58

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Статья больше практичная чем хорошая. Нет оценки числа возможных сверток, при этом стала бы очень ярко видна вся убогость описанных методов. А так плохо считающие студенты могут подумать что это очень серьезно, там изложены Открытия-в-ИИ и все такое.
Кому тема интересна пусть сначала посчитают средний размер функции, сравнивающей документы. Желание искать красивую формулу в одну строчку сразу пропадет.
Теоретической ценности статья не представляет. Только рассмотрено что на практике можно сделать. Что могут сделать не использующие компьютеров программисты (не интресующиеся ИИ) на очень ограниченных компьютерах.

0

Поделиться32009-08-03 17:17:25

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

в целом (да и в большинстве частностей), я с тобой согласен...
два замечания есть:
1. тема сравнения "сложноструктурированных" данных (текст, картинки, звук, видео) очень важна... одна из ключевых
2. любые эвристические попытки обойти NPC в этом занятии - любопытны и поучительны...

0

Поделиться42009-08-03 20:36:48

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

NPC не самый плохой класс сложности. Вот новая картинка http://www.csin.ru/blog/2006-08-28-complexity-zoo/
Сложноструктурированость тоже не основная проблема. В начале текста может определяться язык, а сам основной текст уже на нем. Тут проблема не в структуре, а именно в языке. Структура в тексте может быть расписана на всех известных языках, но компьютер этого не поймет и будет искать что-то свое.

0

Поделиться52009-08-03 20:42:42

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

NO написал(а):

Тут проблема не в структуре, а именно в языке.

а можно задачу изменить... ты помнишь мой Классификатор?
- Есть коллекция растров, нужно построить дерево "похожести" картинок друг другу...
(кстати хочу его чуть-чуть доработать и выложить в Макетики с решением тестов Бонгарда в качестве иллюстрации)

Там нет никакого языка... там проблема "абстрактной" классификации...
там язык создается в процессе показа тестовых картинок и более того, классификационное дерево
получает разным, если показывать картинки в разной последовательности...
(я вообще считаю это хорошим индикатором "интеллектуальности")

З.Ы. классный, кстати, ресурс - http://www.csin.ru/ - спасибо!

Отредактировано Egg (2009-08-03 20:52:22)

0

Поделиться62009-08-03 21:45:17

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

Все же не понятно как быть с объявлением/модификацией языка внутри текста. По-моему в ЕЯ-текстах такого много, особенно если в тексте пишется о чем-то новом.

Я для таких экспериментов все основной язык не выберу, все чего-то не нравится.

А картинки хорошо бы распознавать до программы движения кистью, вот, кстати о формальностях, нереально-реальный художник
[youtube]http://www.youtube.com/watch?v=iZ4H5Rw6wTg[/youtube]

Отредактировано NO (2009-08-03 21:49:52)

0

Искусственный Интеллект

Меню навигации

Пользовательские ссылки

Информация о пользователе