Очищаем веб-страницы от информационного шума

Поделиться12009-08-05 16:41:13

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

вот есть такая методика:

http://habrahabr.ru/blogs/data_mining/66221/

про реализацию ничего пока не скажу, а задачка довольная важная,
особенно для реферативных и поисковых систем

0

Поделиться22009-08-05 17:18:17

Автор: NO
Активный участник
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 454
Уважение: [+5/-0]
Позитив: [+8/-1]
Провел на форуме:
5 дней 7 часов
Последний визит:
2012-08-20 09:25:48

да, не вся информация одинаково полезна

наверно в следующем http кроме даты документа будет дата последней редакции формата
Вопрос опять в унификации семантики. Будет предложенно множество формализаций, по ним начнут делать параллельную раздачу в xml типа rss, а бардак останется. Какую формализацию выберет Микрософт то и станет стандартом, а потом как обычно открытое сообщество разозлится и сделает вторую версию лучшего из своих, остальные открытые добротели будут забиты и забыты. Браузеры-презентаторы будут сначала отдельной программой, потом встроятся в существующие, при этом многие существующие будут забыты с такой же легкостью с каким восторгом были выбраны.

Захотелось написать свой браузер.
Вроде бы explain могла загружать/сохранять схемы через http, уже не помню, сам не пользовался.

0

Поделиться32009-08-05 19:25:13

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

NO написал(а):

Захотелось написать свой браузер.

:-) это перспективно...

0

Поделиться42009-08-05 19:50:38

Автор: Egg
Активный участник
Откуда: CU, USA
Зарегистрирован: 2009-08-03
Приглашений: 0
Сообщений: 1102
Уважение: [+2/-1]
Позитив: [+8/-1]
Провел на форуме:
7 дней 7 часов
Последний визит:
2025-02-02 18:13:51

я имею ввиду "странный" браузер,
которые не только отображает html с простыми фильтрами типа "показать/офф рисунок",
а сложное отображение... с обработкой...
похоже, в этом топике возникла хорошая идея

Отредактировано Egg (2009-08-05 19:55:02)

0

Искусственный Интеллект

Меню навигации

Пользовательские ссылки

Информация о пользователе

Очищаем веб-страницы от информационного шума

Сообщений 1 страница 4 из 4

Поделиться12009-08-05 16:41:13

Поделиться22009-08-05 17:18:17

Поделиться32009-08-05 19:25:13

Поделиться42009-08-05 19:50:38