вот есть такая методика:
http://habrahabr.ru/blogs/data_mining/66221/
про реализацию ничего пока не скажу, а задачка довольная важная,
особенно для реферативных и поисковых систем
Искусственный Интеллект |
Привет, Гость! Войдите или зарегистрируйтесь.
Вы здесь » Искусственный Интеллект » Макеты и реализации » Очищаем веб-страницы от информационного шума
вот есть такая методика:
http://habrahabr.ru/blogs/data_mining/66221/
про реализацию ничего пока не скажу, а задачка довольная важная,
особенно для реферативных и поисковых систем
да, не вся информация одинаково полезна
наверно в следующем http кроме даты документа будет дата последней редакции формата
Вопрос опять в унификации семантики. Будет предложенно множество формализаций, по ним начнут делать параллельную раздачу в xml типа rss, а бардак останется. Какую формализацию выберет Микрософт то и станет стандартом, а потом как обычно открытое сообщество разозлится и сделает вторую версию лучшего из своих, остальные открытые добротели будут забиты и забыты. Браузеры-презентаторы будут сначала отдельной программой, потом встроятся в существующие, при этом многие существующие будут забыты с такой же легкостью с каким восторгом были выбраны.
Захотелось написать свой браузер.
Вроде бы explain могла загружать/сохранять схемы через http, уже не помню, сам не пользовался.
Захотелось написать свой браузер.
это перспективно...
я имею ввиду "странный" браузер,
которые не только отображает html с простыми фильтрами типа "показать/офф рисунок",
а сложное отображение... с обработкой...
похоже, в этом топике возникла хорошая идея
Отредактировано Egg (2009-08-05 19:55:02)
Вы здесь » Искусственный Интеллект » Макеты и реализации » Очищаем веб-страницы от информационного шума