Основные возможности:
•Html Processing — загрузка, анализ html
•DOM анализ — получение ссылок, изображений, таблиц
•извлечение ссылок, фильтры, возможность написания своих фильтром, глубокий анализ сайта
•извлечение электронных адресов, телефонов, urls и т.д.
•анализ контента сайта (количество элементов, плотность слов)
•возможности для SEO анализа
http://extracting.codeplex.com/
http://habrahabr.ru/blogs/i_am_advertising/68150/