или какие функции должны выполнять программы при сборе информации.
Информацию, которая имеется в Интернете, можно разделить на два вида:
Временной фактор / Ценность информации |
Высокая критичность
Несколько секунд - 1 день |
Средняя критичность
1 день - 1 месяц |
Низкая критичность
1 месяц и более |
Статичная информация |
Высокая ценность
|
||
Новая информация |
Высокая
|
Средняя
|
Низкая
|
Если к качеству информации подходить с этой позиции, то можно определить методы, которыми надо пользоваться, чтобы получать оба вида информации.
Статичную информацию можно искать на поисковиках. Как это можно делать? Отправлять запрос на один поисковик, смотреть результаты поиска и выбирать нужные данные. Такой способ самый простой, но и самый не эффективный.
Более эффективный поиск при работе - поиск одной и той же информации (один и тот же запрос) на нескольких поисковиках одновременно, при этом результаты поиска на всех поисковиках ранжируются по близости к запросу. Этот процесс называется - метапоиск. Существуют сервера, которые предлагают сервис метапоиска (например, www.metacrawler.com).
Однако любой поисковик для обновления собственной базы на обход и индексацию всех страниц тратит довольно большое количество времени. У разных поисковиков период обхода сильно варьируется. Это означает, что на один и тот же запрос на поисковике, получается один и тот же ответ. И только после обхода (обновление информации в базе) происходит обновление базы поисковика. Конечно, можно смотреть результаты поиска и в случае их изменения добавлять в предыдущие результаты те различия, которые появились с пометкой о том, что эта новая информация. Этот процесс можно определить как - отслеживание поисковика.
Для поиска новой информации работать с поисковиками нельзя (кроме новостных поисковиков), по причине устаревания информации. То есть при потребности в оперативной информации надо использовать другие инструменты. Эта проблема определена уже давно и ее пытаются решить различными способами.
Самый простой, затратный по ресурсам и времени способ заходить на каждый сайт и брать нужную информацию. Этот способ самый не эффективный. Он может работать только в том случае, когда информация более или менее обобщена и публикуется с какими-то интервалами времени. Например, ежемесячные данные Минфина об исполнении бюджета. Информация обобщена, то есть, учтены все субъекты РФ. Не надо искать дополнительную информацию такого же рода в других местах. Эти данные публикуется ежемесячно. Она средне критична ко времени. С технической точки зрения, для своевременного сбора такой информации можно отслеживать только изменение страницы.
Для абсолютно критичной ко времени информации, требуется другой подход, так как за короткий промежуток времени (пока она еще актуальна) необходимо собрать информацию, максимально полно описывающую текущую ситуацию. В этом случае надо использовать ленты новостей, которые оперативно пополняются. Но в таком случае, реализуется уже не функция метапоисковика, а функция новостного агента, то есть агент оперативно собирает информацию, а потом эта информация классифицируется, в зависимости от близости к какой-либо тематике. Такой процесс противоположен метапоиску, так как при метапоиске ищется информация по конкретной тематике.
Функции |
1 этап обработки информации
|
2 этап обработки информации
|
Результат обработки
|
Метапоисковик | Тематика | Сбор информации близкой к теме | Тематически систематизированная информация |
Новостной агент | Сбор текущей актуальной информации | Определение тем и классификация |
Поэтому, совершенно очевидно, что с этой точки зрения методы работа метапоисковика и новостного агента сильно различаются, но при этом наилучший результат достигается только при совместном использовании.
Отдельный вопрос, идентификация источника (источник/автор, дата публикации). Определение происхождения информации в таком случае для метапоисковика случайный процесс, потому что поисковые сервера дают ссылки на множество других серверов и не обязательно, что в тексте будет содержаться данные о том, кто и когда ее опубликовал. Для новостного агента источник уже имеется, так как информация берется с конкретного сайта, дата публикации тоже будет иметься, так как чаще всего дата публикации будет совпадать с днем ее получения.
И вопросы сопутствующих функций для обработки информации: хранение, поиск по уже тематически систематизированной информации. Эта функция определяется как внутренний поисковик. Данная функция довольно важна, так как решает вопрос извлечения данных из уже имеющихся. Наиболее полная реализации этой функции осуществляется, когда используется не только полнотекстовый поиск, но и семантический (смысловой). Полнотекстовый и нечеткий поиск - это поиск тех документов, в которых содержится слова, указанные в запросе. Семантический (смысловой) поиск - это поиск информации близкой по смыслу к терминам запроса.
Таким образом, можно определить функции, которые должны реализовываться программами для сбора первоначальных данных для последующего анализа.
© 2004 Vorka
Aharum Андрей Карин - lib@bk.ru Материалы не могут быть использованы в любых целях без предварительного согласия автора. |