Цепочки

или как я пытался создать мини информационное агенство под себя.

Мне была поставлена задача: производить мониторинг ситуации в Центральном федеральном округе (кто не знает, это 17 областей и Москва). Мониторинг предполагал собой первоначальный анализ ситуации произошедшего в регионах. Понятное дело, что такой мониторинг требовал высокой оперативности.

Получив такое задание, я немного пригорюнился, а потом решил подумать, как можно сократить время на обработку.

Первая проблема, с которой я столкнулся - просмотреть гигантскую кучу новостей. 18 регионов. Даже если на одну область приходится по 10 новостей (на самом деле намного больше) это получалось 180 новостей в день. В итоге, получалось бы, что мне необходимо было только читать новости и ничем не заниматься кроме этого. Такой возможности у меня никак было. Итак, как я подошел к решению этого вопроса.

Для начала я взял GetNews ( http://www.getnewsgroup.com/ ) и настроил его на несколько самых полезных сайтов нужных мне информационных агентств. Затем добавил еще несколько, интересовавших лично для меня. А потом еще и ленты крупных информационных агентств, просто так, для интереса. Получилось, что новости сами стекались ко мне, но при этом объем этих новостей получился нереальным. За день у меня накапливалось до 1500 сообщений. Решив вопрос сбора новостей, пришлось столкнуться с проблемой вытаскивания полезной информации из накопленных данных.

Внимательно просмотрев каталог GetNews'a, я нашел access'овскую базу, где хранятся все сообщения. Возрадовался, но не надолго потому, что не представлял, как их обрабатывать. Тогда я вспомнил, что MS Word может производить слияния, то есть вписывать все записи из таблицы базы данных в один документ. Создав шаблонный документ (для последующего использования) с настройками слияния, я импортировал все данные базы, а затем почистил ее. Получив все новости в одном документе, я сохранил его как текстовой файл. Но оказалось, что даже при правильной настройке каналов GetNews'a в теле новости остаются html таги и прочий мусор.

Поискав по Интернету, я нашел замечательную программку Search & Replace ( http://www.searchandreplace.com/ ), которая ищет и заменяет строчки в файле. И что самое замечательное, программка может обрабатывать файлы в скриптовом режиме. Я написал скрипт, который полностью описывал правила вычищения новостей. Натравив Search & Replace на мой файл, я получил файл с чистыми новостями разделенные маркерами, в которых содержались и источник, и дата. Отдельно был выделен заголовок. Одним словом - песня.

Мой друг написал мне небольшую программку-резалку, которая из одного файла нарезает кучу мелких файлов. В итоге у меня получилось множество нумерованных файлов, в каждом из которых содержалось по одной новости.

И тут понеслась душа в рай. Я натравил на эти документы программу-классификатор Rubryx ( http://rubryx.narod.ru ), которая проводит классификацию по предварительно настроенным категориям. А ещё отдельно воспользовался Следопыт ( http://www.sledopyt.ru/ ).

В итоге. После работы Rubryx'a у меня получался ограниченный список нужных мне документов. Причем при проведении повторной классификации, новые документы добавлялись в конец списка (особенность программы). То есть не было проблемы найти самые последние данные по конкретной теме. Помимо этого, сплитер при разрезании файлов новые новости записывал в файлы, где последнее значение увеличивалось на единицу. Это сильно помогало при нахождении самых последних изменений.

С помощью Следопыта, я находил документы относительно интересующей меня темы. Копировал их в отдельную папку. Так как, у меня есть маленькая утилитка, по кластеризации текстовых документов, я спокойно использовал ее на скопированных мною документах и находил подтемы основной темы. Затем, чтобы уж совсем погрузиться в проблематику, я загружал весь ворох документов в TextAnalyst ( http://www.analyst.ru/ , http://www.megaputer.com/ ), который умеет хорошо обрабатывать тексты, а именно, находить наиболее важные термины и связи между ними, и что особенно замечательно, проводить семантический поиск и реферирование. После такой обработки можно было спокойно получить исходную информацию, которой было достаточно чтобы сделать нормальный отчет.

При некоторой практике такая полуавтоматическая обработка позволяет добиться весьма впечатляющих результатов.

При желании, скачиваемые источники с новостных лент, можно перенастроить на отраслевые сайты или на что угодно форумы, доски новостей и т.д. (GetNews это позволяет). Если ещё поиграться с с периодом обновления, можно спокойно организовать мониторинг любой тематики.

Достоинства предложенной схемы: можно оперативно отлеживать динамику развития событий чуть ли не по часам или минутам.

Недостатки: большущий трафик, некоторые операции приходится совершать руками, а это не всегда удобно (вернее совсем не удобно).

Возможно, описанный выше метод не самый эффективный, я могу это признать. Однако, как я посмотрел, программные продукты, выполняющие перечисленные выше функции, стоят каких-то нереальных денег, пишутся под конкретного заказчика и требуют серьезного железа, а тут простая связка обычных программок, собранная на коленке, решает те же самые задачи.

newschnl.zip (~12 кб) - Интересные каналы для GetNews: AKM, Newsru.com, Polit.ru, Regions.ru, Regnum.ru, Время новостей, Известия, Инопресса, РБК, РБК-daily, Страна.ru и т.д.
srscr.zip (~1 кб) - скрипт для Searhc and Replace настроенный для отчистки новостей, полученных с помощью GetNews.
cutfiles.zip (~162 кб) - CutFiles: резалка файлов.

Хостинг от uCoz