О чем страница
Уже не один раз слышу вопрос: о чем и для кого эта страница? Еще раз хотел
написать ответ на него.
Первое: о чем страница. Страница о средствах и методах быстрого получения нужной
информации (любыми способами) и её обработки.
Для кого: наверно для таких людей как я. Я, например, много занимаюсь расчетами
бизнес-планов и хочу быть в курсе дел тех направлений, которыми занимаюсь. И
ещё в тех, что мне интересно.
Специалисты, в области поиска и обработки информации часто не понимают о чём
я пишу. Они мыслят в категориях систем электронного документооборота, сложных
систем организации бизнес-процессов и т.д. Я же пишу лишь о простых, чисто персональных
вещах. По другому эти инструменты называют инструментами knowledge discovery
или инструментами business intelligence. Например, посмотрел на xfiles (продвигаемую
ИИК "Белый ветер") http://www.it2b.ru/it2b2.view4.page11.html и http://www.it2b.ru/it2b2.view4.page10.html.
Просто нет слов, супер. Реализовано то, о чем я только грезил, но это чисто
корпоративная система (конечно можно ею пользоваться через web интерфейс, а
разработчики специально настроят входящие информационные потоки). Это мощная,
продуманная система, но всё-таки корпоративная. А я хочу всё тоже самое, но
только персональное (такого продукта я еще не нашел). И все те задачи, которые
решает эта система, решать с помощью простых методов и инструментов. И для этого
я ищу подходящие программы и продукты, которые бы позволили мне прийти к намеченной
цели, и рассказываю о них.
Вот собственно и всё.
P.S. Кстати, я не считаю себя самым умным и не изобретаю велосипеда. Просто
делюсь мыслями.
03.10.2004
Несколько слов о том, чему посвящена страница:
- Так уж получилось, что мне приходится постоянно обрабатывать большое количество
текстовой информации. Вроде бы, что может быть проще, просмотреть документы
составить какую-ту смесь. Например, из 10 новостей посвященной одной теме,
получить простой маленький отчет, дополнив кратким анализом, а если есть понимание
ситуации и некоторая доля наглости, то можно попробовать сделать свой собственный
прогноз.
- Все немного усложняется, когда встает вопрос: "Где взять эти 10 новостей?"
При этом необходимо чтобы они максимально описывали интересующую тему. Поисковики
сразу отпадают потому, что проходит значительное время между индексированием
одного и того же сайта и теряется вся актуальность. При этом
устаревшие новости можно просто выкидывать за ненадобностью.
- В таком случае, что проще всего можно сделать? Конечно, обратиться к периодике.
А периодика откуда берется? С новостных агентств, с лент
новостей, RSS-каналов, каких-либо сайтов обновляющихся
регулярно.
- Так сидим, значит мониторим ситуацию, вылавливаем самое полезное,
но с другой стороны: "Сколько можно одновременно источников просматривать?
А как это потом обрабатывать?" Бррр... У всех есть предел. Разве что
не сидеть целыми днями над этим. Значит, нужно использовать полезный
софт.
- Несколько проще ситуация, когда требуется понять что есть что в определенной
области. Для этого можно воспользоваться поискавиками и найти то, что нужно.
Но это же надо идти на поисковик, потом ещё и просматривать результаты. Массу
времени убить можно. Да и не факт, что именно на этом поисковике, в самых
релевантных документах есть именно то, что нужно. К тому же каждый поисковик
работает по собственным алгоритмам, у каждого разные базы индексированных
документов, и т.д. все это к тому, что на каждом поисковике результаты поиска
будут разные. И это конечно не фонтан, то есть совсем плохо.
- Чтобы хоть как-то сократить время поиска, можно воспользоваться метапоисковыми
сервисами, которые отсылают запрос на несколько поисковиков, а потом
ранжируют полученные результаты, в зависимости от релевантности. Это довольно
удобная штука.
- Но здесь тоже проблема. Большинство поисковиков релевантность считают,
не обращая внимание на смысл самого документа.
- Намного удобней, когда программа:
- получает результаты (ссылки на страницы) с нескольких поисковиков и
собирает документы,
- анализирует и выделяет смысл,
- сортирует документы в зависимости от близости к теме
и близости к запросу,
- делает реферат каждого документа и соединяет их в единый
отчёт (с указанием даты и источника каждого документа).
- Однако, поисковики это не единственный источник полезной информации. Остаются
еще каталоги и специализированные сайты, посвященные определенной тематике,
различные рассылки, справочные материалы, собственные данные. Да ещё множество
различных источников. Но мало, найти и сохранить в файле требуемые данные,
необходимо ещё придумать, как все это хранить и работать с ним.
- Все документы необходимо проанализировать, если потребуется сохранить для
будущей работы. Поэтому требуется создать какое-то хранилище,
либо способ обработки документов любого вида и формата.
- Ладно, вспомним про анализ текстовой информации. При этом
текстовая информация это еще не знания. Но надо же из информации
вытянуть самое полезное то, что можно потом с успехом использовать. Очень
замечательно если есть представление о конкретной области, которой интересует.
А если нет? То есть, на уровне: "я об этом слышал, но ничего конкретного
сказать не могу". Абыдна, да?.. J Поэтому как бы начинаем учиться и превращать
информацию в знания, параллельно погружаясь в тематику.
- Самое простое при погружение в проблематику - построить "карту знаний"области,
в центре которой находится самое важное (суть, тема, объект исследования),
а от центра веточками дерева распространяются объекты (те, кто совместно действуют)
и процессы (то, что происходит между объектами).
- Постепенно погружаясь в тему, можно за довольно короткий срок понять, что
есть что. А потом на веточки карты "понавешать" документы, которые
характеризуют именно этот объект. С помощью такой карты иногда можно найти
те связи, которые как таковые отсутствует, но на карте она будут выглядеть
очевидными. А далее можно выдвинуть предположение (теорию) и попытаться его
либо доказать, либо опровергнуть.
- В итоге все эти манипуляции позволяют вникнуть в область. Анализ позволяет
понять важность основных участников, где, на каком уровне и как они взаимодействуют
между собой. Иногда можно найти даже то, что и не предполагалось найти.
- Ещё надо добавить, что такой способ обработки информации довольно близко
связан с поисковыми технологиями, но только лишь отчасти. Это связано с тем,
что решаются разные вопросы: поисковики хотят максимально охватить информацию
и на запрос выдавать наиболее близкие к запросу документы. То, что описано
выше, позволяет хоть как-то распотрошить информацию, чтобы потом по кусочкам
собрать уже в общую картинку, как пазл.
- РЕЗЮМЕ - Таким образом, можно сказать, что главная
тема страницы, да и для меня тоже, поделиться своими способами обработки информации,
узнать другие методы, поделиться мнениями по софту, а также узнать, кто и
как его использует. И через какое место.