Ворка Ахарум - О чем страница

Услуги

Контакты

О чем страница

Уже не один раз слышу вопрос: о чем и для кого эта страница? Еще раз хотел написать ответ на него.

Первое: о чем страница. Страница о средствах и методах быстрого получения нужной информации (любыми способами) и её обработки.

Для кого: наверно для таких людей как я. Я, например, много занимаюсь расчетами бизнес-планов и хочу быть в курсе дел тех направлений, которыми занимаюсь. И ещё в тех, что мне интересно.

Специалисты, в области поиска и обработки информации часто не понимают о чём я пишу. Они мыслят в категориях систем электронного документооборота, сложных систем организации бизнес-процессов и т.д. Я же пишу лишь о простых, чисто персональных вещах. По другому эти инструменты называют инструментами knowledge discovery или инструментами business intelligence. Например, посмотрел на xfiles (продвигаемую ИИК "Белый ветер") http://www.it2b.ru/it2b2.view4.page11.html и http://www.it2b.ru/it2b2.view4.page10.html. Просто нет слов, супер. Реализовано то, о чем я только грезил, но это чисто корпоративная система (конечно можно ею пользоваться через web интерфейс, а разработчики специально настроят входящие информационные потоки). Это мощная, продуманная система, но всё-таки корпоративная. А я хочу всё тоже самое, но только персональное (такого продукта я еще не нашел). И все те задачи, которые решает эта система, решать с помощью простых методов и инструментов. И для этого я ищу подходящие программы и продукты, которые бы позволили мне прийти к намеченной цели, и рассказываю о них.

Вот собственно и всё.

P.S. Кстати, я не считаю себя самым умным и не изобретаю велосипеда. Просто делюсь мыслями.

03.10.2004

Несколько слов о том, чему посвящена страница:

Так уж получилось, что мне приходится постоянно обрабатывать большое количество текстовой информации. Вроде бы, что может быть проще, просмотреть документы составить какую-ту смесь. Например, из 10 новостей посвященной одной теме, получить простой маленький отчет, дополнив кратким анализом, а если есть понимание ситуации и некоторая доля наглости, то можно попробовать сделать свой собственный прогноз.
Все немного усложняется, когда встает вопрос: "Где взять эти 10 новостей?" При этом необходимо чтобы они максимально описывали интересующую тему. Поисковики сразу отпадают потому, что проходит значительное время между индексированием одного и того же сайта и теряется вся актуальность. При этом устаревшие новости можно просто выкидывать за ненадобностью.
В таком случае, что проще всего можно сделать? Конечно, обратиться к периодике. А периодика откуда берется? С новостных агентств, с лент новостей, RSS-каналов, каких-либо сайтов обновляющихся регулярно.
Так сидим, значит мониторим ситуацию, вылавливаем самое полезное, но с другой стороны: "Сколько можно одновременно источников просматривать? А как это потом обрабатывать?" Бррр... У всех есть предел. Разве что не сидеть целыми днями над этим. Значит, нужно использовать полезный софт.
Несколько проще ситуация, когда требуется понять что есть что в определенной области. Для этого можно воспользоваться поискавиками и найти то, что нужно. Но это же надо идти на поисковик, потом ещё и просматривать результаты. Массу времени убить можно. Да и не факт, что именно на этом поисковике, в самых релевантных документах есть именно то, что нужно. К тому же каждый поисковик работает по собственным алгоритмам, у каждого разные базы индексированных документов, и т.д. все это к тому, что на каждом поисковике результаты поиска будут разные. И это конечно не фонтан, то есть совсем плохо.
Чтобы хоть как-то сократить время поиска, можно воспользоваться метапоисковыми сервисами, которые отсылают запрос на несколько поисковиков, а потом ранжируют полученные результаты, в зависимости от релевантности. Это довольно удобная штука.
Но здесь тоже проблема. Большинство поисковиков релевантность считают, не обращая внимание на смысл самого документа.
Намного удобней, когда программа:
1. получает результаты (ссылки на страницы) с нескольких поисковиков и собирает документы,
2. анализирует и выделяет смысл,
3. сортирует документы в зависимости от близости к теме и близости к запросу,
4. делает реферат каждого документа и соединяет их в единый отчёт (с указанием даты и источника каждого документа).
Однако, поисковики это не единственный источник полезной информации. Остаются еще каталоги и специализированные сайты, посвященные определенной тематике, различные рассылки, справочные материалы, собственные данные. Да ещё множество различных источников. Но мало, найти и сохранить в файле требуемые данные, необходимо ещё придумать, как все это хранить и работать с ним.
Все документы необходимо проанализировать, если потребуется сохранить для будущей работы. Поэтому требуется создать какое-то хранилище, либо способ обработки документов любого вида и формата.
Ладно, вспомним про анализ текстовой информации. При этом текстовая информация это еще не знания. Но надо же из информации вытянуть самое полезное то, что можно потом с успехом использовать. Очень замечательно если есть представление о конкретной области, которой интересует. А если нет? То есть, на уровне: "я об этом слышал, но ничего конкретного сказать не могу". Абыдна, да?.. J Поэтому как бы начинаем учиться и превращать информацию в знания, параллельно погружаясь в тематику.
Самое простое при погружение в проблематику - построить "карту знаний"области, в центре которой находится самое важное (суть, тема, объект исследования), а от центра веточками дерева распространяются объекты (те, кто совместно действуют) и процессы (то, что происходит между объектами).
Постепенно погружаясь в тему, можно за довольно короткий срок понять, что есть что. А потом на веточки карты "понавешать" документы, которые характеризуют именно этот объект. С помощью такой карты иногда можно найти те связи, которые как таковые отсутствует, но на карте она будут выглядеть очевидными. А далее можно выдвинуть предположение (теорию) и попытаться его либо доказать, либо опровергнуть.
В итоге все эти манипуляции позволяют вникнуть в область. Анализ позволяет понять важность основных участников, где, на каком уровне и как они взаимодействуют между собой. Иногда можно найти даже то, что и не предполагалось найти.
Ещё надо добавить, что такой способ обработки информации довольно близко связан с поисковыми технологиями, но только лишь отчасти. Это связано с тем, что решаются разные вопросы: поисковики хотят максимально охватить информацию и на запрос выдавать наиболее близкие к запросу документы. То, что описано выше, позволяет хоть как-то распотрошить информацию, чтобы потом по кусочкам собрать уже в общую картинку, как пазл.
РЕЗЮМЕ - Таким образом, можно сказать, что главная тема страницы, да и для меня тоже, поделиться своими способами обработки информации, узнать другие методы, поделиться мнениями по софту, а также узнать, кто и как его использует. И через какое место.

Хостинг от uCoz