Давайте более подробно рассмотрим процесс обработки информации.
Первоначально, приступая к изучению какой-либо области, пользователь, по сути, не имеет представления о том, какими признаками характеризуется эта область. Поэтому чаще всего сначала на поисковик отсылается общий запрос. Затем, изучив результаты поиска, отправляется уже более уточненный запрос.
В то же время при сборе и обработке новостей, пользователь сталкивается с аналогичной задачей, а именно выделение тем, а также выделение наиболее важных понятий относящихся к ним.
Поэтому очень важное значение имеет решение задачи выделения понятий. Как подходят как решению этого вопроса?
Очень интересный подход используется в Galaktika-Zoom
В том же направлении, но несколько иными методами движется поисковик Vivisimo
Clustering
Но существует другой более ресурсоемкий, но довольно эффективный метод. Суть данного метода заключается в том, что после первого запроса, анализируется каждый документ. Строится семантическая сеть, определяются наиболее значимые термины. Затем происходит пересчет значимость терминов для всех документов и строится онтология, то есть все сети объединяются в одну. Соответственно, выбрав требуемые термины можно сразу уточнить запрос. Данный подход весьма похож на тот, который используется Galaktika-Zoom. Однако позволяет сократить время на выделение понятий и построение уточняющего запроса.
Тем не менее, построение онтологии не совсем подходит (не очень удобен) для анализа и определения тем, получаемых при обработке текстов получаемых новостным агентом, в то время как метод Galaktika-Zoom решает эту задачу.
Лично для меня, наиболее удачным было бы сочетание обоих методов. В каком виде это можно представить.
Напрашивается вопрос, зачем усложнять все. Если каждый метод, работая сам по себе, дает хорошие результаты. Ответ на этот вопрос довольно простой. У каждого метода сильные стороны и недостатками. В чем заключаются эти недостатки:
Поэтому максимальная эффективность достигается путем использования обоих методов. При этом выбор, какой именно метод использовать, остается за пользователем.
© 2004 Vorka
Aharum Андрей Карин - lib@bk.ru Материалы не могут быть использованы в любых целях без предварительного согласия автора. |