Описание
Структура изложения
Пояснения
V/A
Услуги
Контакты
Помощь

Процесс выделения понятий

Давайте более подробно рассмотрим процесс обработки информации.

Первоначально, приступая к изучению какой-либо области, пользователь, по сути, не имеет представления о том, какими признаками характеризуется эта область. Поэтому чаще всего сначала на поисковик отсылается общий запрос. Затем, изучив результаты поиска, отправляется уже более уточненный запрос.

В то же время при сборе и обработке новостей, пользователь сталкивается с аналогичной задачей, а именно выделение тем, а также выделение наиболее важных понятий относящихся к ним.

Поэтому очень важное значение имеет решение задачи выделения понятий. Как подходят как решению этого вопроса?

Очень интересный подход используется в Galaktika-Zoom ( http://zoom.galaktika.ru/ ). На первоначальный запрос, выдаются не только ссылки на документы, но и строится список наиболее часто встречаемых слов в документах, возвращенных на первоначальный запрос. Пользователь может пометить галочкой те, слова, которые следует добавить к первоначальному запросу. На следующий запрос будет построен аналогичный список. Таким образом, пользователь шаг за шагом погружается в тему и параллельно уточняет область поиска.

В том же направлении, но несколько иными методами движется поисковик Vivisimo Clustering ( http://vivisimo.com/ ). После запроса, на лету проводится кластеризация. И вместо привычного списка ссылок на документы, выдается еще и ссылки на группы документов. Чаще всего каждая группа документов является подтемой основной темы. Таким образом, пользователь может не только ознакомиться с подтемами, но и сразу выбрать интересующие его документы.

Но существует другой более ресурсоемкий, но довольно эффективный метод. Суть данного метода заключается в том, что после первого запроса, анализируется каждый документ. Строится семантическая сеть, определяются наиболее значимые термины. Затем происходит пересчет значимость терминов для всех документов и строится онтология, то есть все сети объединяются в одну. Соответственно, выбрав требуемые термины можно сразу уточнить запрос. Данный подход весьма похож на тот, который используется Galaktika-Zoom. Однако позволяет сократить время на выделение понятий и построение уточняющего запроса.

Тем не менее, построение онтологии не совсем подходит (не очень удобен) для анализа и определения тем, получаемых при обработке текстов получаемых новостным агентом, в то время как метод Galaktika-Zoom решает эту задачу.

Лично для меня, наиболее удачным было бы сочетание обоих методов. В каком виде это можно представить.

  1. При получении (при каждом обновлении) новостных данных выделять наиболее часто встречаемые слова. Предположим, что это темы. Затем, собрать документы, где встречаются эти слова, и провести кластеризацию.
  2. При обработке результатов работы поисковиков, строить онтологию, затем уже достраивать уточняющий запрос.

Напрашивается вопрос, зачем усложнять все. Если каждый метод, работая сам по себе, дает хорошие результаты. Ответ на этот вопрос довольно простой. У каждого метода сильные стороны и недостатками. В чем заключаются эти недостатки:

Поэтому максимальная эффективность достигается путем использования обоих методов. При этом выбор, какой именно метод использовать, остается за пользователем.

Далее >>


© 2004 Vorka Aharum
Андрей Карин - lib@bk.ru
Материалы не могут быть использованы в любых целях без предварительного согласия автора.
Хостинг от uCoz