Автореферат разослан




Скачать 305.07 Kb.
НазваниеАвтореферат разослан
страница2/2
Дата публикации15.06.2013
Размер305.07 Kb.
ТипАвтореферат
lit-yaz.ru > Информатика > Автореферат
1   2
^

СОДЕРЖАНИЕ РАБОТЫ


Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи исследования, определена научная новизна, приводится перечень основных положений, выносимых на защиту, излагается краткое содержание глав диссертации.

^ В первой главе проводится обзор работ посвященных описанию физических знаний для целей инженерной практики. Приводится краткая характеристика различных моделей представления знаний. Также дается обзор подходов к поиску, и в частности к семантическому поиску. Приводится описание основных концепций и методов семантического поиска, их недостатков и перспектив.

В различных областях науки исследователям и инженерам приходятся использовать накопленный опыт. Обычно эти знания систематизированы некоторым образом. Основными способами систематизации знаний в физике были: энерго-информационная модель цепей Зарипова М.Ф.; причинно следственное описание ФЭ по Глазунову В.Н.; ТРИЗ Альтшуллера Г.С. и ее развитие в работах Коллера Р. и Половинкина А.И.. Для облегчения работы с этими моделями ФЭ были реализованы компьютерные системы поиска ФЭ по различного вида запросам. После анализа этих моделей была выбрана модель описания ФЭ, представленная в работах Фоменкова С.А. Достоинством этой модели можно отметить: обобщенность подхода к описанию физических эффектов; хорошую структурированность описания; использование тезаурусов.

Для хранения физических эффектов ФЭ в компьютерных банках данных используется специальная форма описания физического эффекта. Она состоит из входной карты физического эффекта, выходной карты и основного текста описания. Входная карта предназначена для организации поиска физического эффекта по широкому набору признаков. Выходная карта физического эффекта представляет собой его краткую, легко обозримую характеристику в форме, удобной для комплексного восприятия пользователем. Основной текст описания ФЭ предназначен для его более глубокого изучения. Описание выполняется на естественном профессиональном языке и содержит данные справочного характера.

Помимо модели ФЭ описаны и три основных типа поисковых запросов:

  • поиск по компонентам вход, начальное состояние объекта, конечное состояние объекта, выход;

  • поиск по компонентам область применения, основная функция, ограничения;

  • полнотекстовый поиск по описанию ФЭ.

Существующие автоматизированные информационно-поисковые системы дают возможность пользователю использовать один из этих запросов для поиска. Вместе с тем существует ряд проблем, осложняющих использование таких автоматизированных систем:

  • сложности восприятия задачи в терминах модели ФЭ из-за малой осведомленности о значении ее компонент;

  • сложность при вводе формализованного описания в поисковую систему из-за сложности описания компонентов ФЭ;

  • сложность использования полученных результатов из-за их нерелевантности;

  • сложность составления структурированного описания ФЭ.

Становится очевидным, что повышение производительности труда пользователя в системах поиска ФЭ заключается в использовании запросов на естественном языке, как наиболее понятном для пользователя.

Результат поиска – список документов, которые отобраны системой как потенциально содержащие полезную для пользователя информацию. Существуют три основных подхода к поиску: дескрипторный, полнотекстовый, семантический.

К. Муэрз в 1947 предложил использовать при индексировании документов и запросов некие словари синонимов. Совокупность синонимов, обозначающих одно понятие, он назвал «дескриптор». Также дескриптором называют нормативный синоним, который в системе заменяет собою остальные синонимы. Информационно-поисковый тезаурус - словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц. Тезаурус содержит список ключевых слов, которыми может быть охарактеризовано содержание документов, с выделением слов, рекомендованных для индексирования (дескрипторов). Следовательно, тезаурус отражает онтологию предметной области.

В результате индексирования документа на входе в систему он приобретает своё описание в виде перечня ключевых слов (дескрипторов), которые могут дополняться их весами, связями и указателями роли. Эти описания называют "поисковый образ документа" (ПОД). Составление ПОД представляет собой сложную интеллектуальную задачу.

Недостатки дескрипторных систем поиска ФЭ заключаются в нетривиальной процедуре формализации поискового запроса и существовании запросов, которые не возможно индексировать с помощью дескрипторов.

Дополнением к дескрипторному поиску является метод полнотекстового поиска. Полнотекстовый поиск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются. Также при индексировании используются данные морфологического анализа для получения нормализованных слов. Многие СУБД поддерживают методы полнотекстового поиска (Fulltext search), которые позволяют очень быстро находить нужную информацию в больших объемах текста.

Семантический поиск — вид автоматизированного полнотекстового информационного поиска с учетом смыслового содержания слов и словосочетаний запроса пользователя и предложений текстов проиндексированных информационных ресурсов. Есть два подхода: использовать семантические данные, указанные в самом документе специальным образом; использовать семантические данные в поисковой системе, которая использует специальные алгоритмы, получающие эти данные в любом типе текстов.

Для решения задачи упрощения взаимодействия пользователя ИПС по ФЭ за счет использования запросов на естественном языке, автору видится использование семантического поиска, так как он наиболее полно отвечает потребностям задачи:

- естественный язык – не требует от пользователя знаний о используемой модели и правилах формализации запроса;

- является универсальным средством, позволяющим обрабатывать различные виды запросов.

Основой семантического поиска является использование семантических сетей, описывающих смысловые связи слов текста, а также различного вида тезаурусы, описывающие используемые понятия. Тексты документа и запроса подвергаются специальной обработке – семантическому анализу. Общая схема обработки текстов инвариантна по отношению к выбору естественного языка. Независимо от того, на каком языке написан исходный текст, его анализ проходит одни и те же стадии.

В стадию анализа отдельного слова входят морфологический и морфемный анализы слов. Входным параметром является текстовое представление исходного слова. Целью и результатом морфологического анализа является определение морфологических характеристик слова и его основная словоформа. Существует три основных подхода к проведению морфологического анализа. Первый подход часто называют «четкой» морфологией; для русского языка он основан на словаре Зализняка. Второй подход основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики. Третий, вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками, но он практически неприменим при обработке текстов на русском языке.

Результатом синтаксического анализа является граф, узлами которого выступают слова предложения, а дугами синтаксические связи. Методы синтаксического анализа предложений можно разделить на две группы: методы с фиксированным, заранее заданным набором правил и самообучающиеся методы. Правила представляются в виде грамматик, задающих синтаксис языка. Формальные грамматики задаются в виде четырех компонентов: множество терминальных символов, множество нетерминальных символов, правила вывода и начальный символ. Они хорошо изучены и широко применяются при описании формальных языков, но непригодны для описания синтаксиса естественных языков. Трансформационные грамматики разрабатывались уже специально для задания синтаксических правил построения предложений, написанных на естественном языке. Оба описанных подхода заключают в себе четко заданную систему правил, согласно которым производится синтаксический анализ предложения. Еще один недостаток - невозможность анализировать неправильно построенные предложения. Это привело к созданию новых методов синтаксического анализа, основанных на вероятностном подходе; к ним относятся вероятностные грамматики и вероятностный разбор. Синтаксический анализ на основе обучающихся систем — пока еще малоизученный подход. Он заключается в следующем. Разрабатывается множество примеров, содержащих пару — исходное предложение и результат его синтаксического анализа. На их основе производится обучение системы, после чего она может сама анализировать предложения. Однако удовлетворительных реализаций пока еще не найдено, хотя есть методы, дающие неплохие результаты, но работающие только на подмножестве языка.

Семантический анализ текста базируется на результатах синтаксического анализа, получая на входе уже не набор слов, разбитых на предложения, а набор деревьев, отражающих синтаксическую структуру каждого предложения. Поскольку методы синтаксического анализа пока мало изучены, решения целого ряда задач семантической обработки текста базируются на результатах анализа отдельных слов, и вместо синтаксической структуры предложения, анализируются наборы стоящих рядом слов.

Основными проблемами семантического анализа естественного языка являются:

  • представление семантической составляющей слова;

  • наличие у человека априорных знаний об объектах окружающего мира, полученных эмпирическим путем;

  • определение общего смысла текста;

  • автоматическое расширение базы знаний.

Таким образом, выявлена необходимость проведения научного исследования для разработки модели представления физических знаний, которая позволит, сохраняя формализованное представление понятий и связей между ними, осуществлять поиск необходимых данных по запросу на естественном языке.

Во второй главе описывается предложенная автором модель объектно-ориентированного представления физических знаний в компьютере - МПС, а также методики поиска, индексации и накопления семантических знаний.

Основными предпосылками к созданию новой модели являются:

  • разрозненность структуры тезаурусов, для описания компонент модели ФЭ;

  • необходимость формализации запросов пользователя;

  • невозможность сформировать некоторые группы запросов;

Все это не позволяет использовать существующую модель для реализации на ней семантического поиска ФЭ.

Естественный язык состоит из слов, которые условно можно разделить на следующие группы:


^ Рис. Схематичное представление слов языка
понятия (существительные)

свойства (прилагательные)

действия (глаголы)

служебные (предлоги, союзы и т.п.)
Данное деление слов языка достаточно условно, но это позволяет провести параллель с объектно-ориентированным подходом (ООП) в программировании. Основной идеей ООП является разделение предметной области на классы, в которых сосредоточены некоторые связанные с классом данные (свойства), и методы работы с данными. В предлагаемой модели слова-понятия ассоциируются с классами (в терминах ООП), слова-свойства – со значениями свойств, слова-действия – с методами и служебные слова – с операторами, универсальными для всех классов. Таким образом, исходным положением является идея о том, что представление мира является объектным: т.е. мир представлен множеством объектов различных классов, которые имеют ряд свойств и взаимодействуют друг с другом с помощью методов.

В основе МПС находится понятие динамического объекта - семантической единицы языка, которая представляет объект реального мира. Также как и в объектно-ориентированных языках программирования, динамические объекты образуют классы – общее описание схожих объектов – и имеют набор свойств и действий над ними. Динамический объект – единица описания некоторого понятия в МПС в виде объекта с неизвестным (изменяемым) набором свойств и методов. Например, в предложении: "световое давление есть результат передачи телам импульса фотонов", - динамическими объектами будут: давление, результат, тело, импульс, фотон.

Пусть U – множество всех слов языка.

(1),

где O – множество динамических объектов, М – множество методов, P – множество значений свойств, Н – вспомогательные слова. К вспомогательным словам относятся такие части речи как союзы, предлоги, местоимения.

Множество H конечно, другие множества, в общем случае, бесконечны. Элементы множества H являются некоторыми функциями от слов, с которыми они связаны правилами синтаксиса.

Класс динамического объекта – общее описание группы динамических объектов, обозначающее некоторое понятие реального мира. Класс не зависит от текста, а является обобщением динамических объектов описывающих это понятия в разных текстах.

Формальное описание класса динамического объекта может быть представлено в виде кортежа:

До=<М, С, Дород, Ч> (2),

где: До – класс динамического объекта; М – набор методов класса; С – набор свойств класса; Дород – класс (или несколько классов) динамического объекта, который является родительским(ими) для данного объекта; Ч – массив классов динамических объектов, описывающих части данного объекта.

Данное представление позволяет использовать механизм объектно-ориентированного программирования – наследование. Классы динамических объектов образуют направленный граф связей "общее-частное". Такая организация позволяет группировать одни классы в классы более общего порядка. В вершине дерева находится класс "Сущность" – как наиболее общее понятие мира.

Метод - это компонент описывающий действие, которое можно произвести над объектом или которое может произвести сам объект. У каждого класса может быть несколько методов, и каждый метод может быть характерен для нескольких объектов. Структура описания метода имеет следующий вид:

М=<И, Т> (3),

где: М – метод; И – имя метода для идентификации в базе знаний; Т – тело метода.

Тело метода содержит последовательность операций, записанную формальным образом, с помощью которой реализуем данный метод. Методы наследуются из объекта родителя в объект потомка. Корневой объект «сущность» имеет методы «быть» и «иметь».

Кроме методов объект имеет свойства. Свойства это некоторые характеристики объекта. Свойства описываются следующей структурой:

С=<Н, Т, З, Фприс>,

где С – свойство, Н – класс объекта, названия свойства, Т – тип свойства,

З – значение свойства, Фприс – функция присвоения значения.

Тип свойства отражает характер значений этого свойства. Предлагается выделить следующие типы:

  • логический (физический – нефизический);

  • множество значений (проводник, полупроводник, диэлектрик);

  • упорядоченное множество (слабый, средний, сильный);

  • число;

  • класс динамического объекта.

Следует отметить, что значение может соответствовать свойству с разной силой. Способ соответствия описывается функцией присвоения значения. Значения свойств имеет особую важность при построении пространства объектов при анализе текста, так как они определяют различные объекты и могут влиять на выполнение методов. Свойства также как и методы наследуются от родительских объектов потомками.

Для описания группы объектов вводится специальный класс "множество". Этот класс обладает свойством "элементы" где перечисляются конкретные элементы множества. Для описания несчетного множества, используется свойство "Класс элементов", которое определяет класс объектов - элементов множества. Все классы, которые описывают группу объектов, наследуются от этого класса. Все динамические объекты, которые на естественном языке представляются множественным числом, имеют класс "множество". Также для них задано свойство "Класс элементов" равное классу динамического объекта, соответствующего понятию в единственном числе. При присвоении значения какому-либо свойству класса "множество", это значение устанавливается всем объектам которые являются элементами множества.

В ходе анализа текста на естественном языке формируется пространство динамических объектов. Модель, описывающая пространство объектов, может быть представлена следующей формулой:

Пр=<О, Д>,

где: Пр – пространство объектов, О – массив динамических объектов, Д – массив действий.

Один объект, выделенный из текста, входит в это пространство один раз. Т.е если описание объекта находится в разных предложениях и в каждом предложении имеется указание на объект, то он будет входить в пространство лишь в единственном виде.

Массив действий содержит действия над объектами пространства в той последовательности, в которой они встречаются в тексте. Он содержит только те методы динамических объектов, которые использовались в тексте, а не все возможные, в отличие от методов самого объекта. Этот массив используется в дальнейшем для определения значимости каждого объекта в целом для текста.

Для иллюстрации рассмотрим пример. Анализ предложения: «Под воздействием однородного магнитного поля некоторые изотропные вещества становятся оптически анизотропными», добавит в пространство следующие объекты (в виде Имя Объекта = Класс [{Набор свойств},{Набор методов},Родительский класс,{Набор частей}]) :

Воздействие1=Воздействие [{},{},Действие,{}];

Поле1 = Поле [{магнитное, однородное},{},Среда,{});

Вещество1 = Вещество [{некоторый, анизотропный}, {становится}, Материя, {}];

а также действие: Вещество1.Становиться(настоящее_время, pod(Воздействие1), Поле1).

Таким образом, динамический объект существует в рассматриваемой концепции в 2х аспектах:

- динамический объект как единица семантического знания, известная системе;

- динамический объект как единица семантической информации конкретного текста.

Пространство объектов также неотрывно связано с анализируемым текстом. Это пространство является семантическим отображением текста и служит основой для индексирования текста для алгоритмов поиска.

Для описания ФЭ в терминах МПС предложена методика, состоящая из следующих шагов:

1. Определяется класс "Физический эффект". Составными частями этого класса являются: множество классов "Физическое воздействие" и класс "физический объект", что соответствует формальному описанию ФЭ в модели "".

2. Определяется класс "Физическое воздействие". Свойства класса: "Пространственная характеристика", "временная характеристика", множество классов "Физическая величина". Это соответствует структуре описания тезауруса входов/выходов ФЭ.

3. Для каждой физической величины из тезауруса входов/выходов ФЭ описывается класс для представления этой физической величины в МПС.


Рис. Иерархия словаря физических объектов

^ 4. Для класса "физический объект" описывается дерево классов (используя механизм наследования)

Это дерево отражает общую структуру объекта ФЭ. Следует отметить что классы "механическая смесь фаз" и "контакт фаз" наследуются от класса "множество" и классом элементов множества у них является - "Гомогенный объект".

5. Для класса "Гомогенный объект" определяются свойства: "фазовое состояние", "химический состав", "электропроводность", "Магнитная структура", "Механическое состояние", "оптическое состояние". Эти свойства выделяются для описания свойств однофазных объектов.

6. Для описания конкретного экземпляра создаются классы, которые наследуются от класса "Гомогенный объект", для которых значения свойств заранее определены. Например класс "Медь" имеет следующие значения свойств: хим. состав - "однокомпонентный", электропроводность – "проводник", оптическое состояние "непрозрачный".

Также во второй главе предлагается методика поиска ФЭ с помощью МПС. Как отмечалось ранее, в качестве языка поискового запроса используется ограниченный естественный язык. Поиск проводится без использования запроса по компонентам A,B,C (ИПЯ1). Это отличает данный подход от предлагаемой в работе Герасимова А. методики преобразования ЕЯ запроса в запрос на ИПЯ1.

Вместо этого в данной работе предлагается использовать статистико-семантическое описание (ССО). Это описание строится по определенным правилам из МПС. В связи с этим существуют 2 операции для обеспечения поиска: индексация – составление ССО и непосредственно поиск.

Индексация используется для предварительного представления ФЭ в МПС, и получения небольшого, структурированного "снимка" ФЭ - ССО. ССО используется для ускорения поиска и представляет собой структуру, содержащую следующие поля:

  • Заголовок (так как заголовок обычно отражает основное семантическое значение)

  • Адрес (идентификатор записи в базе данных)

  • Основной объект описания (выделенный в ходе семантического анализа объект, о котором идет описание в документе)

  • Указанные свойства основного объекта (формат: свойство=значение)

  • Используемые методы основного объекта

  • Методы куда входит основной объект

  • Самые часто-встречаемые другие объекты (10-15)

Например, эффект Поляризация механоэлектретов: "Поляризация полимеров, возникающая при механической деформации. Сохраняется после снятия деформации " имеет следующий ССО.

Таблица . ССО эффекта "Поляризация механоэлектетов"

^ Раздел ССО

Значение

Заголовок

Поляризация механоэлектретов

Адрес

1372

Основной объект

Поляризация

Свойства

собственник=полимер;

Методы

возникать, сохраняться

Методы куда входит основной объект

-

Другие объекты

множество(полимер), деформация

В этой главе также описывается алгоритм получения ССО:

1. Построение МПС по описанию ФЭ.

2. Определение главного объекта(цикл от 1 до N где N количество объектов в МПС).

2.1. если текущий объект – потомок класса "физический эффект", то это главный.

2.2. если текущий объект определяется в описании (использует методы "это", "является" и т.п. то это главный объект.

2.3 считаем сумму использованных в описании методов и свойств текущего объекта.

3. Если главный объект не найден выбираем тот у которого суммарное число методов и свойств максимальное.

4. Заполняем поля ССО.
Метод поиска, предлагаемый в данной работе, заключается в сравнении ССО и ФЭ представленных в виде МПС с поисковым образом запроса. Поисковый образ запроса описывается следующей структурой:

  • Основной объект описания (выделенный в ходе семантического анализа объект, о котором спрашивается в запросе);

  • Указанные свойства основного объекта (формат: свойство=значение);

  • Используемые методы основного объекта;

  • Методы куда входит основной объект.

Алгоритм поиска по запросу представлен на Рис. :


^ Рис. Алгоритм поиска по естественно-языковому запросу
вопросит. слово к

получить все объекты для метода

получить список всех дочерних объектов

выбор из ССО всех у кого есть объект из списка

метод

объект

выбор и оставшихся по доп. объектам вопроса

Предполагается, что запрос должен содержать одно предложение. Для уточнения запроса используется выборка из уже найденного множества данных.

Также в данной главе приводится методика автоматизированного формирования базы знаний для проведения семантического анализа и поиска. База знаний состоит из 3х основных частей: описаний методов, дерево иерархии классов и набор фактов (априорные знания).

Методика предполагает накопление всех частей. Каждая часть подразумевает свой алгоритм ее обновления. Выполнение этих алгоритмов может происходить в фоновом режиме и в процессе анализа.

Для реализации автоматизированного описания метода предлагается следующий алгоритм:

1. выделение слов параметров метода. Этот тип знаний обычно расширяет правила в описании метода и влияет на определение родителей данного метода.

2. проверка существующих условий. Если класс объекта из параметра совпадает с классом создаваемого параметра, то это означает что данный объект следует "привязать" к указанному в параметре. Для остальных объектов образуются правила вида:

Если <параметрN> с классом <класс> и предлогом <предлогN> то <действие>,

где <параметрN> - один из параметров метода, <класс> - класс объекта – из понятия модели представления данных, <предлогN> - предлог, который предшествует объекту, <действие> - выполняемое действие в случаи выполнения условия.

3. выделение основного действия. Основное действие это действие которое выполняется в методе независимо от того какие условия.

4. обновление таблицы зависимостей метода от других объектов. Эта таблица используется для сокращенного способа выполнения метода.

Изменения дерева иерархии классов обусловлено накоплением новых данных об объектах и систематизацией знания. Предлагается 3 вида преобразований: перенос, обобщение, разделение. Пусть M – множество методов рассматриваемого класса C, P – множество свойств класса C, D – множество частей класса C, а Mi, Pi, Di – соответственно множества методов, свойств, частей некоторого класса Ci.

Первое преобразование предполагает перенос класса С в потомки класса Сi при выполнении следующих условий: С не является потомком Сi любого уровня вложенности, . При нахождении нескольких объектов Сi удовлетворяющих условию выбирается класс, который наиболее полно покрывает множества методов свойств и частей класса С. После переноса, учитывая наследуемость методов, класс С будет обладать множествами методов, свойств и частей Mn, Pn, Dn, определяемых по следующим формулам: .

Преобразование обобщения заключается в выделении общего класса для группы классов. Если С и Сi являются потомками класса С0 и M⊂Mi ∧ P⊂Pi ∧ D⊂Di то С становится потомком С0 а Сi потомком С. Множества методов, свойств и частей Mn, Pn, Dn класса Ci образуются по следующим формулам: Mn = Mi\M, Pn = Pi \ P, Dn = Di \ D.

Преобразование разделение в отличие от предыдущих 2х преобразований возможно только при процедуре анализа и заключается в разделении одного объекта на 2, но относящихся к разным узлам дерева. Это связано с выявлением омонимии в процессе анализа. Пусть С является потомком С0 и в процессе анализа установлено, что С является потомком Сi тогда создается класс С1 с множеством методов, свойств и частей Mn, Pn, Dn определяемых по формулам .

Набор фактов представляет собой накопленные знания о свойствах разных объектов и записываются в виде картежа F= - где F – факт c – класс динамического объекта; p – свойство класса; v – значение; fn – функция присвоения значения. Накопление этих данных в системе происходит по следующему алгоритму:

  1. Выделение в предложении конструкции, отвечающей за создание факта. Эта конструкция имеет вид <класc> <уточняющая функция> имеет <свойство> <значение>.

  2. Преобразование компонентов конструкции в компоненты картежа факта. Основной сложностью является выделение функции присвоения. В данной методики предлагается использовать таблицу соответствия

  3. Проверка присутствия данного факта в базе знаний. Осуществляется по ключевым компонентам картежа: класс, свойство, функция присвоения

    1. Если факт есть, проверка точности указанного значения и существующего, остается в базе данных более точное значение

    2. Если факта нет, добавление сформированного картежа к базе знаний.

В третьей главе описана созданная система индексации и поиска описаний ФЭ по запросу на естественном языке. Основная цель системы: обеспечивать возможность поиска ФЭ по запросу на естественном языке. В связи с этим она решает следующие задачи:

  • Семантический анализ текста описания ФЭ и запроса пользователя;

  • Составление ССО для записи в базе данных;

  • Проведение поиска по запросу пользователя;

  • Обновление базы знаний системы, в соответствии с алгоритмами обновления базы знаний описанных во второй главе.

Подсистема рассчитана на работу в 2 режимах: индексация описаний ФЭ и поиск по описаниям ФЭ. Индексация производится при добавлении нового описания ФЭ в базу данных или при изменении уже имеющегося описания ФЭ. Это работа администратора базы данных. Второй режим реализован в виде диалога с пользователем. От пользователя ожидается запрос на выборку данных. После получения результатов ему отображается ссылки на найденные описания, и пользователь решает продолжить поиск, уточнив запрос, или просмотреть найденные описания.

Морфологический анализатор

Синтаксический анализатор

Семантический анализатор

Индексация для поиска

Модуль анализа запроса пользователя

Модуль поиска описаний ФЭ

БЗ семантической инофрмации

БД ФЭ

Данные индексации

Пользователь

Интерпретатор внутреннего языка

Выдача результата

Работа с моделью представления семантики

^ Рис. Взаимодействие модулей системы

Архитектура системы представлена на Рис. . Основным компонентом подсистемы является модуль семантического анализа. Он используется как для анализа текста описания, так и для анализа запросов пользователя. В его основе лежит МПС, описанная во второй главе. В процессе анализа этот модуль обращается к базе данных семантической информации для получения связей классов, списков свойств, методов, поиска фактов и т.п. Также в ходе анализа база данных изменяется в соответствии с алгоритмами, описанными в методике автоматизированного накопления знаний.

В ходе работы семантического анализатора он обращается за помощью к морфологическому и синтаксическому анализатору. Морфологический анализатор построен на словаре морфологических признаков слова. Этот блок реализует программная библиотека проекта AOT. Синтаксический анализатор построен на правилах и действует в несколько проходов. Достоинство МПС в том, что она допускает не строить синтаксическое дерево полностью, достаточно лишь определить общие грамматические связи между словами. Это позволяет существенно упростить как правила для проверки синтаксиса, так и сам алгоритм. Результатом этого анализа является программа внутреннего языка. Применение внутреннего языка дает возможность получить универсальное и гибкое средство описания последовательности элементарных операций над элементами модели. К таким операциям относятся: создание объекта, установка свойства в определенное значение, выполнение метода, проверка условия, т.е. необходимый минимум функционального языка программирования. Вместе с тем, обработка такого языка гораздо более простая задача, чем работа с естественным языком. Выполнение команд этого языка происходит с помощью встроенного интерпретатора.

Индексация проводится в режиме работы администратора базы данных, после добавления новых или изменения существующих описаний ФЭ. Работа этого модуля происходит по алгоритму указанному в методике поиска документов на естественном языке.

Взаимодействие с пользователем происходит по следующему циклу: Пользователь-анализ запроса пользователя – поиск описаний ФЭ – выдача результатов – Пользователь. Анализом запроса пользователя занимается соответствующий модуль. Его задача определить объект, который запрашивает пользователь, а также его ключевые свойства, отмеченные в запросе.

Данный объект и значения его свойств передаются на вход модуля поиска, который на их основе формирует поисковый образ запроса и производит выборку документов из базы данных индексации на основе сравнения ПОД и ПОЗ. Результаты представляются пользователю. Дальше пользователь либо формирует новый запрос к уже отобранным данным, либо просматривает описания найденных ФЭ, загружая их из базы данных ФЭ по ссылке.

Все программные модули написаны на языке MS Visual С# 2005 и работают под управлением Windows 2000/XP/Vista.

В четвертой главе проведена проверка работоспособности системы, описаны тестовые примеры работы системы, приведены возможные пути развития системы.

На первом этапе было произведено первичное наполнение базы данных. Вершиной дерева классов является класс "физическое знание". От этого класса наследуются 4 основных: "Физический эффект","физическое воздействие","физическое свойство", "физический объект". Класс "физические воздействия" описывает различные физические воздействия. У этого класса одно свойство - "признак входа". Оно может принимать значения "входное" и "выходное". Дальнейшие потомки наследуют это свойство и расширяют список свойств, специфичными для них свойствами. Эти свойства являются объектами, наследованными от класса "физическое свойство ". В частности были созданы классы описывающие структуру словарей входов/выходов и объектов описанных в .

Работоспособность проверялась на базе ФЭ программы АИПС ФЭ версия 3.0. Данная база была преобразована из устаревшего формата DBF в базу данных SQL Server. Это позволило упростить дальнейшую работу с данными. Всего было взято 1319 описаний ФЭ.

По существующим словарям, составленным для автоматизированной системы поиска физических эффектов, была построена иерархия классов наследованных от класса "физический объект". Остальные связи и факты из области физических знаний были добавлены в онтологию путем автоматизированного анализа описаний физических эффектов в программе, специально разработанной для семантического анализа и поиска физических эффектов по запросу на естественном языке.

Проверка осуществлялась на основе сравнения системы, разработанной в рамках данной работы (ФЭ ЕЯ) с 3 системами: АИПС ФЭ, СОФИ и "Полезный эффект". Эти системы разработаны для поиска физических эффектов по компонентам ABC. Последняя система также позволяет проводить поиск по запросу на естественном языке, поэтому эксперименты с ней проводились в 2х режимах: в режиме запроса ABC и в режиме запроса на естественном языке.

Для тестов были выбраны запросы на поиск эффектов, условно разделенные на 5 степеней сложности. Примеры запросов приведены в Таблица

^ Таблица Тестовые поисковые запросы



Формулировка

Сложность



Как можно сгенерировать высокочастотные колебания электрического тока?

1



Как преобразовать электромагнитное излучение видимого диапазона в звук?

2



Какими свойствами обладают квантовые жидкости?

2



На основе каких эффектов происходит уменьшение интенсивности электромагнитного излучения при его распространении в веществе?

3



Как можно контролировать звуковую мощность ультразвуковых волн?

4



Что известно о свойствах тонких поликристаллов в виде нити или иглы?

5



Какими свойствами обладают суперионные проводники?

5


Оценивалось время на формализацию запроса, его ввода в систему и анализ полученных результатов. Оценка формализации задачи оценивалась по среднему времени, которое требовалось пользователям для получения варианта запроса ABC из запроса на естественном языке. Пользователи для эксперимента подбирались таким образом, чтобы среди них были как новички в предметной области, так и довольно опытные пользователи. Для запроса на естественном языке это время считалось равным 0. Время на ввод запроса в систему оценивался по методике GOMS. Время на анализ результатов рассчитывалась из предположения, что на ознакомление с 1 эффектом в результирующей выборке необходимо в среднем 50сек. Следовательно, все не релевантные запросу результаты увеличивают время поиска на 50сек, так как не относятся к необходимому результату.

В итоге была получена следующая таблица.

^ Таблица Оценка времени выполнения поискового задания

Сложность

АИПС-600

СОФИ-500

Полезный эффект ABC

Полезный эффект Естественно языковой запрос

ФЭ ЕЯ

1

59,95

57,3

61,5

599,4

49,4

2

88,95

89,30

89,30

61,40

54,4

3

109,40

108,50

108,50

51,40

50,4

4

78,95

76,30

80,50

-

47,4

5

1808,95

1806,30

1810,50

9099,40

52,4


Как видно из таблицы, время на поиск при повышении сложности задачи в других системах возрастает (в основном за счет увеличения времени на анализ нерелевантных результатов). Однако в системе ФЭ ИЯ время на решения задачи остается одинаковым (в рамках погрешности измерений). Это достигается за счет примененного в системе алгоритма поиска по семантической составляющей запроса. В других системах поиск осуществлялся на основе запроса ABC, что требовало время на формализацию запроса и обязывало пользователя искать компромисс среди дескрипторов, описывающих эффекты в банке данных.

Это подтверждается проведенными тестами на запросах, которые трудноформализуемы в запрос ABC.

^ Таблица Время поиска трудноформализуемых запросов



Запрос

Полезный эффект Естественно языковой запрос (сек)

ФЭ ЕЯ

(сек)

1

Какие существуют
методы разрушения твердого тела?

-

67,4

2

Как можно вызвать
пробой твердого
диэлектрика?

7029,4

40,4

3

Какие эффекты
описывают поглощение
электромагнитного
излучения (света)
в плазме?

-

95,4

4

Как увеличить скорость диффузионных процессов в чистых металлах?

959,4

92,4

5

Как влияет электрическое поле на фазовые
переходы в веществе?


-

62,4


Как видно из приведенной таблицы, разработанная система, выдает результаты даже при таких сложных запросах за приемлемое время.

Также в четвертой главе приведены возможные области применения и перспективы развития данной темы. Приводится описание необходимых мер для адаптации модуля поиска к другой предметной области. Также следует отметить два возможных направления развития системы:

  • поиск ФЭ с использованием численных и качественных ограничений.

  • создание семантического синтезатора для "вывода" ответов из фактов базы данных системы.



^

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ


  • проведен анализ существовавших подходов и методов анализа текстов на естественном языке и поиска с применением семантики;

  • предложена концепция представления семантических знаний в системе на основе объектного подхода, описаны основные принципы и методы такого представления;

  • предложена методика индексации документов на естественном языке для семантического поиска;

  • предложена методика поиска по запросу на естественном языке;

  • предложена методика автоматизированного накопления семантических знаний для последующих процедур анализа и индексации;

  • предложенные методики и методы реализованы в подсистеме поиска ФЭ по запросу на естественном языке системы поиска ФЭ;

  • реализация и тестирование

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ


  1. Рыльников А.Г. Объектно-оприентированный подход для Естественно-языкового поиска на примере базы данных физических эффектов /А.Г Рыльников, С.А. Фоменков // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2008. - Вып.4, №1 – С 238-242
1   2

Похожие:

Автореферат разослан iconСатьи, перводы
Пахомов С. В. Индуистская тантрическая философия. (Автореферат кандидатской диссертации). 94

Автореферат разослан iconАвтореферат диссертации на соискание ученой степени
Специализация – Экономика, организация и управление предприятиями, отраслями, комплексами

Автореферат разослан iconАвтореферат Дипломная работа
Структура работы: введение, основная часть (3 раздела), заключение, список использованных источников

Автореферат разослан iconАвтореферат опубликован на сайтах
Работа выполнена в гну институте содержания и методов обучения Российской Академии образования

Автореферат разослан iconАвтореферат
...

Автореферат разослан iconАвтореферат с примечаниями типа "постскриптум"
За семью печатями. Тайны происхождения языка. Библейские символы. Русская фразеология. – М., изд-во "Дека", 1994

Автореферат разослан iconАвтореферат диссертации на соискание научной степени
...

Автореферат разослан iconДокладчики и аудитория
И ббк, который будет разослан участникам конференции, а также в крупнейшие вузы и научно-технические библиотеки. Рассылка материалов...

Автореферат разослан iconДокладчики и аудитория
И ббк, который будет разослан участникам конференции, а также в крупнейшие вузы и научно-технические библиотеки. Рассылка материалов...

Автореферат разослан icon«качество экономического развития: глобальные и локальные аспекты»
И ббк, который будет разослан участникам конференции, а также в крупнейшие вузы и научно-технические библиотеки. Рассылка материалов...



Образовательный материал



При копировании материала укажите ссылку © 2013
контакты
lit-yaz.ru
главная страница