<< Вернуться у выбору материала

Тема № 1. Введение

Введите ваш запрос для начала поиска.

План:

  1. Введение. Предмет и задачи курса, понятие предметной области.
  2. Документальные информационно - поисковые системы.
  3. Сетевые технологии передачи данных.
  4. Информационно – поисковые системы в Интернет.
  5. Фактографические информационные системы.
  6. Экспертные системы их основная идея, области применения.

1.1 Введение. Предмет и задачи курса, понятие предметной области

В курсе «Информатика» изучались основы информатики. Курс «Информационные технологии» был посвящен изучению способов и методов переработки исходной информации для получения информации нового качества. В курсе «Информационные системы» нам предстоит познакомиться с основными принципами организации и обработки больших массивов данных, описывающих объекты и явления реального мира. Такие массивы данных вместе с программно-аппаратными средствами для их обработки называют информационными системами (ИС).

Информационная система - система, программных, аппаратных средств и обслуживающего персонала, реализующая сбор, обработку, хранение и манипулирование данными.

В изучаемой дисциплине: «Информационные системы» рассматриваются проблемы связанные с организацией передачи информации во времени и пространстве, осуществлении быстрого поиска, прямого доступа к информации хранимой на электронных носителях. Разбираются задачи и функции ИС. Состав и структура информационных систем, основные элементы, порядок функционирования. Классификация информационных систем, документальные и фактографические системы. Предметная область ИС.

Обратимся к истории компьютерной индустрии. С самого начала создания ЭВМ можно было выделить два основных направления:

1. Вычисления

2. Накопление, поиск, обработка информации.

Возникновение первых компьютеров стимулировалось необходимостью проведения массивных расчетов для создания ядерного оружия и ракетной техники. Объемы требуемых вычислений просто не позволяли произвести их в приемлемое время традиционным коллективом расчетчиков. Первыми пользователями компьютеров и разработчиками компьютерных программ стали вычислительные математики. При использовании компьютера для вычислительных функций не требуется большого объема исходных данных, их обычно вводят для каждой задачи заново.

Но почти сразу на появление компьютеров обратили внимание бизнесмены, проектировщики, специалисты других гражданских отраслей. Как правило, в гражданских отраслях, бизнесе не требуются массивные расчеты за исключением таких отраслей, как, например, авиа- или автомобилестроение, моделирование различных процессов, включая социальные. В более распространенных видах гражданского бизнеса (банковское дело, биржевые операции, системы резервирования билетов или мест в гостиницах) основной проблемой всегда являлись объемы информации, которые необходимо собирать, надежно хранить и оперативно обрабатывать. Так стали появляться системы обработки информации, основным назначением которых является решение проблемы сбора, хранения, поиска и оперативной обработки информации. Отдельные компоненты процесса обработки данных достигли высокой степени организации и взаимосвязи, что позволило говорить об информационной системе.

Развитие информационных технологий приводит к потребности интеграции отдельных информационных систем в единые информационные ресурсы. В Федеральном законе «Об информации, информатизации и защите информации» информационные ресурсы определяются как отдельные документы и отдельные массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах). В современных информационных системах информационные ресурсы хранятся в виде информационных массивов, баз данных на машинных носителях. Современные информационные технологии придают им необходимую мобильность.

Информационные системы позволяют хранить информацию, как о реальном мире, так и сведения, полученные в процессе научных исследований и являющиеся продуктом интеллектуальной деятельности человека.

При хранении сведений о реальном мире используются некоторые данные. Данные воспроизводят изображения или представления реального мира. Но их применение для решения определённых проблем полезно только, когда они точно представляют реальный мир. Существует множество способов, позволяющих нам отобразить реальный мир. Одним из них является фотография или эскиз, где мы абстрагируем видимые компоненты. Не прибегая к физическому моделированию, мы научились представлять отдельные области реального мира с помощью математических формул, которые дают возможность прогнозировать результат при изменении переменных в соответствии с возможными событиями в реальном мире.

Проектировщик вычислительной системы пытается изобразить реальный мир путём структуризации данных. В связи, с этим данные являются описаниями объектов реального мира. Форма подобного описания такова, что ЭВМ может его весьма просто обработать.

Только философы имеют дело с реальным миром. При решении же конкретных проблем обычно ограничиваются той его частью, которая является областью данной деятельности. В этих случаях интерес представляют лишь некоторые его объекты. Совокупность таких объектов называется предметной областью, а сами объекты - объектами предметной области. Объектами могут быть:

Очевидно, что одновременно могут существовать несколько предметных областей, соответствующих разным проблемам.

Предметная область

Рис. 1.1 Предметная область

Так начисление зарплаты по временной системе, отличается от начисления зарплаты по окладу, по выработке. Работник может попасть в две и более предметных областей, даже в части расчета зарплаты.

Объекты отличаются друг от друга. Отличие объектов определяется их характеристиками, или атрибутами.

Уникальность объекта определяется значением атрибута. Предметная область содержит объекты, каждый, из которого имеет атрибуты, любой атрибут принимает одно из множеств значений.

Для любого объекта существует некоторая совокупность информации, которую мы называем записью. Запись в свою очередь содержит поля соответствующие атрибуту. Совокупность записей соответствует совокупности объектов предметной области. Каждое поле имеет имя, это позволяет идентифицировать его.

К настоящему времени разработано множество информационных систем, позволяющих решать задачи автоматизации деятельности различных предприятий, банков, гостиниц.

Современной формой информационных систем являются банки данных, которые включают в свой состав вычислительную систему, одну или несколько баз данных (БД), систему управления базами данных (СУБД) и набор прикладных программ (ПП). Основными функциями банков данных являются:

База данных обеспечивает хранение информации и представляет собой поименованную совокупность данных, организованных по определенным правилам, включающим общие принципы описания, хранения и манипулирования данными.

Система управления базами данных представляет собой пакет прикладных программ и совокупность языковых средств, предназначенных для создания, сопровождения и использования баз данных.

Прикладные программы (приложения) в составе банков данных служат для обработки данных, вычислений и формирования выходных документов по заданной форме.

Процесс создания информационной системы обычно включает следующие этапы:

Приведенный перечень этапов не является строгим в смысле очередности и обязательности. В частности, этап создания файла проекта БД поддерживается не всеми СУБД и является не обязательным. Процесс создания информационной системы, как правило, имеет итерационный характер.

Приложение представляет собой программу или комплекс программ, использующих БД и обеспечивающих автоматизацию обработки информации из некоторой предметной области. Приложения могут создаваться как в среде СУБД, так и вне СУБД – с помощью системы программирования, к примеру, Delphi или C++ Builder, использующей средства доступа к БД.

Для работы с базой данных во многих случаях можно обойтись только средствами СУБД, скажем, создавая запросы и отчеты. Приложения разрабатывают главным образом в случаях, когда требуется обеспечить удобство работы с БД неквалифицированным пользователям или интерфейс СУБД не устраивает пользователя.

Модели данных необходимо анализировать с учетом информационных конструкций, операций, ограничений. Для синтаксических моделей данных характерно использование единого аппарата функциональных зависимостей. Данный аппарат позволяет производить нормализацию реляционных баз данных, создавать сетевые и иерархические базы данных.

Семантические модели данных используются в качестве средства исследования предметной области и аппарата представления знаний о предметной области и самой информационной системы. База знаний, при таком подходе трактуется, как развитие баз данных.

Информационные системы условно можно разделить на документальные и фактографические.

1.2 Документальные информационно - поисковые системы

Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.

Документальный поиск – информационный поиск, цель которого нахождение в хранилище ИПС документов, соответствующих полученному запросу. В реальных условиях документальный поиск осуществляется в два этапа: в хранилище вторичных документов, в хранилище первичных документов. Соответственно выделяют два вида документального поиска: библиографический и библиотечный.

Библиографический поиск – документальный поиск, осуществляемый с целью нахождения данных о первичных документах и их адресах. ИПС, обеспечивающая хранение вторичных документов и библиографический поиск называется библиографической информационно – поисковой системой.

Библиотечный поиск – документальный поиск, осуществляемый с целью нахождения первичных документов в их собрании. Соответствующая ИПС называется библиотечной.

При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.

Релевантность – соответствие содержания документа информационному запросу в том виде, в котором он сформулирован.

Фактическая релевантность, понимаемая как смысловое соответствие содержания выданного документа информационному запросу, может быть установлена человеком в процессе осмысления содержания документа и запроса.

Элементами ИПС являются:

Массивы документов, выступающие в качестве объекта поиска

Информационно – поисковый язык (ИПЯ). Это искусственный язык предназначенный для описания содержания и формы документов и запросов для осуществления поиска.

Правила индексирования, следуя которым осуществляется описание средствами ИПЯ документов и запросов. В результате индексирования документа получается поисковый образ документа (ПОД), а в результате индексирования запроса – поисковое предписание (ПП).

Правила поиска документов, соответствующих запросов, которые задаются в виде критерия соответствия.

Технические средства, с помощью которых реализуется ИПС, т.е. осуществляется хранение и поиск информации.

Обслуживающий персонал – индексаторы и технические работники, обеспечивающие обработку и ввод в систему документов.

В состав ИПС входят четыре подсистемы: ввода и регистрации, обработки, хранения, поиска. Структура ИПС представлена на рис. 1.2.

Структура ИПС

Рис. 1.2 Структура ИПС

Текстовые документы поступают на вход. Все поступающие документы без каких либо изменений направляются в систему хранения. Система хранения представляет собой или совокупностью файлов, или специализированные средства управления базой данных. Система хранения в виде файлов имеет ряд недостатков, а именно хранимые документы неэффективно используют дисковое пространство и имеют низкую скорость доступа при большом количестве файлов. Специализированные средства представляют собой совокупность стандартных или специализированных средств архивации и СУБД, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа поисковых образов документа, в который заносится информация, необходимая для последующего поиска документа.

Поисковые образы всех документов сохраняются в индексе. Он представляет собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы хранятся единицы и нули в зависимости от наличия или отсутствия данного признака в данном документе.

Очевидно, что такая таблица сильно разряжена, и хранить в ней все ее значения не имеет смысла, поэтому используют свертку таких таблиц. Форма хранения таблицы без свертки называется прямой, со сверткой – инверсной. При свертке таблицы структура индекса значительно усложняется, для его поддержания используются средства СУБД.

Запрос пользователя преобразуется в код поискового предписания и передается в подсистему поиска, которая осуществляет выдачу пользователю документов. Найденные документы признаются системой формально релевантными.

Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где “энтропия” употреблена в ином смысле, чем предполагалось), а с другой – не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).

1.3 Сетевые технологии передачи данных

Эффективное использование ИС невозможно без применения сетевых технологий. Вычислительная сеть — это совокупность рабочих станций (например, на базе персональных ЭВМ), связанных между собой каналами передачи данных, по которым циркулируют сообщения. Сетевые операции регулируются набором правил и соглашений — сетевым протоколом, который определяет требуемые для совместной работы технические параметры аппаратуры, сигналы, форматы сообщений, способы обнаружения и исправления ошибок, алгоритмы работы сетевых интерфейсов и т.д..

Локальные сети позволяют эффективно использовать такие ресурсы системы как базы данных, периферийные устройства типа лазерных принтеров, быстродействующих накопителей на магнитных дисках большого объема и т.п., а также пользоваться электронной почтой.

Глобальные сети появились тогда, когда был создан протокол, позволяющий соединять между собой локальные сети. Обычно это событие связывают с появлением пары взаимосвязанных протоколов — протокола управления передачей/межсетевого протокола TCP/IP (Transmission Control Protocol/Internet Protocol), которые 1 января 1983 года связали в единую систему сеть ARPANET и сеть оборонной информации США. Так была создана «сеть сетей» — Интернет. Другим важным событием в истории Интернета явилось создание распределенной гипертекстовой информационной системы WWW (от англ, World Wide Web — «Всемирная паутина»). Оно стало возможным благодаря разработке набора правил и требований, облегчающих написание программного обеспечения для рабочих станций и серверов. И, наконец, третьим важным событием в истории Интернета была разработка специальных программ, облегчающих поиск информации и обрабатывающих текстовые документы, изображения и звуки.

Сеть Интернет состоит из компьютеров, которые являются ее постоянными узлами (они получили название хост от англ. host — хозяин) и терминалов, которые подключаются к хосту. Хосты соединены между собой по Интернет-протоколу, а в качестве терминала можно использовать любой персональный компьютер, запустив на нем специальную программу-эмулятор. Такая программа позволяет ему «притвориться» терминалом, то есть так же воспринимать команды и посылать такие же ответные сигналы, что и настоящий терминал. Для того, чтобы решить проблему учета миллионов ПЭВМ, соединенных в единую сеть, Интернет использует уникальные коды — число и имя, которые присваиваются каждому компьютеру. В качестве части имени используются названия стран (Россия — RU, Великобритания — UK, Франция — FR), а в США — типы организаций (коммерческая — СОМ, система образования EDU, сетевые службы — NET).

Для того, чтобы подключиться к сети по Интернет-протоколу г необходимо договориться с организацией-провайдером (от англ.

provider — поставщик), которая будет перенаправлять информацию с помощью сетевого протокола TCP/IP по телефонным линиям на данный компьютер через специальное устройство — модем. Обычно провайдеры Интернета при регистрации нового абонента выдают ему специально написанный пакет программ, который автоматически устанавливает необходимое сетевое программное обеспечение на ЭВМ абонента.

Интернет предоставляет пользователям множество различных ресурсов. С точки зрения использования Интернет для целей образования наибольший интерес представляют лва — система файловых архивов и базы данных World Wide Web (WWW, «Всемирная паутина»),

Система файловых архивов становится доступной с помощью протокола FTP (File Transfer Protocol — протокол передачи файлов); эту систему архивов так и называют: FTP-архивы. FTP-архивы — это распределенный депозитарий разных данных, накопленных за 10-15 лет. Любой пользователь может анонимно обратиться к этому хранилищу и скопировать интересующие его материалы. Команды протокола FTP определяют параметры канала передачи данных и самого процесса передачи, а также характер работы с файловой системой. Протокол FTP позволяет пользователям копировать файлы из одного присоединенного к сети компьютера в другой. Другое средство — протокол доступа к машинам сети Telnet позволяет соединяться с другим терминалом так же, как соединяются по телефону с другим абонентом, и вести с ним совместную работу.

Особенностью распределенной гипертекстовой информационной системы WWW является применение гипертекстовых ссылок, которые дают возможность просматривать материалы в порядке их выбора пользователем.

Фундаментом WWW служат четыре краеугольных камня:

Стандартный объект хранения в базе данных — это HTML-документ, которому соответствует обычный текстовый файл. Запросы клиентов обслуживает программа, называемая HTTP-сервер. Она реализует связь по протоколу HTTP (HyperText Transfer Protocol — протокол передачи гипертекстов), который является надстройкой над TCP/IP — стандартным протоколом Интернета. Законченный информационный объект, который отображается программой клиентом пользователя при обращении к информационному ресурсу, это страница базы данных WWW.

Местонахождения каждого ресурса определяется унифицированным указателем ресурса URL (от англ. Uniform Resource Locator). Стандартный URL состоит из четырех частей: формат передачи (тип протокола доступа), имя хоста, на котором находится запрашиваемый ресурс, путь к этому файлу и имя файла. С помощью системы именования URL ссылки в гипертексте описывают местонахождение документа. Связь со всеми ресурсами сети осуществляется через единый пользовательский интерфейс CUI (Common User Interface). Главное назначение этого средства — обеспечение единообразного потока данных между сервером и прикладной программой, которая запускается под его управлением. Просмотр информационного ресурса выполняется с помощью специальных программ — браузеров (от англ. browse — читать, бегло просматривать).

Термин «браузер» относится не ко всем ресурсам Интернет, а только к той их части, которая носит название «Всемирная паутина». Только здесь используется протокол HTTP, необходимый для передачи документов, написанных с помощью языка HTML, а браузер — это программа, распознающая HTML-коды форматирования переданного документа и отображающая его на экране компьютера в том виде, как его задумал автор, другими словами, программа, осуществляющая просмотр HTML-документа.

К настоящему времени разработано большое количество программ-браузеров для Интернета. Среди них Netscape Navigator, MS Internet Explorel, Mosaic, Tango, Ariadna, Cello, Lynx.

Остановимся на том, какработаютпросмотрщики (браузеры) [17].

Обработка данных в HTTP состоит из четырех стадий: открытие связи, пересылка сообщения запроса, пересылка данных ответа и закрытие связи.

Чтобы открыть связь, просмотрщик «Всемирной паутины» соединяется с сервером HTTP (Web-сервером), указанным в URL. После установления соединения WWW-просмотрщик посылает сообщение запроса. Оно указывает серверу, какой документ нужен. После обработки запроса сервер HTTP передает WWW-серверу запрошенные данные. Все эти действия видны на экране монитора — все это делает браузер. Пользователю видна только основная функция, которая состоит в индикации, то есть выделении из общего текста гиперссылок. Это достигается изменением рисунка указателя мыши: когда указатель попадает на гиперссылку, он

вращается из «стрелки» в «указующий перст» — руку с вытянутым указательным пальцем. Если в этот момент щелкнуть кнопкой мыши, то браузер «уйдет» по адресу, указанному в гиперссылке.

Технология функционирования HTTP-сервера настолько проста и дешева, что нет никаких ограничений для создания WWW-подобной системы внутри отдельной организации. Поскольку необходимо только наличие внутренней локальной сети с ТСР/1Р-протоко-лом, можно создать маленькую (по сравнению с глобальной) гипертекстовую «Паутинку», Такая технология создания Интернет-подобных локальных сетей носит название Интранет.

В настоящее время по сети Интернет перемещается ежемесячно более 30 терабит информации (это примерно 30 млн. книг по 700 страниц каждая), а число пользователей составляет, по разным оценкам, от 30 до 60 млн. человек [17].

1.4 Информационно - поисковые системы в Интернет

Информационно- поисковые системы в Интернет можно разделить на три класса:

1. Распределенные системы, в которых процесс поиска реализуется на всей совокупности распределенных по сети ресурсов, как первичных – текстовых файлов, так и вторичных – реферативная и библиографическая информация.

2. Частично распределенные, в которых вторичная информация располагается на одном поисковом сервере, а первичная распределена по всей совокупности серверов.

3. Локальные системы, которые обеспечивают доступ пользователей к ресурсам сосредоточенном на одном сервере.

Пример системы первого типа – распределенная информационная система WAIS (Wide Area Information Servers). Эта система состоит из поисковой машины и интерфейса пользователя, которые связаны между собой универсальным протоколом WAIS на основе стандарта Z39.50.

Протокол Z39.50 определяет механизм информационного обмена в процессе обработки поисковых запросов и протокол обмена данными, которые хранятся в базах данных. Единица хранения в базе, которая может быть найдена, — это файл. Каждый файл имеет определенную точку доступа — ключ, по которому его можно идентифицировать. Ключом могут быть совокупности элементов данных, отдельные элементы и части элемента.

Запрос на поиск составляется из ключевых слов. Он выполняется по всей базе данных, и его реализация заключается в проверке совпадения точек доступа и элементов запроса. Набор записей, удовлетворяющих запросу, есть ответ системы на запрос, однако в отчет о проведенном поиске включаются только идентификаторы записей, а не сами записи.

Примером системы второго типа может служить информационно - поисковая система WWW, структурная система которой для Интернета показана на рис. 1.3

Структурная система ИПС для интернета

Рис. 1.3 Структурная система ИПС для Интернета

Первичные документальные массивы хранятся на сайтах ИПС и представляют собой разнородную информацию в различных, не согласованных друг с другом форматах. Робот - индексировщик сканирует сетевые ресурсы и поддерживает базу данных индекса в актуальном состоянии. Эта база служит для поиска адреса информационного ресурса. Интерфейс пользователя представляет собой программу просмотра и средства общения пользователя с поисковым аппаратом системы. Трансляция запроса пользователя с информационно-поискового языка в формальный запрос, поиск ссылок на информационный ресурс и выдача результата поиска пользователю — все это функции поисковой машины. Запросы пользователя, на которые получены удовлетворительные ответы, накапливаются в его личной базе запросов; впоследствии это поможет ему сберечь время на доступ к нужному ресурсу.

Одна из центральных задач, от решения которых зависит эффективность ИПС, — это формирование поискового образа документа. Ее решает робот -индексировщик. Он регулярно просматривает ресурсы сети, находит новые ресурсы, приписывает им термины и помещает в базу индекса. Для индексирования используются гипертекстовые ссылки, заголовки, заглавия, аннотации, списки ключевых слов, полные тексты документов, сообщения администраторов о своих Web-страницах. При этом часто проводится нормализация лексики.

Поисковый образ документа — это одна часть поискового аппарата. Другая его часть — информационно-поисковый язык. Обычно он строится на основе естественного языка, но из него исключаются запрещенные в общие слова, лексика нормализуется, и добавляются связки типа AND, NOT и OR.

Результат поиска в базе данных ИПС — список указателей на документы, удовлетворяющие запросу.

Пример ИПС третьего типа — библиотечная система IRBIS. Рассмотрим кратко работу с ней. В начале работы пользователь вводит свои регистрационные данные и выбирает из предлагаемого списка доступных баз базу данных, в которой он предполагает проводить поиск. Функция «Ввод» проверяет права доступа пользователя, открывает базу данных (если пользователю разрешен доступ к ней) и выводит страницу формы конструктора для формирования предложения запроса по одной из трех технологий: 1) «по простому вхождению»; 2) «по логическому выражению»; 3) «по образцу».

В первом случае поиск идет по наличию в документе указанных слов (полностью или без окончаний). Во втором варианте запрос на поиск состоит из поисковых условий, объединенных одним из операторов И/ИЛИ/НЕ; каждое условие включает наименование фрагмента документа и поисковые термины. Третий способ обеспечивает упрощенный процесс формирования структурно заданного поискового условия.

Область поиска может быть расширена путем использования гипертекстовых ссылок или коррекцией запроса.

Результат поиска — библиографические документы. Они могут выводиться на экран постранично; предусмотрена возможность заказа копии первоисточника с получением ее либо по почте, либо в виде электронного файла (если он существует).

1.5 Фактографические информационные системы

Фактографические информационные системы оперируют фактическими сведениями, представляемыми в виде специальным образом организованных совокупностей формализованных записей данных. В фактографических ИС регистрируются факты – конкретные значения данных (атрибутов) об объектах реального мира. Основная идея таких систем заключается в том, что все сведения об объектах (фамилии людей и названия предметов, числа, даты) сообщаются компьютеру в каком-то заранее обусловленном формате (например, дата – в виде комбинации ДД.ММ.ГГГГ). Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, – например, фамилию от должности человека, дату рождения от роста и т. п.

Фактографический поиск представляет собой поиск фактов, непосредственно отвечающих на запрос. Поэтому фактографическая система способна давать однозначные ответы на поставленные вопросы, например: “Сколько велосипедов марки А-18 продал магазин “Спорт” в июне 2004 г.?”, “Кто из работников фирмы с датой рождения не ранее 1 января 1970 г. имеет водительские права?”, “Какие культурно-исторические памятники Санкт-Петербурга включены в список ЮНЕСКО?” и т. д.

Центральным функциональным звеном фактографических информационных систем являются системы управления базами данных.

Современные СУБД оперируют огромными массивами информации, объемы которых достигают десятков терабайт. Выполняя запрос пользователя они должны обеспечит время отклика порядка нескольких секунд. Для этого во всех СУБД организован метод ускоренного доступа к данным. В настоящее время в СУБД используется два метода организации прямого доступа: индексирование и хэширование.

Метод индексирования основан на использовании индексов. Индекс это специальная структура создаваемая автоматически или по запросу пользователя. Индекс похож на предметный указатель книг. Работа с ним выглядит, так же как и с предметным указателем. Разница лишь в том, что СУБД делает все автоматически. В индексах все значения хранятся упорядоченно, каждому значению соответствует указатель на строку таблицы. Индекс занимает значительно меньший объем, чем таблица, а также упорядоченное хранение информации значительно ускоряет ее поиск.

Основная идея хэширования – организация ассоциативной памяти для хранения строк таблицы. Место строки вычисляется хэш-функцией, аргументы которой фактографические описания, а результат – целое число в диапазоне номеров строк таблицы. Идеальная хэш-функция должна давать разные значения номеров строк для разных ключевых атрибутов. Однако построить такую функцию не всегда удается.

Доступ к данным при хэшировании производится так. В начале работы с БД таблица состоит из пустых строк. Когда строка с данными заносится в таблицу, для нее вычисляется значение хэш-функции и результат трактуется как номер строки таблицы, в которую она должна быть записана. Если эта строка уже занята, то по некоторому алгоритму производится проверка следующих строк таблицы до тех пор, пока не будет обнаружено свободное место (при этом, как правило, считается, что таблица имеет кольцевую структуру). В это место и помещается записываемая строка. Для поиска данных используется аналогичный алгоритм. Сначала вычисляется значение хэш-функции для требуемого значения фактографического описания и проверяется строка таблицы, номер которой вычислен хэш-функцией. Если описание, по которому происходит доступ, соответствует значению ключа строки, то поиск заканчивается. В противном случае проверяются следующие строки таблицы до обнаружения строки с нужным значением или пустой строки. Пустая строка свидетельствует об отсутствии заданного описания — процедура занесения данных обязательно использовала бы ее, если бы оно существовало.

Если таблица заполнена не более чем на 60%, то для размещения в ней новой строки необходимо проверить в среднем не более двух ячеек. Иногда для устранения коллизий, возникающих, если хэш-функция выдает номер занятой строки, используют не линейный просмотр, а более сложные методы.

База данных бесполезна, если отсутствуют средства доступа к информации в ней. Для получения информации из БД пользователи направляют СУБД запросы. СУБД обрабатывает их и отправляет результаты обработки пользователям. Запросы формулируются на специальном «языке запросов». Фактическим стандартом такого языка для современных реляционных СУБД стал SQL (Structured Query Language — структурный язык запросов). В текущий стандарт языка SQL входят операторы такие как: «ВЫБРАТЬ ДАННЫЕ ИЗ БД», «ДОБАВИТЬ ДАННЫЕ В БД», «УДАЛИТЬ ДАННЫЕ ИЗ БД» и т.п.

Таблицы невозможно хранить и обрабатывать, если в базе отсутствуют «данные о данных» (метаданные), например, описатели таблиц, столбцов и т.д. Метаданные также представлены в табличной форме и хранятся в словаре данных.

1.6 Экспертные системы, базовые понятия

Существует особый тип ИС – экспертные системы. Экспертная система имитирует поведение эксперта (специалиста) в какой-либо предметной области (например, в биологии), может генерировать новую информацию в этой области и давать разумные советы исследователям. В основе операций экспертной системы – обработка базы знаний (не смешивать с базой данных), составляемой специалистами в данной области.

Экспертная система занимается обработкой знаний. Системы, ядром ИС является база знаний или модель предметной области, описанная на интеллектуальном языке, который называется языком представления знаний (ЯПЗ). Существуют десятки языков или моделей представления знаний такие как:

Для перечисленных выше моделей существует математическая нотация, разработаны системы программирования, реализующие эти ЯПЗ, и имеется большое количество реальных коммерческих ЭС.

Интеллектуальные системы (ИС) применяются для решения сложных задач, где основная сложность решения связана с использованием слабо-формализованных знаний специалистов-практиков и где логическая (или смысловая) обработка информации превалирует над вычислительной. Например:

Фактически прикладные интеллектуальные системы используются в десятках тысяч приложений. А годовой доход от продаж программных и аппаратных средств искусственного интеллекта еще в 1989 г. в США составлял 870 млн. долларов, а в 1990 г. — 1,1 млрд. долларов [Попов, 1996]. В дальнейшем почти тридцати процентный прирост дохода сменился более плавным наращиванием темпов [Поспелов, 1997; Хорошевский, 1997; Попов, 1996, Walker, Miller, 1987; Tuthill, 1994, Durkin, 1998].

К наиболее распространенному классу прикладных ИС относятся экспертные системы (ЭС). В данном курсе остановимся на следующем определении экспертной системы.

Экспертная система - это программа (на современном уровне развития человечества), которая заменяет эксперта в той или иной области.

Изучая востребованность ЭС, авторы [Попов, 1996; Поспелов, 1997; Хорошевский, 1997; Tuthill,1994, Durkin, 1998)]. пришли к выводу, что только в США ежегодный доход от продаж инструментальных средств разработки ЭС составлял в начале 90-х годов 300-400 млн. долларов, а от применения ЭС — 80-90 млн. долларов Ежегодно крупные фирмы разрабатывают десятки ЭС типа «in-house» для внутреннего пользования. Эти системы интегрируют опыт специалистов компании по ключевым и стратегически важным технологиям. В начале 90-х гг. появилась новая наука — «менеджмент знаний» (knowledge management), ориентированная на методы обработки и управления корпоративными знаниями.

Разработка экспертных систем, как активно развивающаяся ветвь информатики, направлена на использование ЭВМ для обработки информации в тех областях науки и техники, где традиционные математические методы моделирования малопригодны. В этих областях важна смысловая и логическая обработка информации, важен опыт экспертов.

Хотя у многих специалистов не знакомых с работой ЭС существует ряд заблуждений: Во - первых они считают, что ЭС будут делать не более (а скорее даже менее) того, что может эксперт, создавший данную систему. Для опровержения данного постулата можно построить самообучающуюся ЭС в области, в которой вообще нет экспертов, либо объединить в одной ЭС знания нескольких экспертов, и получить в результате систему, которая может то, чего ни один из ее создателей не может. Во-вторых, они утверждают, что ЭС никогда не заменит человека-эксперта. Но если они бы не заменяли эксперта, тогда зачем их создавать?

Экспертные системы, хотя и достаточно молодое направление — первые системы такого рода, MYCIN [Shortliffe, 1976] и DENDRAL [Buchanan, Feigenbaum, 1978], появились в США в середине 70-х годов. В настоящее время в мире насчитывается несколько тысяч промышленных ЭС, которые дают советы:

Сейчас легче назвать области, где еще нет ЭС, чем те, где они уже применяются. Уже в 1987 г. опрос пользователей, проведенный журналом «Intelligent Technologies» (США), показал, что примерно:

Современное состояние разработок в области ЭС в России можно охарактеризовать как стадию все возрастающего интереса среди широких слоев специалистов — финансистов, топ - менеджеров, преподавателей, инженеров, медиков, психологов, программистов, лингвистов. Этот интерес имеет достаточно слабое материальное подкрепление - нехватка учебников и специальной литературы, отсутствие символьных процессоров и рабочих станций, ограниченное финансирование исследований в этой области, слабый отечественный рынок программных продуктов для разработки ЭС.

Поэтому появляется возможность распространения «подделок» под экспертные системы в виде многочисленных диалоговых систем и интерактивных пакетов прикладных программ, которые дискредитируют в глазах пользователей это чрезвычайно перспективное направление. Процесс создания экспертной системы требует участия высококвалифицированных специалистов в области искусственного интеллекта, которых пока выпускает небольшое количество высших учебных заведений страны.

Наибольшие трудности в разработке ЭС вызывает сегодня не процесс машинной реализации систем, а до машинный этап анализа знаний и проектирования базы знаний. Этим занимается специальная наука — инженерия знаний [Гаврилова, Червинская, 1992; Adeli, 1994; Scott, Clayton, Gibson, 1994].

Рейтинг@Mail.ru