Постановка задачи и пути ее решения

Одним из важнейших направлений развития информационных систем является создание систем искусственного интеллекта (СИИ), в частности систем: с интеллектуальной обратной связью (биологическая обратная связь и семантический резонанс); распознавания образов; поддержки принятия решений; экспертных систем; нейронных сетей; генетических алгоритмов и машинной эволюции; когнитивного моделирования; выявления знаний из опыта (эмпирических фактов) и интеллектуального анализа данных (data mining), а также ряда других.

В связи с наличием многих альтернатив возникает необходимость оценки качества математических моделей и поддерживающих их систем искусственного интеллекта (ММ СИИ). Сопоставимое сравнение различных моделей актуально как для разработчиков моделей (адекватная самооценка

своей работы), так и для потребителей моделей (адекватная оценка моделей и обоснованный выбор оптимальной из них по заданным критериям). Сопоставимость

оценки может быть обеспечена, если модели будут протестированы на одних и тех же исходных данных по ряду типовых задач из области искусственного интеллекта.

Для этого необходимы:

1. Свободный доступ к тестовым исходным данным.

2. Методика, обеспечивающая преобразование исходных данных из формы, доступной через Internet, в форму, в которой они могут быть использованы в конкретной программной системе искусственного интеллекта, реализующей ту или иную математическую модель.

1-е условие выполнено сотрудниками Школы информации и компьютерных исследований Калифорнийского университета США (School of Information & Computer Science

University of California, Irvine, USA, http://www.ics.uci.edu), которыми создан и размещен в Internet по адресу: http://www.ics.uci.edu/~mlearn/MLSummary.html банк исходных данных по задачам искусственного интеллекта.

На момент написания настоящей работы этот банк включает базы исходных данных по следующим задачам: Abalone, Adult, Annealing, Anonymous Microsoft Web Data, Arrhythmia, Artificial Characters, Audiologys, Auto-Mpg, Automobile, Badges, Balance Scale, Balloons, Breast Cancer, Wisconsin Breast Cancers, Pittsburgh Bridges, Car Evaluation, Census Income, Chesss, Bach Chorales (time-series), Connect-4 Opening, Credit Screenings, Computer Hardware, Contraceptive Method Choice, Covertype data, Cylinder Bands, Dermatology, Diabetes Data, The Second Data Generation Program - DGP/2, Document Understanding, EBL Domain Theories and Examples, Echocardiogram, Ecoli, Flags,Function Findings, Glass Identification, Haberman's Survival Data, Hayes-Roth, Heart Diseases, Hepatitis, Horse Colic, Housing (Boston), ICU Data, Image segmentation, Internet Advertisements, Ionosphere, Iris Plant, Isolet Spoken Letter Recognition, Kinship, Labor relations, LED Display Domains, Lenses, Letter Recognition, Liver-disorders, Logic-theorist, Lung Cancer, Lymphography, Mechanical Analysis Data, Meta-data, Mobile Robots, Molecular Biologys, MONK's Problems, Moral Reasoner, Multiple Features, Mushrooms, MUSKs, Nursery, Othello Domain Theory, Page Blocks Classification, Pima Indians Diabetes, Optical Recognition of Handwritten Digits, Pen-Based Recognition of Handwritten Digits, Postoperative Patient, Primary Tumor, Qualitative Structure Activity Relationships (QSARs), Quadraped Animals Data Generator, Servo, Shuttle Landing Control, Solar Flares, Soybeans, Challenger USA Space Shuttle O-Rings, Low Resolution Spectrometer, Spambase, SPECT and SPECTF hearts, Sponge, Statlog Projects, Student Loan Relational, Teaching Assistant Evaluation, Tic-Tac-Toe Endgame, Thyroid Disease, Trains, University, Congressional Voting Records, Water Treatement Plant, Waveform Data Generator, Wine Recognition, Yeast, Zoo, Undocumenteds.

Поэтому остается выполнить 2-е условие, а именно: разработать типовую методику использования баз данных репозитария UCI для оценки качества математических моделей систем искусственного интеллекта, что и является основной задачей данного раздела.

На первый взгляд решение этой задачи является относительно несложным, т.к. требует в основном знания и умения использования стандартных возможностей Internet-броузера, Word и Excel. Однако как показывает опыт, это вполне может представлять определенную сложность из-за большого числа операций преобразования формы информации и принципиальной неполной формализуемости этого процесса. Поэтому предмет данной данного раздела достаточно актуален.

Сформулируем основные требования к методикам, предназначенным для этих целей, а также критерии их оценки и сравнения:

1. Высокая степень автоматизированности, т.е. минимизация затрат ручного труда.

2. Высокая скорость преобразования информации

и, как следствие, – несущественность ее объема.

3. Высокая достоверность преобразования, т.е. отсутствие ошибок.

Однако в литературе и в Internet не приводятся методики аналогичного назначения. Исходя из этого можно предположить, что в основном это преобразование осуществляется вручную, что не соответствует сформулированным требованиям ни по одному из приведенных критериев.

Поэтому предлагается методика, свободная от указанных ограничений. Основная идея этой методики состоит в том, что преобразование формы представления исходных данных из HTML-формата непосредственно в базы данных системы осуществляется в два основных этапа:

– на 1-м этапе с использованием стандартных возможностей Word и Excel осуществляется преобразование исходных данных из HTML-формата в промежуточные DBF-таблицы;

– на 2-м этапе с помощью специально разработанного программного интерфейса осуществляется преобразование исходных данных из промежуточных DBF-таблиц в стандарт баз данных используемой системы искусственного интеллекта.

Рассмотрим данную методику подробнее на примере преобразования баз данных репозитария UCI по примеру ZOO-database в стандарт баз данных универсальной когнитивной аналитической системы "Эйдос" [64].

Содержание раздела