Применение алгоритмов поиска логических зависимостей для решения задач в
области топонимики
В.Т. Вдовицын, Г.М. Керт, Н.Б. Луговая, Ю.В. Чуйко
(Петрозаводск, ИПМИ КарНЦ РАН).
Топонимической науке в силу ее специфики приходится оперировать огромным
количеством исходного материала. Между тем естественные возможности человека в
осмыслении этого материала ограничены. В связи с этим назрела настоятельная
необходимость применения методов прикладной математики и информатики в
топонимических исследованиях.
С целью содействия развитию российской топонимической науки, координации
теоретических и прикладных исследований и разработок российских топонимистов в
различных регионах страны нами был разработан тематический Web-сайт TORIS с
интегрированной базой данных, содержащей информацию о топонимах северо-западного
региона России (http://toris.krc.karelia.ru) [1]. Структура описания русской и
прибалтийско-финской топонимии, включающая 18 характеристик, учитывает структурные,
семантические и иные свойства топонима, а также экстралингвистические признаки
объекта, именуемого данным топонимом. При этом часть характеристик (например,
характеристика 'семантика') являются составными (т.е. представляют
собой однородные группы параметров) и называются компонентами, которых может
быть не более 4-х в описании топонима.
Нами сформулирован ряд задач в области топонимики, в основе решения которых
лежит определение частотных характеристик топонимов и их компонентов, а также
выявление характерных повторяющихся значений характеристик в описаниях
топонимов [2]. Подобные задачи могут быть решены с использованием алгоритмов
поиска значимых множеств и ассоциативных правил.
В формальной постановке задача нахождения логических зависимостей между
характеристиками топонимов в виде ассоциативных правил может быть сформулирована
следующим образом. Обозначим через:
- - исходный (анализируемый) набор топонимов, в котором для каждого топонима
определено множество исследуемых характеристик;
- -
множество всех возможных значений исследуемых характеристик, описывающих
топонимы из рассматриваемого набора;
- - множество
ассоциативных правил, где:
- ,
-
- поддержка правила Rule в T,
-
- степень уверенности правила Rule в T.
Задача заключается в том, чтобы найти все правила Rule, для которых s>minsupport
и c>minconf (где: minsupport и minconf - задаваемые нижние пороги поддержки и
степени уверенности правила).
Для решения задач в области топонимики нами разработана программная система
DMiner, в основе которой лежит алгоритм поиска значимых множеств PrefixSpan [3].
Система также включает ряд сервисных функций, связанных с подготовкой исходных
данных для их обработки и интерпретации полученных результатов. С помощью
разработанной системы был проведен ряд вычислительных экспериментов с наборами
топонимов из базы данных сайта TORIS, в результате которых были получены
ассоциативные правила, отражающие приоритеты в выборе компонентов в названиях
географических объектов.
Работа выполняется при поддержке РГНФ (грант № 03-04-12033в).
Литература
- В.Т. Вдовицын, Г.М. Керт и др. Электронная коллекция информационных ресурсов
по топонимии Европейского Севера России. //Сб. трудов Третьей Всеросс. конф.
``Электронные библиотеки: перспективные методы и технологии, электронные
коллекции'', RCDL'2001, Петрозаводск, 11-13 сентября 2001 г., Карельский научный
центр РАН, 2001, с.109-201.
- Керт Г.М. Применение компьютерных технологий в исследовании топонимии
(прибалтийско-финская, русская).- Петрозаводск: Карельский научный центр РАН,
2002.- 187 с.
- Jian Pei, Juawei Han and others. PrefixSpan: Mining Sequential Patterns
Efficiently by Prefix-Projected Pattern Growth. In Proc. 2001 Int. Conf. Data
Engineering (ICDF'01), Heidelberg, Germany, April 2001, pp.215-224.
|