Примеры ассоциативных правил для топонимов Кемского района
С помощью разработанной системы был проведен ряд вычислительных экспериментов с наборами топонимов из БД, в результате которых были получены ассоциативные правила, отражающие приоритеты в выборе компонентов в названиях географических объектов. В частности, из БД было отобрано 542 записи о русских топонимах, информация о которых была собрана в основном на территории Кемского района Карелии. Анализируемыми характеристиками в данном вычислительном эксперименте были выбраны поля записей описания топонимов, значениями которых являлись: объект, район, семантические формулы компонентов. Для заданного значения параметра s < 0.5% в результате работы системы DMiner было получено свыше сотни ассоциативных правил, примеры некоторых из них приводятся ниже.
Первый блок ассоциативных правил описывает распределение русских топонимов в Кемском районе Карелии по объектам:
- (район = 'КЕМСКИЙ') ====> (объект = 'ОСТРОВ') c = 36.43%, s = 35.42%;
- (район = 'КЕМСКИЙ') ====> (объект = 'ОЗЕРО') c = 14.99%, s = 14.57%;
- (район = 'КЕМСКИЙ') ====> (объект = 'ТОНЯ') c = 10.81%, s = 10.51%;
- (район = 'КЕМСКИЙ') ====> (объект = 'ГУБА') c = 7.21%, s = 7.01%;
- (район = 'КЕМСКИЙ') ====> (объект = 'МЫС') c = 6.26%, s = 6.08%;
- (район = 'КЕМСКИЙ') ====> (объект = 'ОСТРОВА') c = 3.98%, s = 3.87%;
- (район = 'КЕМСКИЙ') ====> (объект = 'РЕКА') c = 3.79%, s = 3.69%;
- (район = 'КЕМСКИЙ') ====> (объект = 'РУЧЕЙ') c = 3.41%, s = 3.32%;
- (район = 'КЕМСКИЙ') ====> (объект = 'НАСЕЛ.ПУНКТ') c = 2.84%, s = 2.76%;
- (район = 'КЕМСКИЙ') ====> (объект = 'БОЛОТО') c = 2.08%, s = 2.02%.
Из полученных результатов можно сделать вывод о том, что в большинстве случаев (36.43%) в Кемском районе топонимы именуют объекты 'ОСТРОВ' и в меньшей степени (2.08%) - объекты 'БОЛОТО'.
Второй блок ассоциативных правил описывает распределение компонентов топонимов, входящих в названия объектов 'ОСТРОВ' в Кемском районе Карелии, по семантическим классам:
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А221-Вселенная. Ландшафт и полезные ископаемые') c = 16.14%, s = 5.71%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'В421-Человек. Онимы(этнонимы, антропонимы)') c = 7.81%, s = 2.76%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'В121-Вселенная. Человек. Прилагательные.') c = 6.24%, s = 2.21%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А311-Вселенная. Растительная жизнь вообще.') c = 5.20%, s = 1.84;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А431-Вселенная. Рыбы.') c = 2.60%, s = 0.92%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А352-Вселенная. Цвета') c = 1.56%, s = 0.55%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А321-Вселенная. Деревья, общие сведения') c = 1.56%, s = 0.55%;
- (объект='ОСТРОВ', район='КЕМСКИЙ') ===> (семантическая формула = 'А211-Вселенная. Воды, моря и реки') c = 1.56%, s = 0.55%.
На основе полученных данных можно сделать вывод о том, что наибольшее число компонентов (16.14%), входящих в названия объектов 'ОСТРОВ', относятся к семантическому классу - 'А221-Вселенная. Ландшафт и полезные ископаемые.' При этом, степень поддержки правила s = 5.71% показывает долю этих компонентов в общем массиве исследуемых в данном вычислительном эксперименте топонимов.
|