Информационные технологии С. В. Парщиков, К. Я. Кудрявцев



Скачать 31.38 Kb.
Дата12.11.2016
Размер31.38 Kb.

УДК 004(06) Информационные технологии


С.В. ПАРЩИКОВ, К.Я. КУДРЯВЦЕВ

Московский инженерно-физический институт (государственный университет)
ПОСТАНОВКА ЗАДАЧИ ОПРЕДЕЛЕНИЯ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ВАРИАЦИЙ ИМЕН СОБСТВЕННЫХ, ДОПУСКАЮЩИХ РАЗЛИЧНЫЕ ВАРИАНТЫ НАПИСАНИЯ
В данном докладе рассматривается проблема релевантной выдачи документов по поисковым запросам, содержащим вариации имени собственного, допускающего различные варианты написания.
При использовании поисковой системы часто возникает потребность в изменении формулировки запроса для получения в выдаче страниц, действительно содержащих объект поиска. Одним из наиболее значительных кластеров запросов, подвергаемых переформулированию, являются запросы, содержащие имена собственные, допускающие различные варианты написания. Данный кластер формируется из:

  1. транскрибированных имен собственных иностранного происхождения;

  2. наименований товаров, содержащих как латинские, так и кириллические символы;

  3. прочих частных случаев употребления имен собственных, допускающих различные варианты описания.

Представленная в табл.1 частичная выборка сформирована на основании запросов, обработанных поисковой системой «Яндекс» за отдельно взятый период времени [1]. При формировании данной выборки из нее исключались запросы, заведомо содержащие ошибки ввода (как правило, неверное написание «kim basinger» латиницей).

Если предположить, что авторы запросов, вошедших в выборку, преследовали единую цель поиска, логичным кажется проведение анализа на соответствие документа не отдельному запросу, а группе запросов. Таким образом, можно поставить задачу определения семантической близости вариаций имен собственных, допускающих различные варианты написания.

Таблица 1. Выборка поисковых запросов, содержащих вариации имени собственного, допускающего различные варианты написания


Поисковый запрос

Число запросов за месяц

Вероятность запроса

Число документов в выдаче

ким бессенгер

7

0,0065

47

ким бессинжер

17

0,0158

399

ким бэссинджер

19

0,0176

2594

ким бесенжер

23

0,0213

198

ким бейсинджер

24

0,0223

1991

ким бэсингер

36

0,0334

22329




126




27558

Пусть – множество вариаций i-го имени собственного, где – j-ая вариация i-го имени собственного. Пусть – множество всех документов в выдаче по поисковому запросу, содержащему . Требуется определить вид преобразования



(1)

В дальнейшем данная задача может быть расширена для более мощного множества вариаций термов, допускающих различные варианты написания:



(2)

Мощность множества вариаций термов, допускающих различные варианты написания, отлична от нуля, что проистекает из отсутствия унифицированного подхода к транскрибированию заимствованных понятий и терминов (за исключением устоявшихся), и непрерывно растет за счет постоянно увеличивающегося количества малоавторитетных ресурсов – форумов и блогов.


Список литературы


  1. Статистика поисковых запросов Яндекс: http://wordstat.yandex.ru/




ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11


База данных защищена авторским правом ©bezogr.ru 2016
обратиться к администрации

    Главная страница