В функциональности электронных библиотек научных публикаций огромную роль играет возможность поиска путем перехода от отдной статьи к другой по библиографическим ссылкам. Для обеспечения такой возможности приходится строить граф взаимного цитирования научных публикаций, вершинами которого являются публикации, а ориентированные ребра соответствуют библиографическим ссылкам между публикациями. При построении такого графа существует ряд проблем, которые на практике избежать невозможно и которые должны учитываться в создаваемых алгоритмах:
- 1. Авторы не снабжают свои статьи описанием метаданных, удобным для прочтения компьютером. Извлечение метаданных статьи (названия, автора, года издания и т.п.) и библиографических ссылок производится компьютером в автоматическом режиме. В процессе извлечения могут возникать ошибки.
2. Граф взаимного цитирования строится полностью автоматически, без участия человека.
3. Авторы статей оформляют библиографические ссылки каждый по-своему и часто допускают ошибки и неточности.
4. У различных публикаций могут быть авторы с одинаковыми именами, фамилиями, инициалами. Разные статьи могут иметь одинаковые названия и т.п.
5. Статьи не всегда и не все есть в базе данных электронной библиотеки.
Целью курсовой работы является анализ существующих подходов (кластерный анализ, методы нечёткого поиска) к построению графа взаимного цитирования и создание алгоритма построения графа для электронной библиотеки научных статей, создаваемой на факультете ВМиК МГУ.
Литература:
- 1. S. Lawrence, C. Lee Giles, K. Bollacker "Digital Libraries and Autonomous Citation Indexing" IEEE Computer 1999.
2. I. Councill, H. Li, Z. Zhuang, S. Debnath, C.Lee Giles, et al. Learning metadata from the evidence in an on-line citation matching scheme. Proc. of JCDL 2006
3. J.Huang, S. Eretkin, C. Lee Giles. Efficient name disambiguation for large-scale databases. Proc of PKDD 2006
к.ф.-м.н. Козлов Д.Д., Волканов Д.Ю.