Дмитрий Козлов / Семен Самусев, 5 курс, dbms-sem

На этом форуме публикуются и уточняются постановки задач студентам, а также отслеживается ход их выполнения

Модератор: Сотрудники лаборатории

Закрыто
Бычков Иван
Аспирант
Сообщения: 179
Зарегистрирован: 23 сен 2008 01:19 pm

Дмитрий Козлов / Семен Самусев, 5 курс, dbms-sem

Сообщение Бычков Иван »

Примечание: Продолжение работы 3-4 курса.

Тема работы

Извлечение метаинформации и библиографических ссылок из текстов научных статей методами машинного обучения и построение графа научного цитирования.

Актуальность

В рамках работ на 3-4 курсе были экспериментально исследованы методы HMM, CRF, а также возможности по учету разметки для повышения точности извлечения метаинформации и построена программная реализация методов извлечения. Задача на текущий год - развить созданную реализацию и и провести практическую апробацию в масштабах десятков тысяч статей.

Цель работы

Целью работы является развитие системы извлечения метаинформации, использующей методы машинного обучения:
1. Добиться объединения извлеченной информации в граф взаимного цитирования.
2. Автоматически обнаруживать ситуации когда требуется вмешательство человека.
3. Поддерживать различные виды цитирования, в т.ч. цитаты внутри текста
4. Сделать реализацию в виде сервиса, который подключается к некоторому источнику статей, создает индекс, позволяет к нему обращаться с запросами.

План работы

1. Сделать реализацию построения графа взаимного цитирования.
2. Добавить поддержку различных видов цитирования.
3. Провести экспериментальное исследование 1 и 2.
4. Исследовать возможность использования композиции методов (например, с помощью функции медианы) и объединения результатов.
5. Провести практическую апробацию.
6. Написать статью совместно с н.р.
7. Выступить на конференции Ломоносов 2009 (или другой).

Ожидаемые результаты

1. Реализация.
2. Экспериментальное исследование методов.
3. Практическая апробация.
4. Статья.
Самусев Семен
Выпускник
Сообщения: 1
Зарегистрирован: 10 сен 2008 10:14 am

Отчет о проделанной работе (осенний семестр 2008).

Сообщение Самусев Семен »

Студент: Самусев Семен Александрович, группа 522.

Тема работы:
Извлечение метаинформации и библиографических ссылок из текстов научных статей методами машинного обучения и построение графа взаимного цитирования.

Актуальность:
В настоящее время количество публикуемых в Интернет научных статей из года в год неуклонно растет, и популярность статьи в научном сообществе все больше становится зависимой от факта представления этой статьи в свободном доступе во всемирной сети [1]. В качестве доказательства этого можно привести исследование [2], в котором показано, что число библиографических ссылок на бесплатно доступную статью в электронном виде в среднем в 2,6 раза больше, чем на печатную. Таким образом, Интернет постепенно становится основным источником научной литературы. Одним из наиболее эффективных подходов к организации поиска и хранения подобной литературы является создание электронных библиотек научных публикаций и индексов цитирования [3]. Такие библиотеки представляют пользователям широкие возможностей работы с научной литературой [3,4], как, например:
• Поиск по авторам, по названиям статей. Подобный поиск позволяет как найти документы по схожим темам, так и получить представление о сфере интересов автора и его области исследования в целом.
• Поиск по цитатам. Подобный поиск позволяет пользователю выяснить, какие документы ссылаются на данную работу.
• Поиск по цитированным статьям. Подобный поиск позволяет пользователю искать статьи, на которые ссылается данный документ.
• Поиск в журналах. Подобный поиск позволяет пользователю находить информацию, связанную с областью исследования, выделив некоторый журнал и проведя поиск по соответствующим интересу пользователя годам.

В лаборатории вычислительных комплексов на факультете ВМиК проводятся работы по созданию электронной библиотеки русскоязычных и англоязычных научных статей на основе СiteSeer [8,9], являющейся на сегодняшний день самой большой бесплатной библиотекой научных статей по тематике Computer Science. Проект CiteSeer представляет собой библиотеку научных статей, которые свободно доступны для скачивания в Интернет. Библиотека пополняется как вручную, так и автоматическим роботом. Основными преимуществами CiteSeer являются: автоматическое извлечение метаинформации, разбор списка литературы в каждой статье и построение графа взаимного цитирования.

Цель:
Целью дипломной работы является создание системы автоматического построения графа взаимного цитирования по данному набору документов.
Для достижения цели дипломной работы необходимо решить следующие задачи:
1. Создать подсистему автоматического объединения извлеченной метаинформации в граф взаимного цитирования.
2. Провести экспериментальное исследование системы построения графа взаимного цитирования.
3. Создать подсистему автоматического обнаружения ситуаций в процессе извлечения метаинформации, когда требуется вмешательство человека.
4. Добавить в подсистему извлечения метаинформации поддержку различных видов цитирования, в т.ч. цитаты внутри текста.
5. Оформить систему в виде сервиса, который подключается к некоторому источнику научных статей, создает индекс статей и позволяет обращаться к созданному индексу с запросами.

Проделанная работа:
1. Предложен и реализован алгоритм построения графа взаимного цитирования, основанный на инкрементном алгоритме [11].
2. Проведено экспериментальное исследование реализованного алгоритма на искусственно сформированной выборке.
3. Предложен и частично реализован механизм обнаружения ситуаций в процессе извлечения метаинформации, когда требуется вмешательство человека.

Направления дальнейшей работы:
1. Доработка механизма автоматического обнаружения ситуаций в процессе извлечения метаинформации, когда требуется вмешательство человека.
2. Добавление в подсистему извлечения метаинформации поддержки различных видов цитирования, в т.ч. цитаты внутри текста.
3. Оформление полученной системы построения графа взаимного цитирования в виде сервиса, который подключается к некоторому источнику научных статей, создает индекс статей и позволяет обращаться к созданному индексу с запросами.
4. Проведение экспериментального исследования построенной системы на реальном наборе данных.

Литература:
1. В. Л. Эпштейн. Как увеличить индекс цитирования научной публикации // Проблемы управления. 2006. № 6. [HTML] (http://citation.extratext.ru/).
2. Lawrence W. On line or invisible? // Nature. 2001. 411. № 6837. P. 521
3. Marcia J. Bates. The design of browsing and berrypicking techniques for the online search interface // Online Review. 1989. 13. № 5.
4. S. Lawrence, C. L. Giles, and K. Bollacker. Digital Libraries and Autonomous Citation Indexing. IEEE Computer, 32(6):67–71, 1999.
5. E. Garfield, Citation Indexing: Its Theory and Application in Science, Technology, and Humanities // John Wiley & Sons New York, 1979.
6. K. Seymore, A. McCallum, and R. Rosenfeld. Learning hidden Markov model structure for information extraction. In Proc. of AAAI 99 Workshop on Machine Learning for Information Extraction, pages 37–42, 1999.
7. John Lafferty, Andrew McCallum and Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. // ICML, 2001.
8. Computer and Information Science Papers CiteSeer Publications ResearchIndex [HTML] (http://citeseer.ist.psu.edu/).
9. Козлов Д., Самусев С., Шамина О. Создание электронной библиотеки русскоязычных научных статей. // Сборник работ стипендиатов гранта "Интернет-информатика 2007", Екатеринбург, Изд-во Уральского университета, 2007, C. 37-45.
10. Hanna Pasula, Bhaskara Marthi, Brian Milch, Stuart Russell, Ilya Shpitser. Identity Uncertainty and Citation Matching. // Computer Science Division, University Of California, 2003.
11. Isaac G. Councill, Huajing Li, Ziming Zhuang, Sandip Debnath, Levent Bolelli, WangChien Lee, Anand Sivasubramaniam, C. Lee Giles. Learning Metadata from the Evidence in an OnLine Citation Matching Scheme. // Department of Computer Science and Engineering, Pennsylvania State University, State College, PA 16802, USA, 2005.
Закрыто