Разработка и исследование технологии извлечения фактов из текстов естественного языка на основе концептуальных графовых моделей

Грант РФФИ № 15-07-05507

В данном проекте предлагается новый метод извлечения фактов из текстов естественного языка, основанный на применении концептуальных графов и решеток понятий. Концептуальные графы являются элементарной концептуальной моделью текста, используемой в проекте в качестве моделей фактов. Такие модели, построенные на уровне отдельных предложений, далее обобщаются в другой концептуальной графовой модели – решетке понятий. Решетка понятий объединяет понятия в иерархическую структуру, обладающую свойствами математических решеток. Имея решетку понятий, можно выявлять связи между понятиями по принципу «общее – частное». Каждое понятие – узел решетки – интерпретируется как множество потенциальных фактов определенного уровня (тематики), которое связано с другими фактами. В проекте решается ряд задач, необходимых для осуществления целей проекта. Среди них задача кластеризации концептуальных графов, решение которой позволяет исключить из рассмотрения несущественные данные, задача построения формального контекста по кластерам, задача построения решеток понятий на контекстах, допускающих инвариантные преобразования. Проект предполагает как теоретические, так и экспериментальные исследования, для чего строится экспериментальная платформа в виде СУБД, интегрированной с системой построения концептуальных графов, разработанной авторским коллективом. Экспериментальные исследования эффективности разрабатываемой в данном проекте технологии выполняются на примере решения задачи нахождения биотопов живых организмов, описанных в текстах научных публикаций.