Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)

Uma Ferramenta de Mineração de Textos em Bancos de Dados de um Hospital Universitário Utilizando Decomposições Matriciais

Thiago Madureira Braga

Agosto/2011

Orientador:  Amit Bhaya

Programa: Engenharia Elétrica

      Apresenta-se, nesta dissertação, uma ferramenta para mineração automática de texto em bancos de dados médicos de grande porte utilizando decomposições matriciais. Técnicas para extração, transformação e carga de documentos em formato padronizado, retirada de palavras de pouco valor semântico (stop-words) e extração de raízes (stemming) são abordadas. A montagem de matrizes termo-documento a partir da vetorização de coleções de textos e sua posterior decomposição em valores singulares, possibilitando aproximação de dimensão reduzida com menor erro possível são implementadas e aferidas. Como resultado, a recuperação da informação e análise de relevância é abordada sob a perspectiva de comparação de ângulos entre vetores representando documentos. Questões relativas à implementação em software, bem como algoritmos disponíveis e utilização de hardware são consideradas simultâneamente com intuito de otimizar o desempenho do algoritmo, que é o motor da máquina de busca proposta, bem como viabilizar a utilização do mesmo em bancos de dados de grande porte que surgem em aplicações reais.


Ver Abstract
Texto Completo
Imprimir Resumo
Dados da tese na base Sigma