Hilário Oliveira
Federal University of Pernambuco
Network
Latest external collaboration on country level. Dive into details by clicking on the dots.
Publication
Featured researches published by Hilário Oliveira.
Expert Systems With Applications | 2016
Hilário Oliveira; Rafael Ferreira; Rinaldo Lima; Rafael Dueire Lins; Fred Freitas; Marcelo Riss; Steven J. Simske
We investigate eighteen shallow sentence scoring techniques and ensemble strategies.Experiments were performed in several datasets for single- and multi-document task.Ensemble strategies lead to improvements over the individual scoring techniques.Ensembles that perform competitively against the state-of-the-art were identified. The volume of text data has been growing exponentially in the last years, mainly due to the Internet. Automatic Text Summarization has emerged as an alternative to help users find relevant information in the content of one or more documents. This paper presents a comparative analysis of eighteen shallow sentence scoring techniques to compute the importance of a sentence in the context of extractive single- and multi-document summarization. Several experiments were made to assess the performance of such techniques individually and applying different combination strategies. The most traditional benchmark on the news domain demonstrates the feasibility of combining such techniques, in most cases outperforming the results obtained by isolated techniques. Combinations that perform competitively with the state-of-the-art systems were found.
document engineering | 2015
Gabriel de França Pereira e Silva; Rafael Ferreira; Rafael Dueire Lins; Luciano de Souza Cabral; Hilário Oliveira; Steven J. Simske; Marcelo Riss
The need for automatic generation of summaries gained importance with the unprecedented volume of information available in the Internet. Automatic systems based on extractive summarization techniques select the most significant sentences of one or more texts to generate a summary. This article makes use of Machine Learning techniques to assess the quality of the twenty most referenced strategies used in extractive summarization, integrating them in a tool. Quantitative and qualitative aspects were considered in such assessment demonstrating the validity of the proposed scheme. The experiments were performed on the CNN-corpus, possibly the largest and most suitable test corpus today for benchmarking extractive summarization strategies.
international conference on tools with artificial intelligence | 2013
Rinaldo Lima; Hilário Oliveira; Fred Freitas; Bernard Espinasse; Laura Pentagrossa
Relevant information extraction from text and web pages in particular is an intensive and time-consuming task that needs important semantic resources. Thus, to be efficient, automatic information extraction systems have to exploit semantic resources (or ontologies) and employ machine-learning techniques to make them more adaptive. This paper presents an Ontology-based Information Extraction method using Inductive Logic Programming that allows inducing symbolic predicates expressed in Horn clausal logic that subsume information extraction rules. Such rules allow the system to extract class and relation instances from English corpora for ontology population purposes. Several experiments were conducted and preliminary experimental results are promising, showing that the proposed approach improves previous work over extracting instances of classes and relations, either separately or altogether.
database and expert systems applications | 2012
Hilário Oliveira; Rinaldo Lima; João Gomes; Rafael Ferreira; Frederico Luiz Gonçalves de Freitas; Evandro Costa
Knowledge engineers have had difficulty in automatically constructing and populating domain ontologies, mainly due to the well-known knowledge acquisition bottleneck. In this paper, we attempt to alleviate this problem by proposing an unsupervised approach for extracting class instances using the web as a big corpus and exploring linguistic patterns to identify and extract ontological class instances. The prototype implementation uses shallow syntactic parsing for disambiguation issues. In addition, we propose a confidence-weighted metric based on different versions of the classical PMI metric, WordNet similarity measures, and heuristics to calculate the final confidence score that can altogether improve the ranking of candidate instances retrieved by the system. We conducted preliminary experiments comparing the proposed confidence metric against some versions of the PMI metric. We obtained promising results for the final ranking of the candidate instances, achieving a gain in precision up to 24%.
Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação - SBIE) | 2010
Hilário Oliveira; Renê Nóbrega de Sousa Gadelha; Ryan Ribeiro de Azevedo; João Bosco Delfino Júnior; Guilherme Ataíde Dias; Fred Freitas
Este artigo discute a colaboracao entre estudantes na internet e a troca de conhecimento por meio desse canal de comunicacao. Propoe uma metodologia que visa potencializar as relacoes entre os usuarios de uma rede educacional situada num contexto especifico. Tal metodo tem como fundamento as teorias do contexto e a analise de redes sociais (ARS), para promover um mapeamento das redes estudadas.Refletir sobre curriculo escolar formal e comunidades de aprendizagem como metafora das TIC dinamizam os caminhos empiricos, construcoes criticas e aprofundamento da difusao do conhecimento como parte do processo de humanizacao/ tecnologizacao do homem. Oriundos de processos e movimentos contemporâneos, a consolidacao de ambientes computacionais nas escolas potencializa a construcao do conhecimento e a socializacao de praticas pedagogicas inovadoras. Esta investigacao assume as situacoes especificas curriculares, procura descobrir o que existe de mais essencial e caracteristico, partindo do conhecimento de curriculo e suas bases teoricas tradicionais, para a construcao da discussao sobre um curriculo em rede associada a instrumentalizacao das comunidades de aprendizagem.O sistema Moodle constitui-se atualmente numa das mais importantes ferramentas de apoio a cursos na Web. Apesar disto, seu modelo apresenta algumas deficiencias para uma estruturacao hierarquica e compartilhamento de materiais digitais entre disciplinas e turmas do seu ambiente virtual. Este artigo apresenta um estudo sobre a arquitetura central do Moodle, propondo a definicao de um novo nucleo, visando o aprimoramento destas caracteristicas.Estudo descritivo, qualitativo, com estudantes da 3a serie de Graduacao em Enfermagem de uma Universidade Publica de Sao Paulo, SP. Os participantes construiram Mapas Conceituais, por meio do software Cmap Tools®. Os dados foram coletados em um Grupo Focal e todos os sujeitos indicaram que o uso do software facilita e garante a organizacao, visualizacao e correlacao dos dados, porem houve dificuldades iniciais relacionadas ao manejo das ferramentas. Conclui-se, que o software Cmap Tools® favoreceu a construcao dos MC por seus recursos de formatacao, porem estrategias de orientacao deveriam ser implantadas. Como resultado, desenvolveu-se um manual para o uso do software Cmap Tool® em video Podcasting.Ha poucas iniciativas com respeito aos ambientes de virtuais para a divulgacao de materiais curriculares sobre modelagem matematica. Esses ambientes oferecem acesso as praticas pedagogicas em modelagem. Este trabalho apresenta um sistema Web para hospedar atividades de modelagem e materiais multimidia para descrever o desenvolvimento do ambiente de modelagem em sala de aula e apoiar outros professores na implementacao em suas praticas pedagogicas.A composicao e sequenciamento de Objetos de Aprendizagem sao discutidas neste trabalho a partir da representacao da estrutura conceitual de um dominio em termos das suas relacoes de dependencia. A composicao de Objetos de Aprendizagem e modelada a partir da estrutura narrativa de um discurso considerando-se os aspetos formais dos planos do conteudo e de expressao. O aspecto formal do conteudo da composicao e dado pelas pelos conceitos e seus relacionamentos e forma da expressao corresponde aos tipos de signos definidos pelo LOM. A estrutura da composicao obtida independe do tipo de midia utilizado e o modelo adequa-se as propostas de composicao adaptativas tanto do ponto de vista do meio como das disponibilidades de conexao.
Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação - SBIE) | 2010
Renê Nóbrega de Sousa Gadelha; Ryan Ribeiro de Azevedo; Hilário Oliveira; Tiago D. Neves; Cleyton Caetano de Souza; Edilson Leite Silva
Este artigo discute a colaboracao entre estudantes na internet e a troca de conhecimento por meio desse canal de comunicacao. Propoe uma metodologia que visa potencializar as relacoes entre os usuarios de uma rede educacional situada num contexto especifico. Tal metodo tem como fundamento as teorias do contexto e a analise de redes sociais (ARS), para promover um mapeamento das redes estudadas.Refletir sobre curriculo escolar formal e comunidades de aprendizagem como metafora das TIC dinamizam os caminhos empiricos, construcoes criticas e aprofundamento da difusao do conhecimento como parte do processo de humanizacao/ tecnologizacao do homem. Oriundos de processos e movimentos contemporâneos, a consolidacao de ambientes computacionais nas escolas potencializa a construcao do conhecimento e a socializacao de praticas pedagogicas inovadoras. Esta investigacao assume as situacoes especificas curriculares, procura descobrir o que existe de mais essencial e caracteristico, partindo do conhecimento de curriculo e suas bases teoricas tradicionais, para a construcao da discussao sobre um curriculo em rede associada a instrumentalizacao das comunidades de aprendizagem.O sistema Moodle constitui-se atualmente numa das mais importantes ferramentas de apoio a cursos na Web. Apesar disto, seu modelo apresenta algumas deficiencias para uma estruturacao hierarquica e compartilhamento de materiais digitais entre disciplinas e turmas do seu ambiente virtual. Este artigo apresenta um estudo sobre a arquitetura central do Moodle, propondo a definicao de um novo nucleo, visando o aprimoramento destas caracteristicas.Estudo descritivo, qualitativo, com estudantes da 3a serie de Graduacao em Enfermagem de uma Universidade Publica de Sao Paulo, SP. Os participantes construiram Mapas Conceituais, por meio do software Cmap Tools®. Os dados foram coletados em um Grupo Focal e todos os sujeitos indicaram que o uso do software facilita e garante a organizacao, visualizacao e correlacao dos dados, porem houve dificuldades iniciais relacionadas ao manejo das ferramentas. Conclui-se, que o software Cmap Tools® favoreceu a construcao dos MC por seus recursos de formatacao, porem estrategias de orientacao deveriam ser implantadas. Como resultado, desenvolveu-se um manual para o uso do software Cmap Tool® em video Podcasting.Ha poucas iniciativas com respeito aos ambientes de virtuais para a divulgacao de materiais curriculares sobre modelagem matematica. Esses ambientes oferecem acesso as praticas pedagogicas em modelagem. Este trabalho apresenta um sistema Web para hospedar atividades de modelagem e materiais multimidia para descrever o desenvolvimento do ambiente de modelagem em sala de aula e apoiar outros professores na implementacao em suas praticas pedagogicas.A composicao e sequenciamento de Objetos de Aprendizagem sao discutidas neste trabalho a partir da representacao da estrutura conceitual de um dominio em termos das suas relacoes de dependencia. A composicao de Objetos de Aprendizagem e modelada a partir da estrutura narrativa de um discurso considerando-se os aspetos formais dos planos do conteudo e de expressao. O aspecto formal do conteudo da composicao e dado pelas pelos conceitos e seus relacionamentos e forma da expressao corresponde aos tipos de signos definidos pelo LOM. A estrutura da composicao obtida independe do tipo de midia utilizado e o modelo adequa-se as propostas de composicao adaptativas tanto do ponto de vista do meio como das disponibilidades de conexao.
acm symposium on applied computing | 2018
Rodrigo Garcia; Rinaldo Lima; Bernard Espinasse; Hilário Oliveira
Automatic Text Summarization (ATS) is a viable option to reduce the content of textual documents, e.g., as a possible preprocessing step in many text mining applications. Single-document extractive summarizers have been developed based on different approaches, but many of them have the drawback of producing summaries with low coherence among the selected sentences in the generated summaries. In this paper, we present an unsupervised summarization system as an attempt towards coherent extractive single-document summarization. This system relies on Integer Linear Programming (ILP) as an optimization technique for selecting the smallest subset of sentences of a document maximizing the coverage of relevant concepts. Furthermore, our solution uses a graph-based algorithm for two goals: representing both sentences and concepts and enabling local coherence scoring among the sentences in the generated summaries. The proposed system is evaluated on two single-document benchmark datasets (DUC 2001-2002) using ROUGE measures, and compared with other state-of-the-art summarizers. The achieved results are very competitive.
Computer Speech & Language | 2018
Jamilson Antunes; Rafael Dueire Lins; Rinaldo Lima; Hilário Oliveira; Marcelo Riss; Steven J. Simske
Abstract Automatic Text Summarization is the process of creating a compressed representation of one or more related documents, keeping only the most valuable information. The extractive approach for summarization is the most studied and aims to generate a compressed version of a document by identifying, ranking, and selecting the most relevant sentences or phrases from a text. The selected sentences go verbatim into the summary. However, this strategy may yield incoherent summaries, as pronominal coreferences may appear unbound. To alleviate this problem, this paper proposes a method that solves unbound pronominal anaphoric expressions, automatically enabling the cohesiveness of the extractive summaries. The proposed method can be applied to two distinct scenarios. The first one aims to find and fix unbound anaphoric expressions present in the generated summaries at a post-processing stage; whereas the second one is performed at the preprocessing stage of the proposed pipeline and generates an intermediate version of the input document that resolves the unbound pronominal coreferences. The proposed solution was evaluated on the CNN news corpus using the seventeen summarization techniques most widely acknowledged in the literature and four state-of-the-art summarization systems. Moreover, it also provides a comparative evaluation concerning two distinct assessment scenarios which are compared to a baseline. The experiments performed achieved very encouraging quantitative and qualitative results.
document engineering | 2016
Rodolfo Ferreira; Rafael Ferreira; Rafael Dueire Lins; Hilário Oliveira; Marcelo Riss; Steven J. Simske
The existing automatic text summarization systems whenever applied to web-pages of news articles show poor performance as the text is encapsulated within a HTML page. This paper takes advantage of the link identification and content extraction techniques. The results show the validity of such a strategy.
document engineering | 2016
Hilário Oliveira; Rinaldo Lima; Rafael Dueire Lins; Fred Freitas; Marcelo Riss; Steven J. Simske
Some of the recent state-of-the-art systems for Automatic Text Summarization rely on the concept-based approach using Integer Linear Programming (ILP), mainly for multi-document summarization. A study on the suitability of such an approach to single-document summarization is still missing, however. This work presents an assessment of several methods of concept weighing for a concept-based ILP approach on the single-document summarization scenario. The unigram and bigram representations for concepts are also investigated. The experimental results obtained on the DUC 2001-2002 and the CNN corpora show that bigrams are more suitable than unigrams for the representation of concepts. Among the concept scoring methods investigated, the sentence position method presented the best performance on all evaluation corpora.