摘要:Este artigo descreve uma metodologia para seleção de classes de símbolos a partir de classes de grafemas em um sistema de reconhecimento de palavras manuscritas do extenso de cheques bancários brasileiros baseado em HMM (Hidden Markov Models). Este artigo discute as definições de primitivas, grafemas e símbolos considerando um enfoque Global para o reconhecimento das palavras, o qual evita a segmentação das palavras em letras ou pseudo-letras utilizando HMM. Assim, a entrada para os modelos consiste em uma descrição da palavra a partir de um alfabeto de símbolos gerados a partir dos grafemas extraídos das imagens das palavras, sendo esta a representação visível para o HMM. Portanto, a idéia é introduzir uma conceituação de alto nível, tais como primitivas perceptivas (laços, ascendentes, descendentes, concavidades e convexidades) e fornecer um modo de retro-alimentação rápido e informativo sobre a informação contida em cada classe de grafema, permitindo uma seleção de classes de símbolos. O artigo apresenta o algoritmo com base na Informação Mútua (Mutual Information) e HMM, ambos trabalhando em um mesmo processo de avaliação. Os resultados experimentais demonstram que é possível selecionar a partir de um conjunto “original” de grafemas (composto por 94 grafemas) um alfabeto de símbolos (composto por 29 símbolos). O artigo conclui que o poder discriminante dos grafemas é muito importante para a consolidação de um alfabeto de símbolos.↓Este artigo descreve uma metodologia para seleção de classes de símbolos a partir de classes de grafemas em um sistema de reconhecimento de palavras manuscritas do extenso de cheques bancários brasileiros baseado em HMM (Hidden Markov Models). Este artigo discute as definições de primitivas, grafemas e símbolos considerando um enfoque Global para o reconhecimento das palavras, o qual evita a segmentação das palavras em letras ou pseudo-letras utilizando HMM. Assim, a entrada para os modelos consiste em uma descrição da palavra a partir de um alfabeto de símbolos gerados a partir dos grafemas extraídos das imagens das palavras, sendo esta a representação visível para o HMM. Portanto, a idéia é introduzir uma conceituação de alto nível, tais como primitivas perceptivas (laços, ascendentes, descendentes, concavidades e convexidades) e fornecer um modo de retro-alimentação rápido e informativo sobre a informação contida em cada classe de grafema, permitindo uma seleção de classes de símbolos. O artigo apresenta o algoritmo com base na Informação Mútua (Mutual Information) e HMM, ambos trabalhando em um mesmo processo de avaliação. Os resultados experimentais demonstram que é possível selecionar a partir de um conjunto “original” de grafemas (composto por 94 grafemas) um alfabeto de símbolos (composto por 29 símbolos). O artigo conclui que o poder discriminante dos grafemas é muito importante para a consolidação de um alfabeto de símbolos.
其他摘要:This paper presents a new strategy for selecting classes of symbols from classes of graphemes in HMM-based handwritten word recognition from Brazilian legal amounts. This paper discusses features, graphemes and symbols, as our baseline system is based on a global approach in which the explicit segmentation of words into letters or pseudo-letters is avoided and HMM models are used. For this framework, the input data are the symbols of an alphabet based on graphemes extracted from the word images visible on the Hidden Markov Model. The idea is to introduce high-level concepts, such as perceptual features (loops, ascenders, descenders, concavities and convexities) and to provide fast and informative feedback about the information contained in each class of grapheme for symbol class selection. The paper presents an algorithm based on Mutual Information and HMM working in the same evaluation process. Finally, the experimental results demonstrate that it is possible to select from the “original” grapheme set (composed of 94 graphemes) an alphabet of symbols (composed of 29 symbols). We conclude that the discriminating power of the grapheme is very important for consolidating an alphabet of symbols.
关键词:Primitivas;Informação Mútua;HMM;Reconhecimento de Palavras.;Primitivas;Informação Mútua;HMM;Reconhecimento de Palavras
其他关键词:Features↓Mutual Information↓HMM↓Handwritten Word Recognition