摘要:Este artigo descreve uma metodologia para seleção de classes de símbolos a partir de classesde grafemas em um sistema de reconhecimento de palavras manuscritas do extenso de cheques bancáriosbrasileiros baseado em HMM (Hidden Markov Models). Este artigo discute as definições de primitivas,grafemas e símbolos considerando um enfoque Global para o reconhecimento das palavras, o qual evita asegmentação das palavras em letras ou pseudo-letras utilizando HMM. Assim, a entrada para os modelosconsiste em uma descrição da palavra a partir de um alfabeto de símbolos gerados a partir dos grafemasextraídos das imagens das palavras, sendo esta a representação visível para o HMM. Portanto, a idéia éintroduzir uma conceituação de alto nível, tais como primitivas perceptivas (laços, ascendentes,descendentes, concavidades e convexidades) e fornecer um modo de retro-alimentação rápido e informativosobre a informação contida em cada classe de grafema, permitindo uma seleção de classes de símbolos. Oartigo apresenta o algoritmo com base na Informação Mútua (Mutual Information) e HMM, ambostrabalhando em um mesmo processo de avaliação. Os resultados experimentais demonstram que é possívelselecionar a partir de um conjunto “original” de grafemas (composto por 94 grafemas) um alfabeto desímbolos (composto por 29 símbolos). O artigo conclui que o poder discriminante dos grafemas é muitoimportante para a consolidação de um alfabeto de símbolos.↓Este artigo descreve uma metodologia para seleção de classes de símbolos a partir de classesde grafemas em um sistema de reconhecimento de palavras manuscritas do extenso de cheques bancáriosbrasileiros baseado em HMM (Hidden Markov Models). Este artigo discute as definições de primitivas,grafemas e símbolos considerando um enfoque Global para o reconhecimento das palavras, o qual evita asegmentação das palavras em letras ou pseudo-letras utilizando HMM. Assim, a entrada para os modelosconsiste em uma descrição da palavra a partir de um alfabeto de símbolos gerados a partir dos grafemasextraídos das imagens das palavras, sendo esta a representação visível para o HMM. Portanto, a idéia éintroduzir uma conceituação de alto nível, tais como primitivas perceptivas (laços, ascendentes,descendentes, concavidades e convexidades) e fornecer um modo de retro-alimentação rápido e informativosobre a informação contida em cada classe de grafema, permitindo uma seleção de classes de símbolos. Oartigo apresenta o algoritmo com base na Informação Mútua (Mutual Information) e HMM, ambostrabalhando em um mesmo processo de avaliação. Os resultados experimentais demonstram que é possívelselecionar a partir de um conjunto “original” de grafemas (composto por 94 grafemas) um alfabeto desímbolos (composto por 29 símbolos). O artigo conclui que o poder discriminante dos grafemas é muitoimportante para a consolidação de um alfabeto de símbolos.
其他摘要:This paper presents a new strategy for selecting classes of symbols from classes of graphemes in HMM-based handwritten word recognition from Brazilian legal amounts. This paper discusses features, graphemes and symbols, as our baseline system is based on a global approach in which the explicit segmentation of words into letters or pseudo-letters is avoided and HMM models are used. For this framework, the input data are the symbols of an alphabet based on graphemes extracted from the word images visible on the Hidden Markov Model. The idea is to introduce high-level concepts, such as perceptual features (loops, ascenders, descenders, concavities and convexities) and to provide fast and informative feedback about the information contained in each class of grapheme for symbol class selection. The paper presents an algorithm based on Mutual Information and HMM working in the same evaluation process. Finally, the experimental results demonstrate that it is possible to select from the “original” grapheme set (composed of 94 graphemes) an alphabet of symbols (composed of 29 symbols). We conclude that the discriminating power of the grapheme is very important for consolidating an alphabet of symbols.
关键词:Primitivas; Informação Mútua; HMM; Reconhecimento de Palavras;Primitivas; Informação Mútua; HMM; Reconhecimento de Palavras.
其他关键词:Features; Mutual Information; HMM; Handwritten Word Recognition