摘要:Automatic information extraction from images reduces the cost,human interference,and timely processing. Converting printed book covers to readable text for later automation process would be useful for a wide range of users such as librarians,bookshop keepers,and individual users. In this paper,we present a novel method for the Vietnamese text extraction from images of scanned book covers. The proposed system accepts the book covers snapshot, filters the input image for an enhancement of quality,locates the regions with text,then utilizes the optical character recognizer (OCR) to extract the text. The last step is to filter the extracted text in accompany with at dictionary to achieve the final text result. Carrying out the experiments with the proposed system using our dataset delivered encouraging experimental results..
其他摘要:Nhận dạng văn bản từ hình ảnh giúp giảm công sức,chi phí và thời gian xử lý. Việc số hóa thông tin sách một cách tự động bằng cách nhận dạng bìa sách giúp ích rất nhiều cho những người làm việc trực tiếp đến lưu trữ và phân loại sách như thủ thư,nhân vi
关键词:Book cover;OCR (Optical Character Recognition);Text information extraction; Vietnamese text detection.
其他关键词:Bìa sách;Nhận dạng tiếng Việt;Nhận dạng văn bản.