Phát Hiện Kí Tự Trong Hình Ảnh dùng SWT

November 25, 2016 | Author: Nguyễn Tuấn Quang | Category: N/A
Share Embed Donate


Short Description

Đây là tài liệu tham khảo về việc sử dụng SWT cho việ...

Description

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN-ĐIỆN TỬ BỘ MÔN VIỄN THÔNG ---------------o0o---------------

BÁO CÁO ĐỒ ÁN MÔN HỌC 2

PHÁT HIỆN KÝ TỰ BẰNG PHƯƠNG PHÁP BIẾN ĐỔI NÉT CHỮ (SWT)

SVTH MSSV GVHD

: Nguyễn Tuấn Quang : 41002596 : T.S. Võ Trung Dũng

Tp. Hồ Chí Minh, tháng 6 năm 2014 Trang 1

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA -----✩----Số: ______ /BKĐT Khoa: Điện – Điện tử Bộ Môn: Viễn Thông

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc. -----✩-----

NHIỆM VỤ ĐỒ ÁN MÔN HỌC 2 1.

HỌ VÀ TÊN : Nguyễn Tuấn Quang

2. NGÀNH: Đề tài:

3.

MSSV: 41002596

ĐIỆN TỬ - VIỄN THÔNG

LỚP : DD10DV05

PHÁT HIỆN KÝ TỰ BẰNG PHƯƠNG PHÁP BIẾN ĐỔI NÉT CHỮ (SWT)

Nhiệm vụ (Yêu cầu về nội dung và số liệu ban đầu): ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. .............................................................................................................................................

4.

Ngày giao nhiệm vụ đồ án: ...............................

5.

Ngày hoàn thành nhiệm vụ: ...................................

6.

Họ và tên người hướng dẫn:

Phần hướng dẫn

.................................................................

.....................................

.................................................................

.....................................

Nội dung và yêu cầu Đồ án đã được thông qua Bộ Môn. Tp.HCM, ngày…... tháng….. năm 2013 CHỦ NHIỆM BỘ MÔN

NGƯỜI HƯỚNG DẪN CHÍNH

PHẦN DÀNH CHO KHOA, BỘ MÔN: Người duyệt (chấm sơ bộ): ....................... Đơn vị: ............................................................... Ngày bảo vệ: .................................................... Điểm tổng kết: ................................................ Nơi lưu trữ đồ án: ……….............................. Trang 2

Trang 3

PHẦN MỞ ĐẦU Lời nói đầu Đọc ký tự trong văn bản ngày nay đã trở thành một mảng lớn trong Thị giá máy tính (CV: Computer Vision). Nhìn về lịch sử phát triển của đọc ký tự trong văn bản chúng ta có thể thấy rằng đây là mảng ứng dụng khá mới mẻ. Đọc ký tự trong văn bản đã được tạo ra nhằm giải quyết 2 vấn đề: Phục vụ sự phát triển của điện báo và tạo ra các thiết bị đọc sách cho người mù. Năm 1914, Emanuel Goldberg đã phát triển một máy tính có thể đọc các ký tự và chuyển đổi chúng thành một mã số điện báo chuẩn (telegraph code). Cùng thời gian đó Edmund Fournier d'Albe phát triển Optophone, một máy quét cầm tay khi di chuyển trên một trang in. Thiết bị này có thể tạo ra tiếng khi “thấy” chữ cái hoặc ký tự tương ứng. Trong cuối những năm cuối thập niên 1920 Emanuel Goldberg phát triển một hệ thống được gọi là “Máy tính thống kê” để tìm kiếm số lưu trữ trong vi phim (microfilm) bằng cách sử dụng một hệ thống nhận diện mã quang học. Năm 1931 ông được cấp bằng sáng chế của Hoa Kỳ số 1,838,389 cho phát minh của mình. Bằng sáng chế đã được mua lại bởi IBM sau đó. Ngày nay, cùng với sự phát triển vượt bậc của phần cứng máy tính và công nghệ điện toán đọc ký tự trong văn bản đã đóng góp rất nhiều ứng dụng thực tiễn trong đời sống hằng ngày. Chúng ta có thể lấy ví dụ như: -

Nhập dữ liệu cho mục đích công việc: số hóa sách, kiểm tra hay xác thực hóa đơn, tấm séc, hóa đơn, hộ chiếu… Xác thực biển số xe. Khai thác thông tin quan trọng trong những tài liệu bảo hiểm. Lấy thông tin từ danh thiếp và lưu và danh bạ. Số hóa sách một cách nhanh chóng nhằm đảm bảo việc lưu trữ sách dễ dàng và thuận tiện hơn. Ta có thể kể đến dự án số hóa sách lớn như Project Gutenberg. Có thể tìm kiếm thông tin trong các bức ảnh KTS. Rất nhiều ứng dụng ngày nay được trang bị tính năng này như Neo Reader (trên smartphone), Google Translate… Chuyển đổi chữ viết tay bằng chữ in dùng trong việc nhập dữ liệu một cách tự nhiên và nhanh chóng cho những ai không thích nhập liệu bằng bàn phím. Áp dụng trong công nghệ hỗ trợ người bị khiếm thị.

Đọc ký tự trong văn bản đã và đang là một thách thức thu hút được rất nhiều sự chú ý từ các nhà nghiên cứu, những nhà sản xuất thiết bị điện tử và cả người dùng. Hai nhánh chính trong Đọc ký tự trong văn bản là Phát hiện ký tự và Nhận diện ký tự. Đồ án này nhằm mục đích trình bày về Phát hiện ký tự các đoạn văn bản trong một hình ảnh tự nhiên bằng cách sử dụng một phiên bản nâng cao của chuyển đổi bề rộng nét chữ (SWT: Stroke Width Transformation). Ứng dụng nhận được hình ảnh RGB để tìm kiếm chữ trong đó và trả về một hình ảnh mới nơi các đoạn văn bản phát hiện được đánh dấu. Do các tính năng của SWT, kết quả có thể phát hiện văn bản không phân biệt kích thước, hướng, phông chữ và ngôn ngữ của nó.

Trang 4

Mục lục Các mục chính bao gồm I.

II.

III.

IV.

V. VI.

Giới thiệu sơ lược về SWT 1.1. Hai nhánh chính của Đọc ký tự trong văn bản Trang 1.2. SWT Giới thiệu thuật toán SWT 2.1. Vấn đề và giả định 2.2. Biến đổi bề rộng nét chữ 2.3. Loại bỏ một số dòng dư 2.4. Tìm kiếm ký tự thích hợp 2.5. Nhóm các ký tự thích hợp vào một vùng chữ Kết quả chạy thử nghiệm trên Matlab 3.1. Giao diện 3.2. Tổng quan 3.3. Thử nghiệm Ứng dụng và những mặt hạn chế 4.1. Ứng dụng 4.2. Những hạn chế Tài liệu tham khảo Lời kết

Trang 5

Trang 6-12

Trang 13-16

Trang 17-18

Trang 19

Trang 20 Trang 21

Phần I. Giới thiệu sơ lược về SWT 1.1. Hai nhánh chính của Đọc ký tự trong văn bản: Đọc ký tự trong văn bản trong một khung cảnh thiên nhiên là một phần quan trọng của nhiều tác vụ thị giác máy tính (Computer Vision-CV). Ví dụ, việc thực hiện nhận dạng ký tự quang học (Optical Character Recognition-OCR) các thuật toán có thể được cải thiện bằng cách đầu tiên xác định các khu vực của văn bản trong hình ảnh. Phát hiện văn bản trong những cảnh thiên nhiên là một lĩnh vực nghiên cứu chuyên sâu và có rất nhiều cách tiếp cận để giải quyết vấn đề này. Tuy nhiên, hầu hết các chương trình phát hiện văn bản OCR hạn chế người sử dụng ngôn ngữ cụ thể, kích thước và hướng của văn bản. Hơn nữa, trong một cảnh sắc thiên nhiên, chúng ta có thể không muốn làm cho các giả định như vậy và hạn chế các kết quả phù hợp. Có một sự cân bằng hạn chế mà chúng ta áp dụng và chất lượng của kết quả. Chúng ta càng giới hạn tìm kiếm trong hình thì càng ít thông tin sai/ nhiễu (noise) mà chúng ta gặp phải.[1] Sự khác nhau cơ bản giữa OCR (Nhận diện ký tự Quang học) và Phát hiện ký tự OCR Nhận diện chữ trong các hình ảnh có từ các bản scan, fax và chi tiết dư có ít và nhiệm vụ là “đọc” được các kí tự. Được ứng dụng trong việc nhập dữ liệu hay lấy thông tin từ hình ảnh

Phát hiện ký tự Phát hiện ký tự hay vùng ký tự có trong các ảnh tự nhiên, có thể là ảnh chụp quang ảnh với rất nhiều các chi tiết dư thừa như hoa lá, bảng hiệu…Nhiệm vụ chính là “chỉ ra” vùng ký tự. Được ứng dụng trong việc phát hiện vùng ký tự, từ đó ta sẽ dùng các thuật toán thích hợp để xử ký vùng ký tự đó

Ví dụ về OCR và Phát hiện ký tự OCR

Hình chụp từ một văn bản Trang 6

Đoạn văn bản được đọc bằng OCR (Kết quả lấy từ trang web http://www.onlineocr.net/) TD

TD-Thông qua các thuật toán nhằm nhận biết các vùng ký tự Trang 7

Đồ án này sẽ giới thiệu về thuật toán SWT và đề cập chi tiết về thuật toán cũng như ứng dụng và hạn chế của nó. 1.2. SWT Có rất nhiều thuật toán để phát hiện ký tự nhưng thuật toán để đề xuất mới nhất và tỏ ra hiệu quả vượt trội so với các thuật toán khác đó chính là SWT. SWT thể hiện sự vượt trội so với các thuật toán khác ở chỗ dễ hiểu và tiêu tốn ít tài nguyên phần cứng khi thực hiện.[2] Được công bố năm 2010 bởi 3 tác giả Boris Epshtein, Eyal Ofek và Yonatan Wexler. Công trình khoa học này đã được Thuật toán này còn khá mới mẻ đối với giới xử lý ảnh. SWT là thuật toán dựa trên phép biến đổi về bề rộng chữ. Điều này có nghĩa là ta có thể phát hiện được vùng ký tự của các các ngôn ngữ khác nhau một cách dễ dàng mà không đòi hỏi phải cho máy học trước với lượng database lớn. Ví dụ sau đây cho ta cái nhìn chi tiết hơn.[3] Ví dụ 1:

Ảnh lấy từ trang www.gabrielweinberg.com

Trang 8

Ảnh lấy từ trang www.designsngold.com

Ảnh lấy tử trang www.canadianarabcommunity.com Trang 9

Từ Ví dụ 1 ta có thể thấy dù là chữ viết của ngôn ngữ nào đi nữa thì các kí tự có môtk đặc điểm chung đó là nét chữ luôn có bề rộng thay đổi nhỏ. Ví dụ 2:

Từ ví dụ hai ta có thể thấy cùng 1 ký tự nhưng với font khác nhau sẽ cho ra hình dáng khác nhau. Nếu thực hiện việc nhận dạng ký tự này bằng cách cho máy học thì ta phải có 4 mẫu trong database nhưng nếu ta sử dụng SWT thì không cần cho học trước. Điều này có ý nghĩa rất lớn vì giúp chúng ta cho thể có một thuật toán xử lý mạnh mẽ nhưng cũng hết sức gọn nhẹ và tốn ít tài nguyên phần cứng của máy. Ví dụ 3:

Trang 10

Hình ảnh trong thực tế có rất nhiều chi tiết phụ như hoa, lá, cành... nên nếu ta áp dụng luôn việc nhận diện ký tự thì kết quả ra sẽ rất tệ. Dưới đây là kết quả của việc nhận diện ký tự trực tiếp chưa qua phép biến đổi.

Trang 11

E‘ .;.*?a.=@~
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF