Nhận dạng ký tự quang học – Wikipedia tiếng Việt

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh.

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số.

Đầu tiên mạng lưới hệ thống nhận dạng nhu yếu phải được đào tạo và giảng dạy với những mẫu của những ký tự đơn cử. Các mạng lưới hệ thống ” mưu trí ” với độ đúng mực nhận dạng cao so với hầu hết những phông chữ lúc bấy giờ đã trở nên phổ cập. Một số mạng lưới hệ thống còn có năng lực tái tạo lại những định dạng của tài liệu gần giống với bản gốc gồm có : hình ảnh, những cột, bảng biểu, những thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang.
Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu số hóa dữ liệu.

Ngoài ra, còn có một dự án Bất Động Sản OCR Tiếng Việt có tên VietOCR, được tăng trưởng dựa trên nền tảng mã nguồn mở tesseract-ocr do Google hỗ trợ vốn. VietOCR có năng lực nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java /. NET, tương hỗ nhận dạng cho những dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP .

ABBYY – một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009. Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai).
Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới.

Trạng thái hiện thời của công nghệ tiên tiến OCR[sửa|sửa mã nguồn]

Sự nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ lệ chính xác cao hơn nữa cần phải con người kiểm tra lại lỗi.

Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí còn những phiên bản đánh máy được in ra của vài chữ ( đặc biệt quan trọng là những chữ có số vần âm lớn ), vẫn còn là một đề tài của những điều tra và nghiên cứu .

Các hệ thống nhận dạng ký tự viết tay đã đạt được những thành công lớn về mặt thương mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết bị hỗ trợ cá nhân (PDA) như những phần mềm chạy trên Palm OS. hãng Apple Newton đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những thiết bị này sử dụng những ưu điểm rằng thứ tự, tốc độ, và hướng của những đoạn dòng đơn lẻ đã được biết trước. Tương tự, người dùng có thể được yêu cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những phương pháp này không thể dùng được trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những ký tự in bằng tay sạch sẽ có thể được nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR, (Intelligent Character Recognition – Nhận dạng Ký tự Thông minh).

Nhận dạng chữ viết tay là một nghành điều tra và nghiên cứu sôi sục, với tỷ suất nhận dạng thậm chí còn còn thấp hơn cả văn bản in bằng tay. Tỷ lệ nhận dạng cao hơn của những bản viết tay chung chung hầu hết là không hề nếu không sử dụng thông tin về ngữ pháp và văn cảnh. Ví dụ như, nhận dạng cả một chữ từ một cuốn từ điển thì dễ hơn là việc cố gắng nỗ lực lấy ra những ký tự rời rạc từ đoạn đó. Đọc dòng Tổng cộng của một tờ séc ( luôn luôn được viết bằng số ) là một ví dụ trong đó sử dụng những từ điển nhỏ hơn hoàn toàn có thể tăng tỷ suất nhận dạng rất nhiều. Kiến thức về ngữ pháp của một ngôn từ được scan cũng hoàn toàn có thể giúp xác lập một từ hoàn toàn có thể là động từ hay danh từ, ví dụ như vậy, sẽ được cho phép độ đúng chuẩn cao hơn. Hình dạng của chữ viết tay bản thân nó đã không chứa đủ thông tin về để nhận dạng đúng chuẩn ( hơn 98 % ) toàn bộ những đoạn chữ viết tay .Một yếu tố khó khăn vất vả của máy tính và con người đó là những bản lưu của những lễ thánh và đám cưới của những nhà thời thánh cũ chỉ toàn chứa tên. Những trang đó hoàn toàn có thể bị hư hại do thời hạn, nước hay lửa và những tên trên đó hoàn toàn có thể đã lỗi thời hoặc chứa những chính tả hiếm gặp. Lĩnh vực điều tra và nghiên cứu khác là tiếp cận hợp tác, ở đó máy tính tương hỗ con người và ngược lại. Kỹ thuật giải quyết và xử lý hình ảnh của máy tính hoàn toàn có thể tương hỗ con người trong việc đọc những văn bản cực kỳ khó đọc như Bản viết trên da cừu của Archimede hay những Cuộn giấy da lấy từ vùng Biển Chết .Tóm lại, so với những yếu tố nhận dạng phức tạp hơn mạng nơ-ron được sử dụng thoáng đãng bởi chúng hoàn toàn có thể làm làm đơn giản hóa cả đổi khác affine lẫn đổi khác phi tuyến. [ 1 ]

Rate this post