Introduction

Trong thời gian gần đây, chúng ta thường nghe đến các như khái niệm chuyển đổi số hay một bài toán con cuả nó là số hóa tài liệu được nhắc đến rất nhiều trên các phương tiện truyền thông đại chúng. Số hóa tài liệu là quá trình chuyển đổi từ các dạng văn bản, tài liệu vật lý như chữ viết tay, giấy in.. thành những dữ liệu số mà máy tính có thể lưu trữ, đọc hiểu được. Số hóa tài liệu mang lại rất nhiều lợi ích khác nhau cho một doanh nghiệp:

Giảm không gian lưu trữ, thời gian truy xuất, tim kiếm tài liệu
Sao lưu bảo quản tài liệu, tránh bị mất mát
Chia sẻ tài liệu một cách nhanh chóng, thuận tiện
Tăng cường khả năng bảo mật thông tin
Nâng cao hiệu quả công việc do tập hợp các thông tin đưa đến một cách nhanh chóng và kịp thời.
Cắt giảm chi phí tối đa cho việc quản lý, vận hành
Chỉnh sửa và tái sử dụng tài liệu, linh hoạt trong việc chuyển đổi sang các định dạng tài liệu số khác nhau (docx, xlsx, …).

Trong một hệ thống số hóa tài liệu thì việc nhận diện và phân tích cấu trúc văn bản là sự tổng hợp của một số bài toán tương đối phức tạp. Cụ thể hơn, trong bài toán phân tích cấu trúc văn bản, ta lại có các bài toán con là text detection và OCR. Để nhận diện và phần tích cấu trúc văn bản một cách chính xác nhất thì việc phát hiện và loại bỏ các đối tượng nhiễu (con dấu công ty, watermark, … ) nhằm nâng cao chất lượng hình ảnh đầu vào cho các mô hình text detection và OCR.

Trong bài viết này, mình sẽ giới thiệu cho các bạn một package do Sun* AI Research Team phát triển để giải quyết bài toán này. Các bạn cũng có thể tham kháo một package khác cho bài toán tái cấu trúc bảng của team tại bài viết này.

Package Stamp Processing.

stamp_processing là một package mã nguồn mở sử dụng kỹ thuật deep learning để phát hiện và xóa con dấu khỏi ảnh văn bản. Package được xây dựng dựa trên mô hình Yolov5 để phát hiện con dấu và Unet trong thư viện fastai cho mô hình xóa con dấu.

Để cài đặt thư viện, các bạn chỉ cần 1 câu lệnh

 pip install stamp_processing

Feature

Package stamp_processing cung cấp 2 chức năng chính

Stamp detection
Stamp removal: sử dụng kỹ thuật image-to-image translation để xóa con dấu trong ảnh
Cả 2 mô hình được train trên bộ dữ liệu nhân tạo và dữ liệu gán nhãn

Stamp detection

Trong package này, mô hình sử dụng để phát hiện con dấu là Yolov5. Bộ dữ liệu được sử dụng là kết kết hợp giữa dữ liệu nhân tạo và dữ liệu tự gán nhãn. Kết quả phát hiện con dấu trên ảnh sử dụng mô hình yolov5:

Stamp removal

Có 2 phương pháp có thể sử dụng để xóa con dấu trong ảnh.

Cách 1: Nếu con dấu có màu thì có thể xử lý bằng opencv. Các bạn có thể tham khảo bài viết này
Cách 2; Sử dụng deep learning hồi quy ra ảnh không có con dấu. Package sẽ sử dụng cách tiếp cận này.

Mô hình Unet

Các kiến trúc được dùng trong các bài toán image-to-image translation thường là các kiến trúc dạng encoder – decoder. Trong package này, mình sử dụng mô hình Dynamic Unet được cung cấp trong mô thư viện fastai. Về mô hình unet thì mô hình sẽ bao gồm 2 phần

Phần encoder: chỉ bao gồm các lớp convolution có nhiệm vụ downsample ảnh đầu vào và trích xuất đặc trưng. Thông thường phần encoder sẽ là các kiến trúc như resnet hay vgg.
Phần decoder: mục tiêu của phần giải mã là kết hợp đặc trưng của nhiều tầng khác nhau của mạng encoder để tăng cường thông tin biểu diễn đồng thời để tạo ra ảnh mới theo yêu cầu của bài toán.

Training

Quá trình training mô hình được lấy ý tưởng từ kỹ thuật NoGAN trong project DeOldify. Chi tiết về kỹ thuật này, các bạn có thể tham khảo repo trên. Tóm tắt 1 số kỹ thuật:

Sử dụng lớp self-attention
Perceptual loss function https://arxiv.org/abs/1603.08155

Outro

Xin cảm ơn mọi người đã đọc bài viết. Hiện này, package stamp_processing đã ra mắt phiên bản đầu tiên nên vẫn còn nhiều điểm chưa hoàn thiện. Team rất mong nhận được ý kiến của các bạn để có thể tiếp tục hoàn thiện package. Các bạn có thể liên hệ tới chúng mình qua email [email protected]. Sun* AI Research Team rất hân hạnh khi được hợp tác cùng mọi người.

References

Nguồn: viblo.asia

Phát hiện và xóa con dấu trong ảnh tài liệu bằng thư viện Stamp Processing

Introduction

Package Stamp Processing.

Feature

Stamp detection

Stamp removal

Mô hình Unet

Training

Outro

References

Bài viết liên quan

Cấu hình Prisma v7 Với Nest.js Mới nhất

Tấn Công Ứng Dụng Web: Mối Đe Dọa Hàng Đầu – Phần 2

AI Chatbot 2025: Xu Hướng Tất Yếu Cho Doanh Nghiệp Dẫn Đầu

Tấn Công Ứng Dụng Web: Mối Đe Dọa Hàng Đầu – Phần 1

Liên hệ

THÔNG TIN

Địa chỉ