Dữ liệu từ điển, định dạng freedict, Ubuntu dictd server, dict client

Từ điển tiếng việt Giới thiệu Tôi đang định thử làm mô hình seq2seq dịch. Và đang tìm dữ liệu. Dữ liệu từ điển là nguồn tôi nghĩ đến đầu tiên. Hôm nay chúng ta sẽ cùng làm từ điển tiếng việt: Tải và giải nén dữ liệu từ điển Hồ Ngọc Đức Tải về

Từ điển tiếng việt

Giới thiệu

Tôi đang định thử làm mô hình seq2seq dịch. Và đang tìm dữ liệu. Dữ liệu từ điển là nguồn tôi nghĩ đến đầu tiên.

Hôm nay chúng ta sẽ cùng làm từ điển tiếng việt:

Tải và giải nén dữ liệu từ điển Hồ Ngọc Đức

Tải về tại trang web sau: Từ điển Hồ Ngọc Đức
và giải nén tất cả

Backup data:Backup Từ điển Hồ Ngọc Đức

Note

Tôi đã thử tải từ điển Việt-Việt nhưng chỉ có 30k từ, 30k từ là rất nhỏ, nhiều từ tra sẽ không thấy được. Tuy nhiên định dạng freedict là rất phổ biến, chúng ta cứ dùng bộ dữ liệu này để demo trước, nếu chúng ta có dữ liệu lớn hơn thì chỉ việc làm như bài viết này.

Sử dụng ubuntu, Cài đặt dictd, cấu hình từ điển và test thử

Note

Để sử dụng bộ dữ liệu trên ta cần một server dictd và client dict. Có nhiều phần mềm với giao diện đồ họa khác nhưng ở đây chúng ta không quan tâm đến. Tôi sẽ cài dictd và dict trên ubuntu.

Để cài đặt ứng dụng dict trên ubuntu chúng ta dùng lệnh sau:

sudoaptinstall dict # Cài đặt dictsudo dictd # Khởi chạy

    dict -D # Để xem danh sách từ điển đã được cài đặtps -A |grep dictd # Để xem dictd đã được chạy hay chưa

Tiến hành cấu hình dictd, thêm dữ liệu của chúng ta vào

/etc/dictd/dictd.conf

# /etc/dictd/dictd.conf
...
database hnd_ev
{
    data /home/luantm/Windows/Workshop/HoNgocDucDictionary/data/data/EV/anhviet109K.dict.dz
    index /home/luantm/Windows/Workshop/HoNgocDucDictionary/data/data/EV/anhviet109K.index
}
...

Sử dụng

dict -d hnd_ev "hello"
 
1 definition found

From @00-database-short [hnd_ev]:

@hello /hə'lou/ (halloa) /hə'lou/ (hello) /'he'lou/
*  thán từ
- chào anh!, chào chị!
- này, này
- ô này! (tỏ ý ngạc nhiên)
*  danh từ
- tiếng chào
- tiếng gọi "này, này" !
- tiếng kêu ô này "! (tỏ ý ngạc nhiên)
*  nội động từ
- chào
- gọi "này, này"
- kêu "ô này" (tỏ ý ngạc nhiên)

Ứng dụng

Từ đây chúng ta có thể tạo web api phục vụ từ điển cho web, mobile.
Hoặc là dữ liệu đầu vào để phát triển xử lý ngôn ngữ tự nhiên

Chúc các bạn thành công
Truy cập trang gốc: Từ điển.
Nếu bạn có dữ liệu, thông tin, hay câu hỏi thì có thể bình luận vào phía bên dưới.

Nguồn: viblo.asia

Bài viết liên quan

Thay đổi Package Name của Android Studio dể dàng với plugin APR

Nếu bạn đang gặp khó khăn hoặc bế tắc trong việc thay đổi package name trong And

Lỗi không Update Meta_Value Khi thay thế hình ảnh cũ bằng hình ảnh mới trong WordPress

Mã dưới đây hoạt động tốt có 1 lỗi không update được postmeta ” meta_key=

Bài 1 – React Native DevOps các khái niệm và các cài đặt căn bản

Hướng dẫn setup jenkins agent để bắt đầu build mobile bằng jenkins cho devloper an t

Chuyển đổi từ monolith sang microservices qua ví dụ

1. Why microservices? Microservices là kiến trúc hệ thống phần mềm hướng dịch vụ,