Đây là lệnh merge_tessdata có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
merge_tessdata - kết hợp / giải nén / ghi đè dữ liệu Tesseract
SYNOPSIS
dữ liệu kết hợp [TÙY CHỌN] FILE...
MÔ TẢ
dữ liệu kết hợp(1) là chương trình chính để kết hợp / giải nén / ghi đè các thành phần tessdata
trong tệp [lang] .traineddata.
Để kết hợp tất cả các thành phần tessdata riêng lẻ (unicharset, DAWGs, classifier
mẫu, sự không rõ ràng, cấu hình ngôn ngữ) được đặt tại, giả sử, /nhà/$ USER / temp / eng. * Run:
dữ liệu kết hợp /nhà/$ USER / tạm thời / tương tác
Kết quả sẽ là một tệp tessdata kết hợp /nhà/$ USER / temp / eng.traineddata
Chỉ định tùy chọn -e nếu bạn muốn trích xuất các thành phần riêng lẻ từ một
tệp dữ liệu được đào tạo. Ví dụ: để trích xuất tệp cấu hình ngôn ngữ và bộ đơn mã từ
tessdata / eng.traineddata run:
merge_tessdata -e tessdata / eng.traineddata \
/nhà/$ USER / temp / eng.config /nhà/$ USER / temp / eng.unicharset
Tệp cấu hình mong muốn và tập hợp mã đơn mã sẽ được ghi vào /nhà/$ USER / temp / eng.config
/nhà/$ USER / temp / eng.unicharset
Chỉ định tùy chọn -o để ghi đè các thành phần riêng lẻ của tệp [lang] .traineddata đã cho.
Ví dụ: để ghi đè lên cấu hình ngôn ngữ và loại bỏ các tệp không rõ ràng trong
sử dụng tessdata / eng.traineddata:
merge_tessdata -o tessdata / eng.traineddata \
/nhà/$ USER / temp / eng.config /nhà/$ USER / temp / eng.unicharambigs
Do đó, tessdata / eng.traineddata sẽ chứa cấu hình ngôn ngữ mới và unichar
ambigs, cộng với tất cả DAWG ban đầu, các mẫu phân loại, v.v.
Lưu ý: tên tệp của tệp để giải nén và ghi đè từ đó phải có
các hậu tố tệp thích hợp (phần mở rộng) cho biết loại thành phần tessdata của chúng
(.unicharset cho unicharset, .unicharambigs cho unichar ambigs, v.v.). Xem k * FileSuffix
biến trong ccutil / tessdatamanager.h.
Chỉ định tùy chọn -u để giải nén tất cả các thành phần vào đường dẫn được chỉ định:
merge_tessdata -u tessdata / eng.traineddata /nhà/$ USER / tạm thời / tương tác
Điều này sẽ tạo ra /nhà/Các tệp $ USER / temp / eng. * Với các thành phần tessdata riêng lẻ từ
tessdata / eng.traineddata.
LỰA CHỌN
-e .trainingdata FILE...: Trích xuất các thành phần được chỉ định từ tệp .traineddata
-o .trainingdata FILE...: Ghi đè các thành phần được chỉ định của tệp .traineddata bằng
những người được cung cấp trên đường dây comand.
-u .trainingdata LỘ TRÌNH Giải nén .traineddata bằng tiền tố được cung cấp.
THẬN TRỌNG
Tiếp đầu ngữ đề cập đến tiền tố tệp đầy đủ, bao gồm dấu chấm (.)
LINH KIỆN
Các thành phần trong tệp Tesseract lang.traineddata kể từ Tesseract 3.02 là ngắn gọn
được mô tả dưới đây; Để biết thêm thông tin về nhiều tệp trong số này, hãy xem
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(Tùy chọn) Ghi đè theo ngôn ngữ cụ thể đối với các biến cấu hình mặc định.
lang.unicharset
(Bắt buộc) Danh sách các ký hiệu mà Tesseract nhận ra, với các thuộc tính. Nhìn thấy
bộ đơn sắc(5).
lang.unicharambis
(Tùy chọn) Tệp này chứa thông tin về các cặp ký hiệu được công nhận là
thường bị nhầm lẫn. Ví dụ, rn và m.
lang.inttemp
(Bắt buộc) Các mẫu hình dạng ký tự cho mỗi unichar. Được sản xuất bởi đào tạo(1).
lang.pffmtable
(Bắt buộc) Số lượng tính năng dự kiến cho mỗi unichar. Được sản xuất bởi đào tạo(1)
từ .tr các tập tin.
lang.normproto
(Bắt buộc) Các nguyên mẫu chuẩn hóa ký tự được tạo bởi đào tạo(1) từ .tr
các tập tin.
lang.punc-dawg
(Tùy chọn) Dấu câu được tạo từ các mẫu dấu câu xung quanh các từ. Phần "từ"
được thay thế bằng một khoảng trắng.
lang.word-dawg
(Tùy chọn) Một dawg được tạo từ các từ điển của ngôn ngữ.
lang.number-dawg
(Tùy chọn) Một dawg được làm từ các mã thông báo ban đầu chứa các chữ số. Mỗi chữ số là
được thay thế bằng một ký tự khoảng trắng.
lang.freq-dawg
(Tùy chọn) Một dawg được tạo ra từ những từ thông dụng nhất mà lẽ ra phải sử dụng
từ-dawg.
lang.fixed-length-dawgs
(Tùy chọn) Một số dawgs có độ dài cố định khác nhau - hữu ích cho các ngôn ngữ như
Người Trung Quốc.
lang.cube-unicharset
(Tùy chọn) Một bộ đơn mã cho khối lập phương, nếu khối lập phương được đào tạo trên một bộ ký hiệu khác.
lang.cube-word-dawg
(Tùy chọn) Một từ dawg cho bộ đơn mã thay thế của khối lập phương. Không cần thiết nếu Cube đã được đào tạo
với tập hợp đơn mã của Tesseract.
lang.shapetable
(Tùy chọn) Khi có mặt, một tấm có thể uốn cong là một lớp bổ sung giữa ký tự
trình phân loại và trình nhận dạng từ cho phép trình phân loại ký tự trả về
bộ sưu tập id và phông chữ unichar thay vì một id và phông chữ unichar.
lang.bigram-dawg
(Tùy chọn) Một tệp bigrams từ trong đó các từ được phân tách bằng dấu cách và mỗi
chữ số được thay thế bởi một ?.
lang.unambig-dawg
(Tùy chọn) VIỆC CẦN LÀM: Mô tả.
lang.params-đào tạo-mô hình
(Tùy chọn) VIỆC CẦN LÀM: Mô tả.
LỊCH SỬ
dữ liệu kết hợp(1) xuất hiện lần đầu trong phiên bản 3.00 của Tesseract
Sử dụng dữ liệu tổng hợp trực tuyến bằng cách sử dụng các dịch vụ onworks.net