Đây là lệnh ids2ngram có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình giả lập trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
ids2ngram - tạo tệp dữ liệu n-gram từ tệp id
SYNOPSIS
ids2ngram [tùy chọn] ... id_filehữu ích. Cảm ơn !
MÔ TẢ
id2ngram tạo tệp idngram, là mảng [id1, .., idN, freq] được sắp xếp, từ hệ nhị phân
các tệp dòng id. Tại đây, các tệp luồng id luôn được tạo bởi mmseg or slmseg.
Về cơ bản, nó tìm thấy tất cả sự xuất hiện của các bộ giá trị n từ (tức là bộ giá trị của (id1, .., idN)) và
sắp xếp các bộ này theo thứ tự từ vựng của id tạo nên các bộ, sau đó viết
chúng vào tệp đầu ra được chỉ định.
ĐẦU VÀO
Tệp đầu vào được trình bày dưới dạng một luồng id nhị phân, trông giống như:
[id0, ..., idX]
LỰA CHỌN
Tất cả các tùy chọn sau đây là bắt buộc.
-n,--NMax N
Tạo N-kết quả chương trình. id2ngram chỉ hỗ trợ uni-gram, bi-gram và trigram,
vì vậy bất kỳ số nào không thuộc phạm vi 1..3 đều không hợp lệ.
-s,--tráo đổi trao đổi-tập tin
Chỉ định tệp trung gian tạm thời.
-o, --ngoài tập tin đầu ra
Chỉ định tệp idngram kết quả, ví dụ: mảng [id1, ..., idN, freq]
-p, --para N
Chỉ định các mục n-gram tối đa trên mỗi đoạn văn. id2ngram ghi vào tệp tạm thời
trên cơ sở mỗi đoạn văn. Mỗi khi nó viết một đoạn văn ra ngoài, nó sẽ giải phóng
bộ nhớ tương ứng được cấp phát cho nó. Khi hệ thống máy tính của bạn cho phép, N
Được gợi ý. Điều này có thể tăng tốc độ xử lý vì I / O ít hơn.
THÍ DỤ
Ví dụ sau sẽ sử dụng ba tệp idstream đầu vào idsfile [1,2,3] để tạo
tệp idngram all.id3gram. Mỗi para (kích thước bản đồ nội bộ hoặc kích thước băm) sẽ là 1024000,
sử dụng tệp hoán đổi cho kết quả tạm thời. Tất cả kết quả tạm thời para cuối cùng sẽ được hợp nhất để có
kết quả cuối cùng.
id2ngram -n 3 -s / tmp / swap -o tất cả.id3gram -p 1024000 idfile1 idfile2 idfile3
Sử dụng ids2ngram trực tuyến bằng các dịch vụ onworks.net