Đây là lệnh xay có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình mô phỏng trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
xay - xử lý các tập tin từ điển WordNet
SYNOPSIS
mài ngọc [ -v ] [ -s ] [ -Ltệp nhật ký ] [ -a ] [ -d ] [ -i ] [ -o ] [ -n ] tên tập tin [
tên tập tin...]
MÔ TẢ
mài ngọc() xử lý các tệp từ điển WordNet, tạo ra các tệp cơ sở dữ liệu phù hợp để sử dụng
với mã giao diện và tìm kiếm WordNet và các ứng dụng khác. Cú pháp và
tính toàn vẹn cấu trúc của các tập tin đầu vào được xác minh. Cảnh báo và lỗi được báo cáo qua
tiêu chuẩn và nhật ký thời gian chạy được tạo trên tiêu chuẩn. Cơ sở dữ liệu chỉ được tạo nếu có
không có lỗi.
Đầu vào Các Tập Tin
Các tệp đầu vào tương ứng với các danh mục cú pháp được triển khai trong WordNet - danh từ, động từ,
tính từ và trạng từ. Mỗi tệp từ điển đầu vào bao gồm một danh sách các bộ từ đồng nghĩa
(bộ đồng bộ) cho một phần của bài phát biểu. Mặc dù cú pháp synset cơ bản là giống nhau cho tất cả
các phần của lời nói, một số phần cú pháp chỉ áp dụng cho một phần lời nói cụ thể.
Xem đầu vào(5WN) để biết mô tả về định dạng tệp đầu vào.
Mỗi trang web tên tập tin được chỉ định có dạng:
tên đường dẫn/gửi.hậu tố
Ở đâu tên đường dẫn là tùy chọn và gửi là một trong hai danh từ, động từ, tính từ or quảng cáo. hậu tố có thể được sử dụng
để tách các nhóm synset thành các tệp khác nhau, ví dụ danh từ.động vật và
danh từ.cây. Một hoặc nhiều tệp đầu vào, trong bất kỳ sự kết hợp nào của các danh mục cú pháp, có thể
được chỉ định. Nhìn thấy tên từ vựng(5WN) để biết danh sách các tập tin soạn từ điển được sử dụng để xây dựng
cơ sở dữ liệu WordNet hoàn chỉnh.
Đầu ra Các Tập Tin
mài ngọc() tạo ra các tệp đầu ra sau:
┌────────────┬─────────────────────────── ───────── ────┐
│ Tên tập tin │ Mô tả Chi tiết │
├────────────┼─────────────────────────── ───────── ────┤
│mục lục.gửi │ Tệp chỉ mục cho từng danh mục cú pháp │
│dữ liệu.gửi │ Tệp dữ liệu cho từng loại cú pháp │
│chỉ mục.sense │ Chỉ số giác quan │
└────────────┴─────────────────────────── ───────── ────┘
Xem wndb(5WN) để biết mô tả về các định dạng tệp cơ sở dữ liệu.
Mỗi lần mài ngọc() được chạy, mọi tệp cơ sở dữ liệu hiện có sẽ bị ghi đè bằng cơ sở dữ liệu
các tệp được tạo từ các tệp đầu vào được chỉ định. Nếu không có tệp đầu vào từ cú pháp
danh mục được chỉ định, các tệp cơ sở dữ liệu tương ứng sẽ không bị ghi đè.
ý nghĩa Số
Các giác quan thường được sắp xếp theo thứ tự từ được sử dụng nhiều nhất đến ít được sử dụng thường xuyên nhất, trong đó các giác quan được sử dụng phổ biến nhất
ý nghĩa được đánh số 1. Tần suất sử dụng được xác định bởi số lần ý nghĩa được gắn thẻ
trong các văn bản phù hợp ngữ nghĩa khác nhau. Các giác quan không được gắn thẻ ngữ nghĩa sẽ theo sau
các giác quan được sắp xếp theo một trật tự tùy ý. Lưu ý rằng thứ tự này chỉ là ước tính
dựa trên việc sử dụng trong một kho văn bản nhỏ.
tagsense_cnt trường cho mỗi mục trong mục lục.gửi các tập tin cho biết có bao nhiêu
các giác quan trong danh sách đã được gắn thẻ.
danh sách cntt Tệp được cung cấp cùng với cơ sở dữ liệu liệt kê số lần mỗi giác quan được gắn thẻ
trong sự phù hợp về mặt ngữ nghĩa. mài ngọc() sử dụng dữ liệu từ danh sách cntt để sắp xếp các giác quan của
mỗi từ. Khi mà chỉ số.gửi các tập tin được tạo ra, synset_offsets là đầu ra theo nghĩa
thứ tự số, với nghĩa 1 đầu tiên trong danh sách. Các giác quan có cùng số lượng ngữ nghĩa
các thẻ được gán các số có ý nghĩa duy nhất nhưng liên tiếp. Mạng từ TỔNG QUAN Tìm kiếm
hiển thị tất cả các nghĩa của từ được chỉ định, trong tất cả các loại cú pháp và cho biết
giác quan nào được thể hiện trong các văn bản được gắn thẻ ngữ nghĩa.
LỰA CHỌN
-v Xác minh tính toàn vẹn của đầu vào mà không tạo cơ sở dữ liệu.
-s Ngăn chặn việc tạo ra các thông báo cảnh báo. Thường xuyên mài ngọc được chạy với cái này
tùy chọn cho đến khi tất cả các lỗi cú pháp và cấu trúc được sửa chữa kể từ khi
thông báo cảnh báo có thể gây khó khăn cho việc phát hiện thông báo lỗi.
-Ltệp nhật ký Viết tất cả tin nhắn tới tệp nhật ký thay vì tiêu chuẩn.
-a Tạo báo cáo thống kê về các tập tin đầu vào được xử lý.
-d Tạo phân phối cảm giác theo báo cáo độ dài chuỗi trên các tệp đầu vào
xử lý.
-i Tạo tập tin chỉ mục ý nghĩa.
-o Sắp xếp các giác quan bằng cách sử dụng danh sách cntt.
-n Tạo các liên kết danh nghĩa hóa (hình thái phái sinh) trong cơ sở dữ liệu.
tên tập tin Tệp đầu vào có dạng được mô tả trong Đầu vào Các tập tin.
Sử dụng xay trực tuyến bằng dịch vụ onworks.net