Ini ialah perintah simhash yang boleh dijalankan dalam penyedia pengehosan percuma OnWorks menggunakan salah satu daripada berbilang stesen kerja dalam talian percuma kami seperti Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS.
JADUAL:
NAMA
simhash - alat cincang persamaan fail
SINOPSIS
simhash [ -s nshingles ] [ -f nciri ] [ fail ]
simhash [ -s nshingles ] [ -f nciri ] -w fail ...
simhash [ -s nshingles ] [ -f nciri ] -m fail ...
simhash -c fail hash fail hash
DESCRIPTION
Program ini digunakan untuk mengira dan membandingkan cincang persamaan fail. Hash persamaan
ialah sebahagian daripada data yang mempunyai sifat seperti metrik jarak antara fail
berkadar dengan beberapa metrik jarak antara cincang. Biasanya cincang persamaan
akan menjadi lebih kecil daripada fail itu sendiri.
Algoritma yang digunakan oleh simhash ialah algoritma "cetakan kayap" Manassas (lihat BIBLIOGRAFI
di bawah): ambil cincang setiap m-bait urutan fail, dan mengekalkan fail n ini
cincang yang terkecil secara berangka. Saiz persilangan set cincang bagi
dua fail memberikan anggaran statistik yang baik tentang persamaan fail secara keseluruhan.
Dalam mod lalainya, simhash akan mengira cincang persamaan bagi argumen failnya (atau
stdin) dan tulis hash ini ke output standardnya. Apabila dipanggil dengan -w hujah (lihat
di bawah), simhash akan mengira cincang persamaan semua argumen failnya dalam "batch
mod". Apabila dipanggil dengan -m hujah (lihat di bawah), simhash akan membandingkan semua yang diberikan
fail menggunakan cincang persamaan dalam "mod perlawanan". Akhirnya, apabila dipanggil dengan -c hujah
(lihat di bawah), simhash akan melaporkan tahap persamaan antara dua cincang.
PILIHAN
-f kiraan ciri
Apabila mengira cincang persamaan, simpan paling banyak kiraan ciri cincang yang ketara
daripada fail sasaran. Lalai ialah 128 ciri. Kiraan ciri yang lebih besar akan
memberikan resolusi yang lebih tinggi dalam perbezaan antara fail, akan meningkatkan saiz fail
cincang persamaan secara berkadar dengan kiraan ciri, dan akan meningkatkan persamaan
masa pengiraan cincang sedikit.
-s bersaiz kayap
Apabila mengira cincang persamaan, gunakan cincang sampel yang terdiri daripada bersaiz kayap
bait berturut-turut diambil daripada fail sasaran. Lalai ialah 8 bait, minimum
ialah 4 bait. Saiz kayap yang lebih besar akan lebih menekankan perbezaan antara fail
dan akan memperlahankan pengiraan cincang persamaan secara berkadar dengan saiz kayap.
-c fail hash1 fail hash2
Paparkan jarak (dinormalkan kepada julat 0..1) antara cincang persamaan
disimpan di fail hash1 dan cincang persamaan yang disimpan dalam fail hash2.
-w fail ...
Tulis cincang persamaan setiap satu fail hujah untuk fail.sim.
-m fail ...
Kira cincang persamaan bagi setiap satu fail hujah, dan menghasilkan persamaan
matriks untuk fail tersebut.
Gunakan simhash dalam talian menggunakan perkhidmatan onworks.net