Ini ialah apl Linux bernama Trafilatura yang keluaran terbarunya boleh dimuat turun sebagai trafilatura-1.6.2.zip. Ia boleh dijalankan dalam talian dalam penyedia pengehosan percuma OnWorks untuk stesen kerja.
Muat turun dan jalankan dalam talian apl bernama Trafilatura ini dengan OnWorks secara percuma.
Ikut arahan ini untuk menjalankan apl ini:
- 1. Memuat turun aplikasi ini dalam PC anda.
- 2. Masukkan dalam pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXXX dengan nama pengguna yang anda mahukan.
- 3. Muat naik aplikasi ini dalam pengurus filem tersebut.
- 4. Mulakan OnWorks Linux dalam talian atau emulator dalam talian Windows atau emulator dalam talian MACOS dari tapak web ini.
- 5. Daripada OS Linux OnWorks yang baru anda mulakan, pergi ke pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXX dengan nama pengguna yang anda mahukan.
- 6. Muat turun aplikasi, pasang dan jalankan.
SKRIN
Ad
Trafilatura
DESCRIPTION
Trafilatura ialah pakej Python dan alat baris arahan yang direka untuk mengumpulkan teks di Web. Ia termasuk penemuan, pengekstrakan dan komponen pemprosesan teks. Aplikasi utamanya ialah merangkak web, memuat turun, mengikis dan mengekstraksi teks utama, metadata dan ulasan. Ia bertujuan untuk kekal berguna dan modular: tiada pangkalan data diperlukan, output boleh ditukar kepada pelbagai format yang biasa digunakan. Beralih daripada HTML mentah kepada bahagian penting boleh mengurangkan banyak masalah yang berkaitan dengan kualiti teks, pertama dengan mengelakkan bunyi yang disebabkan oleh elemen berulang (pengepala, pengaki, pautan/blogroll dll.) dan kedua dengan memasukkan maklumat seperti pengarang dan tarikh untuk membuat rasa data. Pengekstrak cuba menyeimbangkan antara mengehadkan hingar (ketepatan) dan memasukkan semua bahagian yang sah (ingat). Ia juga perlu teguh dan agak pantas, ia berjalan dalam pengeluaran pada berjuta-juta dokumen.
Ciri-ciri
- Merangkak web dan penemuan teks
- Pemprosesan lancar dan selari, dalam talian dan luar talian
- Pengekstrakan yang mantap dan cekap
- Teks utama (dengan LXML, corak biasa dan algoritma generik: jusText, fork of readability-lxml)
- URL, fail HTML atau pepohon HTML yang dihuraikan boleh digunakan sebagai input
- Pemprosesan baris gilir muat turun yang cekap dan sopan
Bahasa Pengaturcaraan
Python
Kategori
Ini adalah aplikasi yang juga boleh diambil dari https://sourceforge.net/projects/trafilatura.mirror/. Ia telah dihoskan dalam OnWorks untuk dijalankan dalam talian dengan cara yang paling mudah daripada salah satu Sistem Operasi percuma kami.