Bu, en son sürümü node-unfluffv3.2.0sourcecode.tar.gz olarak indirilebilen unfluff adlı Linux uygulamasıdır. İş istasyonları için ücretsiz barındırma sağlayıcısı OnWorks'te çevrimiçi olarak çalıştırılabilir.
Unfluff isimli bu uygulamayı OnWorks ile ücretsiz olarak çevrimiçi indirin ve çalıştırın.
Bu uygulamayı çalıştırmak için şu talimatları izleyin:
- 1. Bu uygulamayı PC'nize indirdiniz.
- 2. Dosya yöneticimize https://www.onworks.net/myfiles.php?username=XXXXX istediğiniz kullanıcı adını girin.
- 3. Bu uygulamayı böyle bir dosya yöneticisine yükleyin.
- 4. Bu web sitesinden OnWorks Linux çevrimiçi veya Windows çevrimiçi öykünücüsünü veya MACOS çevrimiçi öykünücüsünü başlatın.
- 5. Yeni başladığınız OnWorks Linux işletim sisteminden, istediğiniz kullanıcı adıyla https://www.onworks.net/myfiles.php?username=XXXXX dosya yöneticimize gidin.
- 6. Uygulamayı indirin, kurun ve çalıştırın.
EKRAN GÖRÜNTÜLERİ:
tüylerden arındırmak
AÇIKLAMA:
unfluff, bir HTML belgesinden ana içeriği otomatik olarak çıkarmak için tasarlanmış bir Node.js kütüphanesidir. Gezinme çubuklarını, reklamları, alt bilgileri ve diğer kalıpları kaldırarak size "gövde içeriği", meta veriler (başlık, yazar, tarih) ve diğer kullanışlı alanları bırakır. İçerik analizi, web kazıma, veri kümeleri oluşturma veya makale metnini alt akış işleme (makine öğrenimi veya özetleme gibi) için yeniden kullanma gibi amaçlara yönelik bir araçtır. API basittir: Ham HTML'yi girersiniz ve çıkarılan metin ve diğer alanlarla yapılandırılmış bir nesne döndürür. Tekrarlanan çıkarmaları hızlandırmak için dahili gösterimlerin önbelleğe alınmasını destekler. Dil desteği İngilizce için en iyi olsa da, web içeriği işleme kanallarında hala yaygın olarak kullanılmaktadır. Depoda bazı sınırlamalar belirtilmiştir (örneğin, Çince/Arapça/Korece gibi diller iyi desteklenmeyebilir). Basitliği ve odaklanmış amacı nedeniyle, arka uç hizmetlerinde veya CLI araçlarında güvenilir bir yapı taşı olabilir.
Özellikler
- Bir HTML belgesinden ana metin içeriğini (gövde) çıkarır
- Meta verileri (başlık, yazar, tarih, dil algılama vb.) ayrıştırır ve döndürür
- Birden fazla alanı çıkarırken performans için ara gösterimleri önbelleğe alır
- CLI/modül desteği: küresel olarak kurulabilir veya programlı olarak kullanılabilir
- Veri kümeleri oluşturmak, makale kazımak, iş akışlarını yeniden yayınlamak için uygundur
- Apache-2.0 lisansı altında açık kaynaklıdır, Node.js yığınlarına kolayca entegre edilebilir
Kategoriler
Bu uygulama, https://sourceforge.net/projects/unfluff.mirror/ adresinden de indirilebilir. Ücretsiz İşletim Sistemlerimizden birinden çevrimiçi olarak en kolay şekilde çalıştırılabilmesi için OnWorks'te barındırılmıştır.