Descargar CC-Net para Linux

Esta es la aplicación para Linux llamada CC-Net, cuya última versión se puede descargar como cc_net1.0.0sourcecode.tar.gz. Se puede ejecutar en línea en el proveedor de alojamiento gratuito OnWorks para estaciones de trabajo.

 
 

Descargue y ejecute en línea esta aplicación llamada CC-Net con OnWorks de forma gratuita.

Siga estas instrucciones para ejecutar esta aplicación:

- 1. Descargue esta aplicación en su PC.

- 2. Ingrese en nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.

- 3. Cargue esta aplicación en dicho administrador de archivos.

- 4. Inicie el emulador en línea OnWorks Linux o Windows en línea o el emulador en línea MACOS desde este sitio web.

- 5. Desde el SO OnWorks Linux que acaba de iniciar, vaya a nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.

- 6. Descarga la aplicación, instálala y ejecútala.

CAPTURAS DE PANTALLA:


CC-Net


DESCRIPCIÓN:

cc_net proporciona herramientas para descargar, segmentar, limpiar y filtrar Common Crawl para crear corpus de texto a gran escala, incluyendo conjuntos de datos monolingües y la colección multilingüe CC-100 presentada en el documento asociado. Incluye canales para obtener instantáneas, extraer texto, desduplicar, identificar el idioma y aplicar filtros de calidad basados ​​en heurísticas y modelos lingüísticos. Los resultados están destinados al preentrenamiento de modelos lingüísticos y a la creación de corpus estandarizados que se puedan reproducir o actualizar con nuevos rastreos. El repositorio documenta problemas prácticos como fallos HTTP, diferencias en instantáneas y JSON de estadísticas, lo que refleja el uso de la comunidad en diversos idiomas. Si bien es potente, el repositorio se ha archivado y es de solo lectura, por lo que los usuarios deben esperar ejecutarlo tal cual o bifurcarlo para su mantenimiento. Incluso en estado archivado, las páginas de incidencias y versiones siguen siendo referencias útiles para obtener detalles de implementación y el linaje de los conjuntos de datos.



Caracteristicas

  • Descarga y extracción de Common Crawl de extremo a extremo
  • Identificación lingüística y segmentación monolingüe
  • Canalizaciones de filtrado de calidad y desduplicación
  • Soporte para la creación de conjuntos de datos multilingües como CC-100
  • Resultados de estadísticas reproducibles y metadatos del corpus
  • Scripts y configuraciones para el procesamiento instantánea por instantánea


Lenguaje de programación

Python


Categorías

Procesamiento del lenguaje natural (PNL)

Esta aplicación también se puede descargar desde https://sourceforge.net/projects/cc-net.mirror/. Está alojada en OnWorks para facilitar su ejecución en línea desde uno de nuestros sistemas operativos gratuitos.



Últimos programas en línea de Linux y Windows


Categorías para descargar Software y Programas para Windows y Linux