Esta es la aplicación para Linux llamada CC-Net, cuya última versión se puede descargar como cc_net1.0.0sourcecode.tar.gz. Se puede ejecutar en línea en el proveedor de alojamiento gratuito OnWorks para estaciones de trabajo.
Descargue y ejecute en línea esta aplicación llamada CC-Net con OnWorks de forma gratuita.
Siga estas instrucciones para ejecutar esta aplicación:
- 1. Descargue esta aplicación en su PC.
- 2. Ingrese en nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 3. Cargue esta aplicación en dicho administrador de archivos.
- 4. Inicie el emulador en línea OnWorks Linux o Windows en línea o el emulador en línea MACOS desde este sitio web.
- 5. Desde el SO OnWorks Linux que acaba de iniciar, vaya a nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 6. Descarga la aplicación, instálala y ejecútala.
CAPTURAS DE PANTALLA:
CC-Net
DESCRIPCIÓN:
cc_net proporciona herramientas para descargar, segmentar, limpiar y filtrar Common Crawl para crear corpus de texto a gran escala, incluyendo conjuntos de datos monolingües y la colección multilingüe CC-100 presentada en el documento asociado. Incluye canales para obtener instantáneas, extraer texto, desduplicar, identificar el idioma y aplicar filtros de calidad basados en heurísticas y modelos lingüísticos. Los resultados están destinados al preentrenamiento de modelos lingüísticos y a la creación de corpus estandarizados que se puedan reproducir o actualizar con nuevos rastreos. El repositorio documenta problemas prácticos como fallos HTTP, diferencias en instantáneas y JSON de estadísticas, lo que refleja el uso de la comunidad en diversos idiomas. Si bien es potente, el repositorio se ha archivado y es de solo lectura, por lo que los usuarios deben esperar ejecutarlo tal cual o bifurcarlo para su mantenimiento. Incluso en estado archivado, las páginas de incidencias y versiones siguen siendo referencias útiles para obtener detalles de implementación y el linaje de los conjuntos de datos.
Caracteristicas
- Descarga y extracción de Common Crawl de extremo a extremo
- Identificación lingüística y segmentación monolingüe
- Canalizaciones de filtrado de calidad y desduplicación
- Soporte para la creación de conjuntos de datos multilingües como CC-100
- Resultados de estadísticas reproducibles y metadatos del corpus
- Scripts y configuraciones para el procesamiento instantánea por instantánea
Lenguaje de programación
Python
Categorías
Esta aplicación también se puede descargar desde https://sourceforge.net/projects/cc-net.mirror/. Está alojada en OnWorks para facilitar su ejecución en línea desde uno de nuestros sistemas operativos gratuitos.