GoGPT Best VPN GoSearch

icono de página de OnWorks

sa-learnp: en línea en la nube

Ejecute sa-learnp en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando sa-learnp que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


sa-learn - entrena el clasificador bayesiano de SpamAssassin

SINOPSIS


sa-aprender [opciones] [archivo] ...

sa-aprender [opciones] --dump [todo | datos | magia ]

Opciones:

--ham Aprende mensajes como jamón (no spam)
--spam Aprender mensajes como spam
- Olvidar Olvidar un mensaje
--use-ignores Usa bayes_ignore_from y bayes_ignore_to
--sync Sincroniza la base de datos y el diario si es necesario
--force-expire Fuerza una sincronización de la base de datos y una ejecución de vencimiento
--dbpath Permite anular la línea de comandos (en forma bayes_path)
para saber dónde leer la base de datos de Bayes
--dump [all | data | magic] Muestra el contenido de la base de datos de Bayes
Toma un argumento opcional para lo que se muestra.
--regexp Solo para volcado, especifica qué tokens
volcado basado en una expresión regular.
-f archivo, --folders = archivo Leer lista de archivos / directorios del archivo
--dir ignorado; compatibilidad histórica
- archivo ignorado; compatibilidad histórica
--mbox Las fuentes de entrada están en formato mbox
--mbx Las fuentes de entrada están en formato mbx
--max-size Omitir mensajes de más de b bytes;
el valor predeterminado es 256 KB, 0 implica que no hay límite
--showdots Muestra el progreso usando puntos
--progress Muestra el progreso usando la barra de progreso
--no-sync Omite la sincronización de la base de datos y el diario
después de aprender
-L, --local Funciona localmente, sin accesos a la red
--importar datos de migración de una versión anterior / no DB_File
bases de datos basadas
--clear Limpiar la base de datos existente
- Backup Backup, a STDOUT, base de datos existente
--restaurar Restaurar una base de datos desde el nombre de archivo
-u nombre de usuario, --username = nombre de usuario
Anular el nombre de usuario tomado del tiempo de ejecución
entorno, usado con SQL
-C ruta, --configpath = ruta, --config-file = ruta
Ruta al directorio de configuración estándar
-p prefs, --prefspath = archivo, --prefs-file = archivo
Establecer archivo de preferencias de usuario
--siteconfigpath = ruta Ruta para las configuraciones del sitio
(predeterminado: / etc / spamassassin)
--cf = 'config line' Línea adicional de configuración
-D, --debug [area = n, ...] Imprimir mensajes de depuración
-V, --version Versión impresa
-h, --help Imprimir mensaje de uso

DESCRIPCIÓN


Dada una selección típica de su correo entrante clasificado como spam o ham (no spam), este
La herramienta enviará cada correo a SpamAssassin, lo que le permitirá 'aprender' qué señales
significan spam, y que probablemente significan jamón.

Simplemente ejecute este comando una vez para cada una de sus carpetas de correo, y "aprenderá" del
correo en el mismo.

Tenga en cuenta que el estilo csh pegajoso en los nombres de la carpeta de correo es compatible; en otras palabras,
enumerar un nombre de carpeta como "*" analizará todas las carpetas que coincidan. Ver
"Mail :: SpamAssassin :: ArchiveIterator" para más detalles.

SpamAssassin recuerda los mensajes de correo que ya ha aprendido y no los volverá a aprender
esos mensajes de nuevo, a menos que utilice el --olvidar opción. Los mensajes detectados como spam
eliminar el marcado de SpamAssassin sobre la marcha.

Si comete un error y escanea un correo como ham cuando es spam, o viceversa, simplemente vuelva a ejecutar
este comando con la clasificación correcta, y el error será corregido.
SpamAssassin 'olvidará' automáticamente las indicaciones anteriores.

Los usuarios de "spam" que deseen realizar una formación de forma remota, a través de una red, deben investigar
el interruptor "spamc -L".

OPCIONES


--jamón
Aprenda los mensajes de entrada como jamón. Si ha aprendido previamente alguno de los mensajes
como spam, SpamAssassin los olvidará primero y luego los volverá a aprender como jamón.
Alternativamente, si los ha aprendido previamente como jamón, esta vez los omitirá.
alrededor. Si los mensajes ya se han filtrado a través de SpamAssassin, el alumno
ignorará cualquier modificación que pueda haber realizado SpamAssassin.

--correo no deseado
Aprenda los mensajes de entrada como spam. Si ha aprendido previamente alguno de los
mensajes como jamón, SpamAssassin los olvidará primero y luego los volverá a aprender como spam.
Alternativamente, si los ha aprendido previamente como spam, esta vez los omitirá.
alrededor. Si los mensajes ya se han filtrado a través de SpamAssassin, el alumno
ignorará cualquier modificación que pueda haber realizado SpamAssassin.

--carpetas=nombre de archivo, -f nombre de archivo
sa-learn leerá en la lista de carpetas del archivo especificado, una carpeta por línea
en el archivo. Si la carpeta tiene el prefijo "ham: type:" o "spam: type:", sa-learn
aprenderá esa carpeta correctamente, de lo contrario se asumirá que las carpetas son de
el tipo especificado por --jamón or --correo no deseado.

"type" anterior es opcional, pero es el mismo que el estándar para ArchiveIterator: mbox,
mbx, dir, file o detect (el valor predeterminado si no se especifica).

--mbox
sa-learn leerá los archivos que contienen los correos electrónicos que se aprenderán, y
procesarlos en formato mbox (uno o más correos electrónicos por archivo).

--mbx
sa-learn leerá los archivos que contienen los correos electrónicos que se aprenderán, y
procesarlos en formato mbx (uno o más correos electrónicos por archivo).

--use-ignora
No aprenda el mensaje si una dirección de remitente coincide con el elemento del archivo de configuración
"bayes_ignore_from" o una dirección to coincide con "bayes_ignore_to". La opción puede ser
se utiliza cuando se aprende de un archivo grande de mensajes de los cuales los mensajes de spam o
No se han eliminado los mensajes de spam.

--sincronizar
Sincronice la revista y las bases de datos. Tras sincronizar correctamente la base de datos con
las entradas en el diario, se elimina el archivo de diario.

--force-expire
Fuerza un intento de caducidad, independientemente de si puede ser necesario o no. Nota:
Esto no significa que los tokens realmente caduquen. Consulte la sección VENCIMIENTO
abajo.

Nota: "--force-expire" también hace que los datos del diario se sincronicen en el Bayes
bases de datos.

--olvidar
Olvídese de un mensaje dado previamente aprendido.

--dbpath
Permite una anulación de la línea de comandos del ruta_bayes opción de configuración.

--vertedero opción
Muestra el contenido de la base de datos de Bayes. Sin opción o con la que todas opción,
Se mostrarán todas las fichas mágicas y fichas de datos. magic solo mostrará magia
tokens, y datos solo mostrará los tokens de datos.

También puede utilizar el --expresa regular RE opción para especificar qué tokens mostrar en función de una
expresión regular.

--claro
Borre una base de datos de Bayes existente eliminando todos los rastros de la base de datos.

ADVERTENCIA: Esto es destructivo y debe usarse con cuidado.

--respaldo
Realiza un volcado de la base de datos de Bayes en formato legible por máquina / humano.

El volcado incluirá token y datos vistos. Es adecuado para la entrada de nuevo en el
--restore comando.

--restaurar=nombre de archivo
Realiza una restauración de la base de datos de Bayes definida por nombre de archivo.

ADVERTENCIA: Esta es una operación destructiva, los datos anteriores de Bayes se borrarán.

-h, --ayuda
Imprima el mensaje de ayuda y salga.

-u nombre de usuario, --nombre de usuario=nombre de usuario
Si se especifica, este nombre de usuario anulará el nombre de usuario tomado del tiempo de ejecución
medio ambiente. Puede utilizar esta opción para especificar usuarios en una configuración de usuario virtual
cuando se utiliza SQL como backend de Bayes.

NOTA: Esta opción no cambiará a la dada nombre de usuario, solo intentará actuar
en nombre de ese usuario. Debido a esto, necesitará tener los permisos adecuados para
poder cambiar archivos propiedad de nombre de usuario. En el caso de SQL, esto generalmente no es un
problema.

-C camino, --ruta de configuración=camino, --archivo de configuración=camino
Utilice la ruta especificada para ubicar los archivos de configuración distribuidos. Ignora el
directorios predeterminados (normalmente "/ usr / share / spamassassin" o similar).

--siteconfigpath=camino
Utilice la ruta especificada para localizar archivos de configuración específicos del sitio. Ignora el
directorios predeterminados (normalmente "/ etc / spamassassin" o similar).

--cf = 'config línea'
Agregue líneas adicionales de configuración directamente desde la línea de comandos, analizadas después de la
se leen los archivos de configuración. Múltiple --cf Se pueden usar argumentos, y cada uno será
considerada una línea separada de configuración.

-p preferencias, --prefspath=preferencias, - archivo de preferencias=preferencias
Leer las preferencias de puntuación del usuario de preferencias (normalmente "$ HOME / .spamassassin / user_prefs").

--Progreso
Imprime una barra de progreso (en STDERR) que muestra el progreso actual. En el caso donde no
Si se encuentra una terminal válida, esta opción se comportará de manera muy similar a la opción --showdots.

-D [zona,...], --depurar [zona,...]
Produce una salida de depuración. Si no se enumeran áreas, toda la información de depuración es
impreso. La salida de diagnóstico también se puede habilitar para cada área individualmente; cafe son los
área del código al instrumento. Por ejemplo, para producir resultados de diagnóstico en bayes,
aprender, y dns, usar:

spamassassin -D bayes, aprender, dns

Para obtener más información sobre qué áreas (también conocidas como canales) están disponibles,
ver la documentación en:

C<http://wiki.apache.org/spamassassin/DebugChannels>

Mensajes informativos de mayor prioridad que son adecuados para iniciar sesión en condiciones normales.
circunstancias están disponibles con un área de "información".

--sin sincronización
Omita el paso de sincronización lenta que normalmente tiene lugar después de cambiar la base de datos
entradas. Si planea aprender de muchas carpetas en un lote, o aprender muchas
mensajes individuales uno por uno, es más rápido usar este interruptor y ejecutar "sa-learn
--sync "una vez que se hayan escaneado todas las carpetas.

Aclaración: El estado de --sin sincronización anula el bayes_aprender_a_diario
opción de configuración. Si no se especifica, sa-learn aprenderá directamente a la base de datos.
Si se especifica, sa-learn aprenderá al archivo de diario.

Nota: --sincronizar y --sin sincronización se puede especificar en la misma línea de comando, que es ligeramente
confuso. En este caso, el --sin sincronización La opción se ignora ya que no hay aprendizaje.
operación.

-L, --local
No realice ningún acceso a la red mientras conoce los detalles sobre los mensajes de correo.
Esto acelerará el proceso de aprendizaje, pero puede resultar en una precisión ligeramente menor.

Tenga en cuenta que esto se ignora actualmente, ya que las versiones actuales de SpamAssassin no
realizar acceso a la red mientras aprende; pero las versiones futuras pueden.

--importar
Si anteriormente utilizó el alumno bayesiano de SpamAssassin sin el módulo "DB_File"
instalado, habrá creado archivos en otros formatos, como "GDBM_File",
"NDBM_File" o "SDBM_File". Este conmutador le permite migrar esos datos antiguos al
Formato "DB_File". Sobrescribirá cualquier dato actualmente en el "DB_File".

También se puede utilizar con el --dbpath camino opción para especificar la ubicación de los Bayes
archivos a utilizar.

MIGRACIÓN


Ahora hay varios módulos de almacenamiento backend disponibles para almacenar datos bayesianos del usuario.
Como tal, es posible que desee migrar de un backend a otro. Aquí hay un procedimiento simple
para migrar de un backend a otro.

Tenga en cuenta que si tiene bases de datos de usuarios individuales, deberá realizar una
procedimiento para cada uno de ellos.

sa-aprender --sincronizar
Esto sincronizará las entradas de diario pendientes

sa-learn --backup> backup.txt
Esto guardará todos sus datos de Bayes en un archivo de texto sin formato.

sa-aprender --claro
Esto es opcional, pero es bueno para borrar la base de datos anterior.

¡Repite!
En este punto, si tiene varias bases de datos, debe realizar el procedimiento anterior
para cada uno de ellos. (es decir, es necesario hacer una copia de seguridad de la base de datos de cada usuario antes de continuar).

Cambiar backends
Una vez que haya realizado una copia de seguridad de todas las bases de datos, puede actualizar su configuración para la nueva
backend de la base de datos. Esto implicará al menos la opción de configuración bayes_store_module y
puede involucrar algunas opciones de configuración adicionales dependiendo de lo que requiera el
módulo. (Por ejemplo, es posible que deba configurar una base de datos SQL).

sa-learn --restaurar copia de seguridad.txt
Nuevamente, debe hacer esto para cada base de datos.

Si está migrando a SQL, puede utilizar la opción -u opción en sa-aprender a
poblar la base de datos de cada usuario. De lo contrario, debe ejecutar sa-learn como el usuario que la base de datos
estás restaurando.

INTRODUCCIÓN A BAYESIANO Filtrado


(¡Gracias a Michael Bell por esta sección!)

Para obtener una descripción más detallada de cómo funciona esto, vaya a http://www.paulgraham.com/ y vea
"Un plan para el spam". Es razonablemente legible, incluso si las estadísticas me hacen explotar
urticaria

La versión corta semi-inexacta: con capacitación, un motor de heurística de spam puede tomar la
la mayoría de las palabras "spam" y "hammy" y aplican análisis probabilístico. Además, una vez dado
una base para el análisis, el motor puede continuar aprendiendo iterativamente aplicando tanto
los conjuntos de reglas no bayesianos y bayesianos juntos para crear una "inteligencia" en evolución.

SpamAssassin 2.50 y posterior admite el análisis de spam bayesiano, en forma de BAYES
normas. Esta es una característica nueva, bastante poderosa, y está deshabilitada hasta que se hayan enviado suficientes mensajes.
sido aprendido.

Las ventajas del análisis de spam bayesiano:

Puede reducir en gran medida los falsos positivos y los falsos negativos.
Aprende de su correo, por lo que se adapta a su flujo de correo electrónico único.

Una vez que comienza a aprender, puede seguir aprendiendo de SpamAssassin y mejorar con el tiempo.

Y los contras:

Se requiere una cantidad decente de mensajes antes de que los resultados sean útiles para ham / spam
determinación.
Es difícil explicar por qué un mensaje está o no marcado como spam.
es decir: una regla sencilla, que coincide, digamos, con "VIAGRA" es fácil de entender. Si se
genera un falso positivo o falso negativo, es bastante fácil entender por qué.

Con el análisis bayesiano, todo son probabilidades, "porque el pasado dice que es probable
ya que esto cae en una distribución probabilística común al spam pasado en sus sistemas ".
¡Dígaselo a sus usuarios! Dígale eso al cliente cuando le pregunte "¿qué puedo hacer para
cambiar esto ". (Por cierto, la respuesta en este caso es" usar listas blancas ").

Tomará espacio en disco y memoria.
Las bases de datos que mantiene requieren muchos recursos para almacenar y usar.

CONSIGUIENDO EMPEZADO


¿Aún interesado? Bien, aquí están las pautas para que esto funcione.

Primero una descripción general de alto nivel:

Construya una muestra significativa tanto de jamón como de spam.
Sugiero varios miles de cada uno, colocados en directorios o buzones de correo SPAM y HAM.
Sí, DEBE clasificar esto a mano; de lo contrario, los resultados no serán mucho mejores que
SpamAssassin por sí solo. Verifique el spam / haminess de CADA mensaje. Estás
Se insta a evitar el uso de un corpus (muestra) disponible públicamente; esto debe tomarse de
SU servidor de correo, si ha de ser estadísticamente útil. De lo contrario, los resultados pueden ser
bastante sesgado.

Utilice esta herramienta para enseñar a SpamAssassin sobre estas muestras, así:
sa-learn --spam / ruta / a / carpeta de correo no deseado /
sa-learn --ham / ruta / a / ham / carpeta
...

Deje que SpamAssassin continúe, aprendiendo cosas. Cuando encuentre jamón y spam, agregará el
"tokens interesantes" a la base de datos.

Si necesita que SpamAssassin se olvide de mensajes específicos, utilice el --olvidar .
Esto se puede aplicar a jamón o spam que se ha ejecutado a través del sa-aprender de los empleados.
Es un poco complicado, en realidad, reducir la ponderación de los tokens específicos en ese
mensaje (solo si ese mensaje se ha procesado antes).

Aprender de mensajes individuales usa un comando como este:
sa-learn --ham --no-sync mensaje de correo

Esto es útil para vincular a una clave en su agente de usuario de correo. Es muy rapido, como todos
las cosas que consumen mucho tiempo se aplazan hasta que se ejecuta con la opción "--sync".

El autoaprendizaje está habilitado de forma predeterminada
Si no tiene un corpus de correo guardado para aprender, puede dejar que SpamAssassin
aprende automáticamente el correo que recibe. Si está aprendiendo automáticamente desde cero,
la cantidad de correo que reciba determinará cuánto tiempo hasta que se cumplan las reglas de BAYES_ *
activado.

EFICAZ ENTRENAMIENTO


Los filtros de aprendizaje requieren capacitación para ser efectivos. Si no los entrenas, no lo harán
trabaja. Además, debe capacitarlos con nuevos mensajes con regularidad para mantenerlos actualizados.
fecha, o sus datos se volverán obsoletos y afectarán la precisión.

Necesitas entrenar tanto con spam y correos de jamón. Un tipo de correo por sí solo no tendrá ningún
efecto.

Tenga en cuenta que si sus carpetas de correo contienen cosas como spam reenviado, discusiones sobre spam
capturando reglas, etc., esto causará problemas. Debes evitar escanear esos mensajes
si es posible. (Una forma sencilla de hacer esto es moverlos a un lado, a una carpeta que no sea
escaneado.)

Si los mensajes de los que está aprendiendo ya se han filtrado a través de SpamAssassin, el
El alumno compensará esto. De hecho, aprende cómo se vería cada mensaje.
si había ejecutado "spamassassin -d" por adelantado.

Otra cosa a tener en cuenta es que, por lo general, debes apuntar a entrenar con al menos 1000
mensajes de spam y 1000 mensajes de radioaficionados, si es posible. Más es mejor, pero nada más
alrededor de 5000 mensajes no mejora la precisión de manera significativa en nuestras pruebas.

Tenga cuidado de entrenar desde la misma fuente; por ejemplo, si entrena sobre spam antiguo,
pero nuevo correo de radioaficionado, entonces el clasificador pensará que un correo con un sello de fecha antiguo es
probablemente sea spam.

También vale la pena señalar que entrenar con una cantidad muy pequeña de jamón producirá
resultados atroces. Debes apuntar a entrenar con al menos la misma cantidad (o más si
posible!) de datos de radioaficionados que el spam.

De forma continua, es mejor seguir entrenando el filtro para asegurarse de que tenga
datos con los que trabajar. Hay varias maneras de hacer esto:

1. Aprendizaje supervisado
Esto significa mantener una copia de todo o la mayor parte de su correo, separado en spam y ham.
montones, y reentrenamiento periódico usando esos. Produce los mejores resultados, pero
requiere más trabajo de usted, el usuario.

(Una manera fácil de hacer esto, por cierto, es crear una nueva carpeta para los mensajes 'eliminados',
y en lugar de eliminarlos de otras carpetas, simplemente muévalos allí.
Luego, guarde todo el correo no deseado en una carpeta separada y nunca lo elimine. Mientras recuerdes
para mover correos mal clasificados al conjunto de carpetas correcto, es bastante fácil mantenerse al día
hasta la fecha.)

2. Aprendizaje no supervisado de la clasificación bayesiana
Otra forma de entrenar es encadenar los resultados del clasificador bayesiano de nuevo en el
formación, por lo que refuerza sus propias decisiones. Esto solo es seguro si luego vuelves a entrenar
basándose en los errores que descubra.

SpamAssassin no admite este método, debido a resultados experimentales que fuertemente
indican que no funciona bien, y dado que Bayes es solo una parte del resultado
puntuación presentada al usuario (mientras que Bayes puede haber tomado una decisión incorrecta sobre un
mail, puede haber sido anulado por otro sistema).

3. Aprendizaje no supervisado de las reglas de SpamAssassin
También llamado 'autoaprendizaje' en SpamAssassin. Basado en análisis estadístico de la
Tasas de éxito de SpamAssassin, podemos entrenar automáticamente la base de datos bayesiana con un
cierto grado de confianza en que nuestros datos de entrenamiento son precisos.

Debería complementarse con alguna formación supervisada además, si es posible.

Este es el valor predeterminado, pero se puede desactivar configurando la configuración de SpamAssassin
parámetro "bayes_auto_learn" a 0.

4. Formación basada en errores
Esto significa capacitarse en una pequeña cantidad de correos electrónicos, luego solo capacitar en mensajes que
SpamAssassin clasifica incorrectamente. Esto funciona, pero lleva más tiempo hacerlo bien
de lo que lo haría una sesión de entrenamiento completa.

Utilice sa-learnp en línea utilizando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad




×
Anuncio
❤ ️Compre, reserve o adquiera aquí: sin costo, ayuda a mantener los servicios gratuitos.