GoGPT Best VPN GoSearch

온웍스 파비콘

spamoracle - 클라우드에서의 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 제공업체에서 spamoracle을 실행하세요.

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 spamoracle 명령입니다.

프로그램:

이름


spamoracle - 스팸 분류 도구

개요


스팸 [-구성 conf의] [-f 데이터베이스] [ 사서함 ... ]

스팸 [-구성 conf의] [-f 데이터베이스] 더하다 [-v] -스팸 스팸함 ... -좋은 굿박스 ...

스팸 [-구성 conf의] [-f 데이터베이스] test [-분 조사] [-최대 조사] [ 사서함 ... ]

스팸 [-구성 conf의] [-f 데이터베이스] 스탯 [ 사서함 ... ]

스팸 [-구성 conf의] [-f 데이터베이스] 명부 정규 표현식 ...

스팸 [-구성 conf의] [-f 데이터베이스] 백업 > 백업파일

스팸 [-구성 conf의] [-f 데이터베이스] 복원 < 백업파일

스팸 [-구성 conf의] [-f 데이터베이스] [ 사서함 ... ]

기술


SpamOracle은 "스팸"(원치 않는 상업용 전자 메일)을 탐지하고 필터링하는 데 도움이 되는 도구입니다.
우편). 이메일에 등장하는 단어를 통계적으로 분석하여 진행되며,
사용자가 제공한 알려진 코퍼스에서 발견된 단어의 빈도를 비교합니다.
스팸 및 알려진 합법적인 이메일. 분류 알고리즘은 Bayes의 분류 알고리즘을 기반으로 합니다.
공식은 Paul Graham의 논문에 설명되어 있습니다. A 계획 을 통한 스팸,
http://www.paulgraham.com/spam.html.

이 프로그램은 다음과 함께 작동하도록 설계되었습니다. 프로메일(1). 결과는
분석은 추가 메시지 헤더로 출력됩니다. X-스팸: 다음 , 아니 or 알 수없는,
추가 세부정보도 포함됩니다. 그러면 procmail 규칙이 이를 테스트할 수 있습니다. X-스팸: 헤더 및 전달
해당 사서함으로 이메일을 보내세요.

또한 SpamOracle은 MIME 첨부 파일을 분석하여 관련 정보를 추출합니다.
MIME 유형, 문자 인코딩, 첨부 파일 이름 등을 요약하여
추가 X-첨부 파일: 머리글. 이를 통해 procmail은 이메일을 쉽게 거부할 수 있습니다.
의심스러운 첨부 파일(예: 종종 바이러스를 나타내는 Windows 실행 파일)이 포함되어 있습니다.

요구 사항 제한 사항


SpamOracle을 사용하려면 메일이 쉘이 있는 Unix 시스템으로 전달되어야 합니다.
계정. 이 기계에는 다음이 있어야 합니다. 프로메일(1) (참조 http://www.procmail.org/)가 설치되었습니다.
너의 ~/.앞으로 파일은 수신되는 모든 이메일을 실행하도록 설정되어야 합니다. 프로메일(1). 만약에
귀하의 메일 서버는 POP 또는 IMAP 프로토콜을 지원합니다. 페치메일(1) ~
서버에서 메일을 가져와서 로컬 컴퓨터로 배달하세요.

SpamOracle이 "학습"하는 메시지 모음을 제공하기 위해 약 1000개의 아카이브를 제공합니다.
귀하의 이메일이 필요합니다. 아카이브는 수동 또는 반자동으로 분할되어야 합니다.
알려진 스팸과 알려진 좋은 메시지. 자료에서 잘못 분류된 메시지(예: 스팸)
좋은 메시지 중에 실수로 저장됨)는 효율성을 떨어뜨립니다.
분류. 아카이브는 Unix 메일함 형식 또는 "파일당 하나의 메시지"여야 합니다.
형식(MH에 따라). Emacs의 Babyl과 같은 다른 형식은 지원되지 않습니다.

SpamOracle이 사용하는 "단어" 개념은 서유럽 언어에 치우쳐 있습니다.
즉, ISO Latin-1 및 Latin-9 문자 집합입니다. JIS 인코딩에 대한 예비 지원
컴파일 타임에 일본어를 선택할 수 있습니다. SpamOracle을 수신하면 제대로 작동하지 않습니다.
중국어나 한국어 등 다른 문자 집합으로 작성된 합법적인 이메일이 많이 있습니다.

초기화


말뭉치에서 단어 빈도 데이터베이스를 구축하려면 다음을 수행하십시오.

rm ~/.spamoracle.db
스팸 더하다 -v -좋은 좋은 메일 -스팸 스팸메일

기본적으로 데이터베이스는 파일에 저장됩니다. .spamoracle.db 홈 디렉토리에서.
이는 다음으로 재정의될 수 있습니다. -f 옵션 : 스팸 -f 내 데이터베이스 더하다 ... The -v option
말뭉치를 처리하는 동안 진행 정보를 인쇄합니다.

이는 말뭉치의 스팸이 아닌 좋은 메시지가 파일에 저장되어 있다고 가정합니다.
좋은 메일, 그리고 파일에 있는 알려진 스팸 메시지 스팸메일. 코퍼스를 가져올 수도 있습니다.
여러 파일의 메시지를 처리하거나 SpamOracle을 여러 번 호출하여 처리합니다.

스팸 더하다 -좋은 좋은 메일 1 ... 좋은 메일N
스팸 더하다 -스팸 스팸메일1 ... 스팸메일P

테스트 L' 데이터 베이스


데이터베이스가 올바르게 구축되었는지 확인하고,
SpamOracle이 수행한 통계 분석을 통해 사서함에서 "테스트" 모드를 호출합니다.
방금 말뭉치를 구축하는 데 사용했습니다.

스팸 test 좋은 메일 | 더 보기
스팸 test 스팸메일 | 더 보기

지정된 편지함에 있는 각 메시지에 대해 다음과 같은 요약이 표시됩니다.

부터 BBO <[이메일 보호]>
제목 : 체크 아웃
점수: 1.00 -- 15
세부: 재정비:98 $$$$:98 서핑:98 ASP:95 클릭:93 케이블:92
즉시:90 https:88 인터넷:87 www:86 U4:85 다음이 아닙니다:14 월:81
com:75 서핑:75
첨부 파일 : cset="GB2312" 유형="응용 프로그램/옥텟-스트림"
이름="Guangwen4.zip"
파일 : 받은편지함/314

처음 두 줄은 단지 부터 그리고 제목 : 원본 메시지의 필드.

The 점수: 줄은 분석 결과를 요약합니다. 첫 번째 숫자(0.0과
1.0)은 메시지가 실제로 스팸일 확률 --- 또는 이와 동등한 수준입니다.
말뭉치에 있는 스팸 메시지와 메시지의 유사성. 두 번째 숫자(
0에서 15 사이의 정수)는 메시지에서 발견된 "흥미로운" 단어의 수입니다.
"흥미로운" 단어는 말뭉치에서 적어도 5번 나타나는 단어입니다. 예제에서는
흥미로운 단어가 15개(최대)이고 점수는 1.00입니다. 이는 스팸을 나타냅니다.
높은 확실성.

The 세부: 라인은 점수에 대한 설명을 제공합니다. 가장 흥미로운 15가지를 나열합니다.
메시지에서 발견된 단어, 즉 확률이 다음과 같은 15개의 흥미로운 단어입니다.
스팸을 나타내는 것은 중립 0.5에서 가장 멀리 떨어져 있습니다. 각 단어는 해당 단어와 함께 제공됩니다.
확률이 아닌 백분율(01~99)로 작성된 개별 점수
공간을 절약하기 위해. 여기서는 다음과 같은 매우 "스팸적인" 단어를 많이 볼 수 있습니다. $ $ $ $ or
클릭, 확률은 각각 0.98과 0.93이고 다음과 같은 몇 가지 "순진한" 단어가 있습니다.
아니다 (확률 0.14). 그만큼 U4 확률이 0.85인 단어는 실제로 의사 단어입니다.
4글자 단어를 모두 대문자로 표현하는 것입니다. 스패머들이 좋아하는 것입니다.

The 첨부 파일 : 줄에는 이 메시지의 MIME 첨부 파일에 대한 일부 정보가 요약되어 있습니다.
여기에는 다음 유형의 첨부 파일이 하나 있습니다. 애플리케이션/octect-스트림, 파일 이름 광원4.zip,
그리고 문자셋 GB2312 (중국어 인코딩).

The 파일 : 줄에는 테스트 중인 파일이 표시됩니다.

평소에는 달릴 때 스팸 test 좋은 메일, 대부분의 메시지는 낮은 값으로 나와야 합니다.
점수(0.2 이하), 그리고 달릴 때 스팸 test 스팸메일, 대부분의 메시지가 와야 합니다
높은 점수(0.8 이상)로 아웃됩니다. 그렇지 않다면 당신의 코퍼스가 별로 좋지 않거나 좋지 않은 것입니다.
스팸과 비스팸으로 분류됩니다. 이상값을 빠르게 확인하려면
메시지 요약이 표시되는 점수 간격은 다음과 같습니다.

스팸 test -분 0.2 좋은 메일 | 더 보기
# 좋은 메일 점수 >= 0.2
스팸 test -최대 0.8 스팸메일 | 더 보기
# 스팸 메일 점수 <= 0.8

이제 좀 더 어려운 테스트를 위해 필터링되지 않은 이메일이 포함된 사서함을 사용합니다.
스팸과 합법적인 이메일을 혼합하여 SpamOracle을 통해 실행합니다.

스팸 test 내 메일함 | 적게

오라클이 나머지 스팸을 얼마나 잘 인식하는지 놀라워하세요! 결과가 그렇지 않다면
정말 놀랍습니다. 어떤 스팸은 인식하기에는 너무 짧다는 점을 명심하세요.
충분히 의미있는 단어). 또한 코퍼스가 너무 작거나 상태가 좋지 않을 수도 있습니다.
분류된...

마킹 필터링 들어오는 E-MAIL


데이터베이스가 구축되면 SpamOracle을 통해 수신 이메일을 실행할 준비가 된 것입니다. 그만큼
명령 스팸 표준 입력에서 하나의 이메일을 읽고 이를 표준 입력에 복사합니다.
두 개의 헤더가 삽입된 출력: X-스팸: 그리고 X-첨부 파일:. 그만큼 X-스팸: 헤더에는 하나가 있습니다
다음 형식:

X-스팸: 예; 점수; 세부사항 논의

or

X-스팸: 아니; 점수; 세부사항 논의

or

X-스팸: 알려지지 않은; 점수; 세부사항 논의

The 점수 그리고 세부사항 논의 에 대해 설명된 대로입니다. 스팸 test.

The /아니/알 수없는 태그는 분석 결과를 종합합니다. 점수를 의미합니다
>= 0.8이고 적어도 5개의 흥미로운 단어가 발견되었습니다. 아니 점수가 <= 0.2임을 의미합니다.
적어도 5개의 흥미로운 단어가 발견되었습니다. 알 수없는 그렇지 않으면 반환됩니다. 그만큼 알 수없는
이 경우는 일반적으로 흥미로운 단어가 충분하지 않은 매우 짧은 메시지에 대해 발생합니다.
녹이다.

The X-첨부 파일: 헤더에는 다음과 같은 정보가 포함되어 있습니다. 첨부 파일 : 출력
스팸 test, 즉 메시지 첨부 파일의 요약입니다.

SpamOracle을 통해 수신된 이메일을 자동으로 처리하고 결과에 따라 조치를 취하려면
분석의 경우 파일에 다음 "레시피"를 삽입하기만 하면 됩니다. ~/.procmailrc:

:0fw
| /usr/local/bin/spamoracle

:0
* ^X-스팸: 예;
스팸함

이러한 비밀 명령의 의미는 다음과 같습니다.

- 모든 메일을 다음을 통해 실행합니다. 스팸 명령. (스파모라클이 설치되지 않은 경우
/ usr / local / bin, 필요에 따라 경로를 조정합니다.) 이렇게 하면 메시지에 두 개의 헤더가 추가됩니다. X-
스팸 : 그리고 X-첨부 파일:, 스팸 분석 결과 및 첨부 파일 설명
분석.

- 우리가 가지고 있다면 X-스팸: 헤더, 메시지를 파일로 전달 스팸함 오히려
일반 우편함. 아마, 당신은 읽을 것입니다 스팸함 가끔이지만 덜 자주
일반 우편함보다 대담한 사용자는 넣을 수 있습니다 / dev / null 대신 스팸함 그냥
메시지를 버리십시오. 단, SpamOracle을 한동안 사용하기 전까지는 그렇게 하지 마십시오.
결과에 만족합니다. SpamOracle의 오탐률(예: 합법적인 메일)
스팸으로 분류됨)은 낮지만(0.1%) null은 아닙니다. 따라서 스팸으로 추정되는 내용을 저장하는 것이 좋습니다.
어딘가에 두고 수시로 빠르게 스캔해 보세요.

약간의 첨부 파일 기반 필터링을 즐기고 싶다면 여기에 몇 가지 procmail 규칙이 있습니다.
그에 대한:

:0
* ^X-첨부 파일:.*name=".*\.(pif|scr|exe|bat|com)"
스팸함

:0
* ^X-첨부 파일:.*type="audio/(x-wav|x-midi)
스팸함

:0
* ^(콘텐츠 유형:.*|X-첨부 파일:.*cset="|^제목:.*=\?)(ks_c|gb2312|iso-2|euc-|big5|windows-1251)
스팸함

첫 번째 규칙은 첨부 파일로 Windows 실행 파일이 있는 모든 메일을 스팸으로 처리합니다.
이러한 메일은 일반적으로 바이러스에 의해 전송됩니다. 두 번째 규칙은 첨부 파일과 동일합니다.
x-wav 또는 x-midi 유형입니다. 나는 일반적으로 이메일로 음악을 받지 않습니다.
이메일 바이러스는 이러한 첨부 파일 유형을 좋아하는 것 같습니다. 세 번째 규칙은 다음과 같은 경우를 스팸으로 처리합니다.
한국어, 중국어, 일본어, 일본어에 해당하는 문자 인코딩을 사용하는 메일
키릴 문자.

업데이트 중 L' 데이터 베이스


언제든지 알려진 스팸이나 알려진 적법한 메시지를 데이터베이스에 추가할 수 있습니다.
를 사용하여 스팸 더하다 명령.

예를 들어 스팸으로 분류되지 않은 메시지를 발견한 경우 다음을 통해 실행하세요.
스팸 더하다 -스팸, SpamOracle이 실수로부터 배울 수 있도록 합니다. (추가 없이
인수를 사용하면 이 명령은 표준 입력에서 단일 메시지를 읽고 이를 다음과 같이 기록합니다.
스팸.) 아래 바보(1) 예를 들어 스팸 메시지를 강조 표시하고 다음을 입력하세요.

|스파모라클 더하다 -스팸

마찬가지로, 스팸함을 확인하는 동안 합법적인 메시지를 발견하면 다음을 통해 실행해 보세요.
스팸 더하다 -좋은.

또 다른 옵션은 더 많은 알려진 스팸이나 더 많은 알려진 좋은 메시지를 사서함에 수집하는 것입니다.
파일을 저장하고 가끔은 스팸 더하다 -좋은 new_good_mails or 스팸 더하다 -스팸
new_spam_mails.

쿼리 중 L' 데이터 베이스


귀하의 교화 및 오락을 위해 데이터베이스의 내용을 다음으로 쿼리할 수 있습니다.
정규식. 그만큼 스팸 명부 정규 표현식 명령은 데이터베이스의 모든 단어를 나열합니다.
그 경기 정규 표현식 (Emacs 스타일 정규 표현식)과 그 수
스팸 메일과 좋은 메일에서 발생합니다. 예를 들어:

스팸 명부 '.*' # 표시 모든 -- 명부!
스팸 명부 '섹스.*'
스팸 명부 '리눅스.*'

데이터 베이스 백업


SpamOracle이 사용하는 데이터베이스는 인간이 접근할 수 없는 컴팩트한 바이너리 형식으로 저장됩니다.
읽을 수 있습니다. 또한 이 형식은 SpamOracle의 이후 버전에서 변경될 수 있습니다. 에게
백업 및 업그레이드를 용이하게 하고, 데이터베이스 내용을 한 번에 조작할 수도 있습니다.
휴대용, 텍스트 형식.

The 스팸 백업 명령은 데이터베이스의 내용을 표준 출력으로 덤프합니다.
텍스트, 이식 가능한 형식.

The 스팸 복원 명령은 표준 입력에서 이러한 덤프를 읽고 다시 작성합니다.
이 데이터가 있는 데이터베이스.

SpamOracle의 최신 버전으로 업그레이드하기 위해 권장되는 절차는 다음과 같습니다.

# 전에, 업그레이드:
스팸 백업 > 백업파일
# 업그레이드 스팸오라클
# 복원 전에, 데이터베이스
스팸 복원 < 백업파일

구성 중 필터링 매개 변수


메시지 분류를 관리하는 많은 매개변수는 다음을 통해 구성할 수 있습니다.
구성 파일. 기본적으로 구성은 파일에서 읽혀집니다. .spamoracle.conf
사용자의 홈 디렉토리에 있습니다. 다른 구성 파일을 다음에서 지정할 수 있습니다.
다음을 사용하는 명령줄 -구성 옵션 : 스팸 -구성 내 구성 파일 ...

구성 가능한 매개변수 목록과 구성 파일 형식이 설명되어 있습니다.
in spamoracle.conf(5).

모든 매개변수에는 합리적인 기본값이 있지만
이를 조정하여 추가로 분류합니다. 변경 사항의 영향을 확인하려면 다음을 사용하세요.
test or 스탯 명령 스팸. 그만큼 스팸 스탯 명령은 하나를 인쇄합니다.
사서함에서 발견된 스팸, 스팸이 아닌 메시지, 알 수 없는 메시지 수에 대한 요약
인수로 주어집니다.

기술 세부 사항


SpamOracle의 "단어" 개념은 문자, 문자,
작은따옴표 및 대시(-). 영어가 아닌 유럽 언어에 대한 지원이 컴파일된 경우
에서 단어 문자에는 해당 언어에 대한 관련 악센트 문자도 포함됩니다.
질문. 모든 단어는 소문자로 매핑되고, 악센트 문자는 소문자로 매핑됩니다.
해당 비악센트 문자.

숫자, 점, 숫자 중 3~12개의 문자도 단어를 구성합니다.
쉼표, 달러, 유로 및 백분율 기호.

또한 세 개 이상의 대문자를 연속으로 사용하면 의사 단어가 생성됩니다. Un 어디에 n
달리는 길이입니다. 마찬가지로 XNUMX개 이상의 비ASCII 문자(코드 >=
128) 의사 단어를 생성합니다. Wn 어디에 n 달리는 길이입니다.

예를 들어 다음 텍스트는 다음과 같습니다.

여름 in 영어 is "에테" in 프랑스어

컴파일 시 프랑스어 지원이 선택되었다고 가정하면 다음 단어로 처리됩니다.
시각:

U5 여름 영어 어서! 프랑스 국민 W3

프랑스어 지원이 선택되지 않은 경우:

U5 여름 영어 프랑스 국민 W3

메시지에서 추출된 단어를 보려면 다음을 실행하십시오. 스팸 명령.
표준 입력에서 단일 메시지를 읽거나 사서함에서 모든 메시지를 읽습니다.
인수로 주어진 파일은 메시지를 단어로 분해하고 단어를 인쇄합니다.

RANDOM 노트


데이터베이스 파일은 다음을 사용하여 압축할 수 있습니다. gzip을(1) 디스크 공간을 절약하기 위해
느린 스팸 운영. 데이터베이스 파일이 -f 옵션에는
확장자 .gz, 스팸 시작 시 자동으로 압축을 풀고 다시 압축합니다.
업데이트 후.

메일이 MH 형식으로 저장된 경우 "명령줄이 너무 깁니다" 오류가 발생할 수 있습니다.
많은 작은 파일을 처리하려고 합니다. 스팸 더하다 명령(예: 수행할 때)
스팸 더하다 -좋은 아카이브/*/* -스팸 스팸/*
대신 다음과 같이 하십시오.
발견 기록 보관소 -유형 f -인쇄 | xargs 스팸 더하다 -좋은
발견 스팸 -유형 f -인쇄 | xargs 스팸 더하다 -스팸

onworks.net 서비스를 사용하여 온라인으로 스팸을 사용하세요


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad




×
광고
❤️여기에서 쇼핑, 예약, 구매하세요. 비용이 들지 않아 서비스를 무료로 유지하는 데 도움이 됩니다.