Tiktoken이라는 리눅스 앱으로, 최신 버전은 0.11.0sourcecode.tar.gz로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks에서 Tiktoken이라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린샷:
틱톡
설명 :
tiktoken은 OpenAI 모델과 함께 사용하도록 설계된 고성능 토크나이저 라이브러리(바이트 쌍 인코딩, BPE 기반)입니다. 최소한의 오버헤드로 텍스트를 토큰 ID로 인코딩 및 디코딩하는 작업을 효율적으로 처리합니다. 토큰화는 모델용 텍스트를 준비하는 데 있어 기본적인 단계이므로, tiktoken은 모델 컨텍스트(예: OpenAI 내부 토큰화 일치)에서 속도, 메모리 및 정확성을 고려하여 최적화되어 있습니다. 이 저장소는 여러 인코딩(예: "cl100k_base")을 지원하며, 사용자가 다양한 모델 컨텍스트에 맞게 인코딩 이름을 변경할 수 있도록 합니다. 또한 사용자 지정 인코딩을 등록할 수 있도록 확장 메커니즘을 제공합니다. 내부적으로는 핵심 토크나이저 로직(종종 Rust 또는 효율적인 저수준 코드로 구현됨), 토큰 인코딩, 디코딩 및 계산을 위한 API, 그리고 Python(및 경우에 따라 다른 언어)과의 바인딩 계층을 포함하여 사용이 편리합니다.
기능
- 텍스트 ↔ 토큰 ID 변환을 위한 빠른 BPE 기반 토크나이저
- 여러 인코딩 체계 지원(예: "cl100k_base")
- 토큰을 효율적으로 인코딩, 디코딩하고 계산하여 신속한 길이 제어를 위한 API
- 사용자 정의 인코딩을 등록하기 위한 확장/플러그인 메커니즘
- 다양한 환경에서의 통합을 위한 언어 바인딩(Python/Rust 등)
- 비용 추정, 절단 논리 및 OpenAI 모델 기대치와의 정렬에 사용됩니다.
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/tiktoken.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있습니다.