Ito ang Linux app na pinangalanang Tokenizers na ang pinakabagong release ay maaaring ma-download bilang v0.22.1sourcecode.tar.gz. Maaari itong patakbuhin online sa libreng hosting provider na OnWorks para sa mga workstation.
I-download at patakbuhin online ang app na ito na pinangalanang Tokenizers na may OnWorks nang libre.
Sundin ang mga tagubiling ito upang patakbuhin ang app na ito:
- 1. Na-download ang application na ito sa iyong PC.
- 2. Ipasok sa aming file manager https://www.onworks.net/myfiles.php?username=XXXXX kasama ang username na gusto mo.
- 3. I-upload ang application na ito sa naturang filemanager.
- 4. Simulan ang OnWorks Linux online o Windows online emulator o MACOS online emulator mula sa website na ito.
- 5. Mula sa OnWorks Linux OS na kasisimula mo pa lang, pumunta sa aming file manager https://www.onworks.net/myfiles.php?username=XXXX gamit ang username na gusto mo.
- 6. I-download ang application, i-install ito at patakbuhin ito.
MGA LALAKI
Ad
Mga Tokenizer
DESCRIPTION
Fast State-of-the-art tokenizer, na-optimize para sa parehong pananaliksik at produksyon. Ang mga Tokenizer ay nagbibigay ng pagpapatupad ng mga pinakaginagamit na tokenizer ngayon, na may pagtuon sa performance at versatility. Ang mga tokenizer na ito ay ginagamit din sa mga Transformer. Magsanay ng mga bagong bokabularyo at mag-tokenize, gamit ang mga pinakaginagamit na tokenizer ngayon. Napakabilis (parehong pagsasanay at tokenization), salamat sa pagpapatupad ng Rust. Tumatagal ng wala pang 20 segundo upang ma-tokenize ang isang GB ng text sa CPU ng isang server. Madaling gamitin, ngunit lubhang maraming nalalaman. Idinisenyo para sa parehong pananaliksik at produksyon. Buong pagsubaybay sa pagkakahanay. Kahit na may mapanirang normalisasyon, laging posible na makuha ang bahagi ng orihinal na pangungusap na tumutugma sa anumang token. Ang lahat ba ng pre-processing: Truncation, Padding, ay nagdaragdag ng mga espesyal na token na kailangan ng iyong modelo.
Mga tampok
- Magsanay ng mga bagong bokabularyo at mag-tokenize, gamit ang mga pinakaginagamit na tokenizer ngayon
- Napakabilis (parehong pagsasanay at tokenization), salamat sa pagpapatupad ng Rust. Tumatagal ng wala pang 20 segundo upang ma-tokenize ang isang GB ng text sa CPU ng isang server
- Madaling gamitin, ngunit lubhang maraming nalalaman
- Idinisenyo para sa parehong pananaliksik at produksyon
- Buong pagsubaybay sa pagkakahanay
- Pagputol, Padding, idagdag ang mga espesyal na token na kailangan ng iyong modelo
Wika ng Programming
Kalawang
Kategorya
Ito ay isang application na maaari ding makuha mula sa https://sourceforge.net/projects/tokenizers.mirror/. Na-host ito sa OnWorks upang mapatakbo online sa pinakamadaling paraan mula sa isa sa aming mga libreng Operative System.