นี่คือคำสั่ง html2text ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
html2text - ตัวแปลง HTML เป็นข้อความขั้นสูง
เรื่องย่อ
html2ข้อความ -ช่วยด้วย
html2ข้อความ -version
html2ข้อความ [ - ไม่แยกวิเคราะห์ | - ตรวจสอบ ] [ -debug-สแกนเนอร์ ] [ -debug-parser ] [ -rcfile เส้นทาง ] [
สไตล์ ( กะทัดรัด | สวย - -ความกว้าง ความกว้าง ] [ -o ไฟล์เอาต์พุต ] [ -ขุนนาง ] [ -แอสกี้ |
-utf8 ] [ -โนเมตะ ] [ ไฟล์อินพุต -
DESCRIPTION
html2ข้อความ อ่านเอกสาร HTML จาก ไฟล์อินพุตs จัดรูปแบบแต่ละรายการเป็นกระแสของ
อักขระข้อความธรรมดา และเขียนผลลัพธ์ไปยังเอาต์พุตมาตรฐาน (หรือลงใน ไฟล์เอาต์พุตถ้า
-o ใช้ตัวเลือกบรรทัดคำสั่ง)
ถ้าไม่ ไฟล์อินพุตs ระบุไว้ในบรรทัดคำสั่ง html2ข้อความ อ่านจากอินพุตมาตรฐาน
เส้นประเป็น ไฟล์อินพุต เป็นอีกทางเลือกหนึ่งในการระบุอินพุตมาตรฐาน
html2ข้อความ เข้าใจโครงสร้าง HTML 3.2 ทั้งหมด แต่สามารถแสดงผลได้เพียงบางส่วนเนื่องจาก
ข้อจำกัดของรูปแบบการแสดงข้อความ อย่างไรก็ตาม ทางโครงการพยายามจัดหาสิ่งดี ๆ
ทดแทนองค์ประกอบที่ไม่สามารถแสดงผลได้ html2ข้อความ แยกวิเคราะห์อินพุต HTML 4 ด้วย แต่
ไม่ประสบความสำเร็จเท่ากับตัวประมวลผล HTML อื่นๆ เสมอไป นอกจากนี้ยังยอมรับผิดวากยสัมพันธ์
ป้อนข้อมูลและพยายามตีความ "อย่างสมเหตุสมผล"
ทาง html2ข้อความ รูปแบบเอกสาร HTML ถูกควบคุมโดยการจัดรูปแบบคุณสมบัติ read
จากไฟล์ RC html2ข้อความ พยายามอ่าน $HOME/.html2textrc (หรือไฟล์ที่ระบุโดย
-rcfile ตัวเลือกบรรทัดคำสั่ง); ถ้าไฟล์นั้นไม่สามารถอ่านได้ html2ข้อความ พยายามอ่าน
/etc/html2textrc. หากไม่มีไฟล์ RC สามารถอ่านได้ (หรือหากไฟล์ RC ไม่ได้แทนที่ทั้งหมด
คุณสมบัติการจัดรูปแบบ) จากนั้นจะถือว่าค่าเริ่มต้นที่ "สมเหตุสมผล" รูปแบบไฟล์ RC คือ
อธิบายไว้ใน html2textrc.html(5) หน้าคู่มือ
เวอร์ชันเดเบียนของ html2ข้อความ ยังสามารถบันทึกอินพุตและเอาต์พุตได้ (ดู
/usr/share/doc/html2text/README.Debian สำหรับข้อมูลเพิ่มเติม) html2ข้อความ พยายามดึงการเข้ารหัส
จากเอกสาร HTML หากไม่ได้ระบุการเข้ารหัส คุณสามารถใช้ -แอสกี้ และ -utf8 ตัวเลือก
เอาต์พุตถูกแปลงเป็นชุดอักขระสถานที่ของผู้ใช้ (LC_CTYPE)
OPTIONS
-โนเมตะ
โดยค่าเริ่มต้น . เวอร์ชันเดเบียน html2ข้อความ ใช้แท็ก 'meta http-equiv' สำหรับอินพุต
การบันทึก ตัวเลือกนี้จะยกเลิกลักษณะการทำงานนี้
-แอสกี้ โดยค่าเริ่มต้นเมื่อ -โนเมตะ ถูกจัดให้, html2ข้อความ ใช้ UTF-8 สำหรับเอาต์พุต
ระบุตัวเลือกนี้ ธรรมดา ASCII มาใช้แทน หากต้องการทราบว่าไม่ใช่ ASCII
มีการแสดงอักขระ โปรดดูไฟล์ "ascii.substitutes"
-utf8 โดยค่าเริ่มต้นเมื่อ -โนเมตะ ถูกจัดให้, html2ข้อความ ใช้ มาตรฐาน ISO 8859-1 สำหรับการป้อนข้อมูล
ระบุตัวเลือกนี้ UTF-8 ใช้แทน (ทั้งสำหรับอินพุตและเอาต์พุต) นี้
ตัวเลือกหมายถึง -ขุนนาง.
- ตรวจสอบ ตัวเลือกนี้ใช้เพื่อการวินิจฉัย: เอกสาร HTML แยกวิเคราะห์เท่านั้น ไม่ใช่
ประมวลผลเป็นอย่างอื่น ในโหมดการทำงานนี้ html2ข้อความ จะรายงานเกี่ยวกับ parse
ข้อผิดพลาดและข้อผิดพลาดในการสแกนซึ่งไม่อยู่ในโหมดการทำงานอื่น สังเกตว่า
การแยกวิเคราะห์และข้อผิดพลาดในการสแกนไม่ร้ายแรงสำหรับ html2ข้อความแต่อาจทำให้ตีความได้ผิด
ของโค้ด HTML และ/หรือบางส่วนของเอกสารที่ถูกกลืนเข้าไป
-debug-parser
ปล่อยให้ html2ข้อความ รายงานการเปลี่ยนโทเค็น กฎที่ใช้ ฯลฯ ในขณะที่
การสแกนเอกสาร HTML ตัวเลือกนี้มีไว้สำหรับวัตถุประสงค์ในการวินิจฉัย
-debug-สแกนเนอร์
ปล่อยให้ html2ข้อความ รายงานแต่ละโทเค็นคำศัพท์ที่สแกน ขณะสแกน HTML
เอกสาร. ตัวเลือกนี้มีไว้สำหรับวัตถุประสงค์ในการวินิจฉัย
-ช่วยด้วย พิมพ์สรุปบรรทัดคำสั่งและออก
-ขุนนาง โดยค่าเริ่มต้น ต้นฉบับ html2ข้อความ แสดงตัวอักษรที่ขีดเส้นใต้ด้วยลำดับเช่น
"underscore-backspace-character" และตัวอักษรตัวหนาเช่น "character-backspace-
อักขระ" เนื่องจากปัญหาเกี่ยวกับ UTF-8 เวอร์ชัน Debian ของ html2ข้อความ ไม่
สร้างแบ็คสเปซดังนั้นตัวเลือกนี้จึงไม่ทำอะไรเลย
-o ไฟล์เอาต์พุต
เขียนผลลัพธ์ไปที่ ไฟล์เอาต์พุต แทนเอาต์พุตมาตรฐาน เส้นประเป็น
ไฟล์เอาต์พุต เป็นอีกทางเลือกหนึ่งในการระบุเอาท์พุตมาตรฐาน
-rcfile เส้นทาง
พยายามอ่านไฟล์ที่ระบุใน เส้นทาง เป็นไฟล์ RC
สไตล์ ( กะทัดรัด | สวย )
สไตล์ สวย เปลี่ยนค่าเริ่มต้นบางส่วนของพารามิเตอร์การจัดรูปแบบ
บันทึกไว้ใน html2textrc.html(5). เพื่อค้นหาว่าพารามิเตอร์การจัดรูปแบบใดและอย่างไร
ค่าดีฟอลต์จะเปลี่ยนไป ให้ตรวจสอบไฟล์ "pretty.style" หากละเว้นตัวเลือกนี้
สไตล์ กะทัดรัด ถือเป็นค่าเริ่มต้น
- ไม่แยกวิเคราะห์
ตัวเลือกนี้ใช้เพื่อการวินิจฉัย: แทนที่จะจัดรูปแบบเอกสารที่แยกวิเคราะห์
สร้างโค้ด HTML ที่รับประกันว่าถูกต้องตามหลักไวยากรณ์ ถ้า html2ข้อความ
มีปัญหาในการแยกวิเคราะห์เอกสาร HTML ที่ไม่ถูกต้องทางวากยสัมพันธ์ ตัวเลือกนี้อาจช่วยได้
คุณจะเข้าใจอะไร html2ข้อความ คิดว่ารหัส HTML เดิมหมายถึง
-version
พิมพ์เวอร์ชันของโปรแกรมและออก
-ความกว้าง ความกว้าง
โดยค่าเริ่มต้น html2ข้อความ จัดรูปแบบเอกสาร HTML สำหรับความกว้างหน้าจอ79
ตัวอักษร หากเปลี่ยนเส้นทางเอาต์พุตไปยังไฟล์ หรือหากเทอร์มินัลของคุณมี width
มากกว่า 80 อักขระหรือถ้าคุณต้องการทราบวิธีการ html2ข้อความ ข้อเสนอ
ด้วยตารางขนาดใหญ่และความกว้างของเทอร์มินัลที่แตกต่างกัน คุณอาจต้องการระบุ a
ต่าง ความกว้าง.
ใช้ html2text ออนไลน์โดยใช้บริการ onworks.net