Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

เผยแพร่เมื่อ 30 ธันวาคม 2022

5158 การเข้าชม

ข้อความจริง (transcript)	ผลการทำนาย (prediction)
แซ็กอยากเป็นนักเก็ต	แซคอยากเป็นนักเก๊ต
แยกอะตอมไฮโดรเจนออกจากโมเลกุลไซยาไนด์	แยกอตอมไฮโดรเจนออกจากโมเลกุลไซยานัย
เซลขายของที่เก่งมักจะโน้มน้าวให้ลูกค้าใช้อารมณ์ในการตัดสินใจซื้อสินค้ามากกว่าใช้เหตุผล	เซลล์ขายของที่เก่งมักจะโน้มน้าวให้ลูกค้าใช้อารมณ์ในการตัดสินใจซื้อสินค้ามากกว่าใช้เหตุผล
มันเป็นผลลัพธ์ทางอ้อม	มันเป็นผลลัพทางอ้อม
ฉันไม่รู้มาก่อนเลยว่าคุณเล่นกีต้าร์ด้วย	ฉันไม่รู้มาก่อนเลยว่าคุณเล่นกีธาด้วย
ตอบรับ	ตอบลับ
น้ำมันเบรกไหลออกจากทาง	น้ำมันเบกไหลออกจากทาง
นายตำรวจพูดว่าคดีฆาตกรรมทำให้เขาปวดหัว	นายตำรวจพูดว่าคดีฆาตุกรรมทำให้เขาปวดหู

ดาวน์โหลดโมเดลจาก https://huggingface.co/biodatlab/whisper-th-medium-combined และใช้งานผ่านไลบรารี่ huggingface transformers (วิธีใช้ตามรูปด้านล่าง)
ทดลองใช้งานผ่าน Google Colab ที่ https://colab.research.google.com/github/biodatlab/whisper-th-demo/blob/main/whisper_th_demo.ipynb
อ่านโค้ดทาง Github https://github.com/biodatlab/whisper-th-demo

อย่ารอช้า ! เรียนรู้ทักษะด้านดิจิทัลเพื่ออัพเกรดความสามารถของคุณ
เริ่มตั้งแต่พื้นฐาน พร้อมปฏิบัติจริงในรูปแบบหลักสูตรออนไลน์วันนี้

Sale!

Practical Tailwind for Web Design
Original price was: ฿2,590.00.Current price is: ฿1,990.00. รวม VAT
Original price was: ฿2,590.00.Current price is: ฿1,990.00. รวม VATAdd to cart Quick View
Sale!

Programming for Everyone
Original price was: ฿1,590.00.Current price is: ฿990.00. รวม VAT
Original price was: ฿1,590.00.Current price is: ฿990.00. รวม VATRead more Quick View
Sale!

Django from Zero
Original price was: ฿2,590.00.Current price is: ฿1,290.00. รวม VAT
Original price was: ฿2,590.00.Current price is: ฿1,290.00. รวม VATAdd to cart Quick View
Sale!

ครบถ้วนทุกพื้นฐาน UX / UI
Original price was: ฿6,580.00.Current price is: ฿3,990.00. รวม VAT
Original price was: ฿6,580.00.Current price is: ฿3,990.00. รวม VATAdd to cart Quick View

แนะนำสำหรับคุณ

Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

Practical Tailwind for Web Design

Programming for Everyone

Django from Zero

ครบถ้วนทุกพื้นฐาน UX / UI

Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

“ต่อยหม้อข้าวหม้อแกงให้จงสิ้น แล้วเทรนโมเดลวิสเปอร์ให้ใช้ได้ในตอนเช้า” ชาวเอไอ ฝั่นธนฯ (ไม่ได้กล่าว)

Whisper คืออะไร?

สถาปัตยกรรมการทำงานของโมเดล Whisper ประกอบด้วย Encoder และ Decoder blocks ที่รับ log-Mel Spectogram

ที่มา: Radford, Alec, et al. “Robust speech recognition via large-scale weak supervision.” OpenAI Blog (2022). Github: https://github.com/openai/whisper

Whisper ทำงานอย่างไร?

ความแตกต่างของ Whisper และ Wav2Vec2

จำนวนพารามิเตอร์ของ Whisper ขนาด tiny, base, small, medium, large เท่ากับ 39M, 74M, 244M, 769M, 1550M ตามลำดับ ส่วน Wav2vec2 มีขนาดเท่ากับ 317M

ทำไมต้อง Fine-tune โมเดล Whisper เพื่อใช้กับภาษาไทย?

Fine-tune Thonburian Whisper (ธนบุเรี่ยนวิสเปอร์)

*แบ่งข้อมูล train, test ของ Commonvoice ตามไลบรารี่ huggingface/datasets

*ทำความสะอาดข้อความโดยลบเครื่องหมายวรรคตอนก่อนวัดผล

ผลการทำนายและประสิทธิภาพของโมเดล

โมเดลเปิดให้ใช้ฟรีด้วยไลบรารี่ Huggingface transformers

สำหรับผู้ที่สนใจใช้งาน Thonburian Whisper สามารถทดลองใช้งานผ่านช่องทางดังนี้

ดาวน์โหลดโมเดลจาก https://huggingface.co/biodatlab/whisper-th-medium-combined และใช้งานผ่านไลบรารี่ huggingface transformers (วิธีใช้ตามรูปด้านล่าง)

ทดลองใช้งานผ่าน Google Colab ที่ https://colab.research.google.com/github/biodatlab/whisper-th-demo/blob/main/whisper_th_demo.ipynb

อ่านโค้ดทาง Github https://github.com/biodatlab/whisper-th-demo

ตัวอย่างวิธีใช้งานธนบุเรี่ยนวิสเปอร์ (Thonburian Whisper) ด้วยไลบรารี่ huggingface transformers โดยการสร้าง pipeline, เลือกโมเดล, ทำนายผล

ตัวอย่างใช้งานโมเดลธนบุเรี่ยนวิสเปอร์ (Thonburian Whisper) ผ่านแอพพลิเคชั่น Gradio ผ่าน huggingface spaces https://huggingface.co/spaces/biodatlab/whisper-thai-demo

Acknowledgement ทางทีมผู้พัฒนาขอบคุณคุณ Charin Polpanumas ที่ให้ข้อเสนอแนะสำหรับบทความ

หากคุณสนใจพัฒนา สตาร์ทอัพ แอปพลิเคชัน และ เทคโนโลยีของตัวเอง ?

Practical Tailwind for Web Design

Programming for Everyone

Django from Zero

ครบถ้วนทุกพื้นฐาน UX / UI

บทความที่เกี่ยวข้อง

เลือกเรียนรู้

สำหรับภาคการศึกษา

ศูนย์ให้ความช่วยเหลือ

บริการจากเรา

เกี่ยวกับ BorntoDev

ได้รับการรับรองจาก

“ต่อยหม้อข้าวหม้อแกงให้จงสิ้น แล้วเทรนโมเดลวิสเปอร์ให้ใช้ได้ในตอนเช้า”
ชาวเอไอ ฝั่นธนฯ (ไม่ได้กล่าว)

สถาปัตยกรรมการทำงานของโมเดล Whisper ประกอบด้วย Encoder และ Decoder blocks
ที่รับ log-Mel Spectogram

ที่มา: Radford, Alec, et al. “Robust speech recognition via large-scale weak supervision.”
OpenAI Blog (2022). Github: https://github.com/openai/whisper

หากคุณสนใจพัฒนา สตาร์ทอัพ แอปพลิเคชัน
และ เทคโนโลยีของตัวเอง ?