Skip to main content
0

Docling คืออะไร? แปลง PDF, Word, รูปภาพ เป็น JSON/Markdown ด้วย AI

สวัสดีครับ วันนี้แอดจะพาทุกคนมาลอง เครื่องมือฟรี ดี ๆ ที่จะเปลี่ยนข้อมูลที่เป็นไฟล์เอกสาร อาจจะอยู่ในรูปแบบของ PDF, Word หรือแม้แต่รูปภาพสแกนใบเสร็จ ใบแจ้งหนี้ที่ข้อมูลเหล่านี้จะเอาไปใช้ประโยชน์ต่อก็อาจจะยากนิดนึง ลองทำ OCR เฉย ๆ แล้วก็ได้ข้อความมาเป็นก้อน พวกโครงสร้างต่าง ๆ ตาราง ฟอร์มแมตต่าง ๆ ไม่มาด้วยก็มานั่งแมนวลแก้เองอีก หรือบางทีถึงขั้นนั่งก๊อปทีละบรรทัดก็มี

โดย Docling มันจะมาทำให้ชีวิตเราง่ายขึ้น แปลงไฟล์เอกสารพวกนี้ให้ออกมาเป็นรูปแบบที่เป็นระเบียบได้ ไม่ว่าจะเป็น JSON หรือ Markdown พอเรามีข้อมูลที่เป็นรูปแบบข้อความแล้วก็หวานหมูเลย เอาไปต่อใช้งานกับระบบอื่น หรือเตรียมไว้เป็นข้อมูลให้น้อง AI ก็สามารถทำได้แบบสบายขึ้นเยอะ

Docling คืออะไร และทำไมเราควรลองใช้?

Docling เป็นเครื่องมือ โอเพ่นซอร์สที่พัฒนาโดยทีม IBM Research ซึ่งถูกออกแบบมาเพื่อช่วยแปลงเอกสารหลายรูปแบบให้กลายเป็นข้อมูลเชิงโครงสร้างที่พร้อมใช้งานต่อ เช่น JSON, Markdown หรือ HTML

สิ่งที่ทำให้ Docling โดดเด่นกว่าการใช้วิธีเดิม ๆ มีอยู่หลายอย่าง ไม่ว่าจะเป็น

  • รองรับไฟล์ยอดนิยมเกือบทุกชนิด → PDF, Word, PowerPoint, Excel, HTML รวมถึงไฟล์รูปภาพสแกน
  • ใช้ AI เฉพาะทาง ในการวิเคราะห์ Layout และโครงสร้างตาราง ทำให้แปลงข้อมูลได้แม่นยำมากขึ้น
  • รันได้บนเครื่องเราเอง → ไม่ต้องส่งข้อมูลขึ้น Cloud เหมาะกับงานที่ต้องการความปลอดภัย
  • เป็น ฟรีและโอเพ่นซอร์ส ภายใต้ MIT License ใช้งานได้ทั้งงานวิจัยและงานเชิงพาณิชย์

เรียกได้ว่า ถ้าเราเคยเสียเวลาคัดลอกตารางจาก PDF ทีละช่อง หรือพยายามดึงข้อมูลจากเอกสารเก่า ๆ ให้เอาไปใช้ต่อ Docling จะเป็นตัวช่วยที่ทำให้ขั้นตอนพวกนี้สั้นลงแบบสุด ๆ

วิธีติดตั้งและเริ่มต้นใช้งาน Docling

จริง ๆ แล้วเราสามารถใช้บนเครื่องของเราได้เลยนะ แต่แอดขอไปยืมพลัง GPU ของ Colab มา demo ให้ดูกันนะครับ โดยวิธีในการติดตั้งง่ายที่สุดคือใช้คำสั่ง pip install docling ได้เลย หากเป็นบนพวก Python Notebook ก็ใส่ ! นำหน้าหน่อยเพื่อบอกว่าเป็นคำสั่ง bash

ระบบจะทำการดาวน์โหลดและติดตั้ง dependencies ทั้งหมด เช่น docling-core, docling-parse, docling-ibm-models รวมถึงแพ็กเกจ OCR อย่าง easyocr โดยอัตโนมัติ

จาก log ที่เราได้ จะเห็นว่า Docling ติดตั้งพร้อมกับแพ็กเกจเสริมสำหรับทำงานกับไฟล์หลายชนิด เช่น:

  • python-docx → สำหรับไฟล์ Word
  • python-pptx → สำหรับไฟล์ PowerPoint
  • pypdfium2 → สำหรับ PDF
  • rtree และ shapely → สำหรับงานประมวลผล layout/tables
  • easyocr → สำหรับอ่าน text จากไฟล์ภาพหรือ PDF ที่เป็นสแกน

เมื่อติดตั้งเสร็จ เราก็พร้อมใช้งานทันที

การลองใช้งานครั้งแรก

หลังจากติดตั้งแล้ว เราสามารถเรียก docling ผ่าน command line ได้เลย ตัวอย่างเช่น แปลง PDF จาก arXiv ด้วย pipeline VLM

    
    !docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
    Bash

    Docling จะโหลดไฟล์มาประมวลผลและ export ออกมาเป็น Markdown (.md) โดยอัตโนมัติ

    ผลลัพธ์คือ Docling จะตรวจจับว่าไฟล์เป็น PDF → ส่งเข้ากระบวนการ → แปลงเสร็จ → ได้ไฟล์ .md ที่มีโครงสร้างของเอกสารเหมือนต้นฉบับ แต่พร้อมเอาไปใช้ต่อแล้วนั่นเอง

    สามารถอ่านรายละเอียดเพิ่มเติมเกี่ยวกับ Docling ได้ที่ https://arxiv.org/pdf/2501.17887

    0

    แนะนำสำหรับคุณ

    คัดลอกลิงก์สำเร็จ