Microsoft เปิดตัวเครื่องมือ Pytho ใหม่สำหรับแปลงไฟล์เอกสารเป็น Markdown

Microsoft เปิดตัวเครื่องมือ Pytho ใหม่สำหรับแปลงไฟล์เอกสารเป็น Markdown


Microsoft สร้างความฮือฮาในวงการพัฒนาเทคโนโลยีด้วยการเปิดตัว MarkItDown ไลบรารี Python แบบโอเพ่นซอร์สที่ช่วยแปลงไฟล์เอกสารหลากหลายประเภทให้เป็น Markdown ภาษา lightweight markup ที่เป็นมิตรกับผู้ใช้และ AI

Markdown เป็นภาษาที่ออกแบบมาเพื่อการจัดการข้อความที่ง่ายต่อการอ่านและเขียน พร้อมทั้งรองรับการใช้งานในเครื่องมือยอดนิยม เช่น GitHub และ Jupyter Notebooks นอกจากนี้ Markdown ยังมีโครงสร้างไวยากรณ์ที่ชัดเจนและสม่ำเสมอ ทำให้ AI สามารถประมวลผลและวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ

MarkItDown ถูกออกแบบมาเพื่อรองรับการแปลงไฟล์หลากหลายรูปแบบ เช่น:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • รูปภาพ (ข้อมูล EXIF และ OCR)
  • เสียง (ข้อมูล EXIF และการถอดเสียงพูด)
  • HTML (รวมถึงการแปลงเว็บไซต์ เช่น Wikipedia)
  • ไฟล์ข้อความอื่นๆ (.csv, .json, .xml)

MarkItDown ยังรองรับการเชื่อมต่อกับ Large Language Models (LLMs) เช่น GPT-4 เพื่อสร้างคำอธิบายภาพ (Image Descriptions) โดยอัตโนมัติ ด้วยโค้ดการตั้งค่าที่เรียบง่าย:

from markitdown import MarkItDown 

from openai import OpenAI 
 

ตั้งค่า Client สำหรับโมเดลภาษา 

client = OpenAI() 
 

ใช้ LLM สร้างคำอธิบายภาพ 

md = MarkItDown(mlm_client=client, mlm_model="gpt-4o") 

result = md.convert("example.jpg") 
 

แสดงผลลัพธ์คำอธิบาย 

print(result.text_content) 

MarkItDown มาพร้อมใบอนุญาต MIT License ช่วยให้นักพัฒนาสามารถใช้งาน แก้ไข หรือแจกจ่ายได้อย่างเสรี เพียงระบุใบอนุญาตต้นฉบับ

วิธีการติดตั้ง

นักพัฒนาสามารถดาวน์โหลดไลบรารี MarkItDown Python ได้ที่นี่ นอกจากนี้ยังสามารถเริ่มต้นใช้งาน MarkItDown ได้ง่ายๆ:

  • ติดตั้งผ่านคำสั่ง pip install markitdown
  • หรือ ติดตั้งจากซอร์สโค้ดด้วยคำสั่ง pip install -e

MarkItDown ไม่เพียงแค่ช่วยแปลงเอกสารต่างๆ เป็น Markdown แต่ยังช่วยยกระดับกระบวนการจัดเก็บและวิเคราะห์ข้อมูล รองรับการใช้งานในโครงการขนาดเล็กไปจนถึงระดับองค์กร

หากคุณไม่ใช่ผู้พัฒนา คุณสามารถทดลองใช้ไลบรารี MarkItDown เป็นแอปเว็บได้ที่นี่

สรุป

Microsoft เปิดตัว MarkItDown ไลบรารี Python แบบโอเพ่นซอร์สสำหรับแปลงไฟล์เอกสาร เช่น PDF, Word, Excel, และ PowerPoint เป็น Markdown ซึ่งเป็นภาษาที่ใช้งานง่ายและเหมาะสำหรับการจัดการข้อมูลที่ AI เข้าใจได้ดี

MarkItDown ยังรองรับการสร้างคำอธิบายภาพโดยใช้ AI อย่าง GPT-4 ผ่านการตั้งค่าที่ง่ายดาย พร้อมใบอนุญาต MIT License ช่วยให้นักพัฒนาสามารถใช้งานและปรับแต่งได้อย่างอิสระ

 

ที่มา neowin


Microsoft เร่งแก้ไขปัญหาการซิงค์รายการที่บล็อกบน Windows
Microsoft กล่าวว่าได้แก้ไขปัญหาที่ป้องกันไม่ให้รายการบล็อกไดรเวอร์ที่มีช่องโหว่ของเคอร์เนล บน Windows ซิงค์กับระบบที่ใช้ Windows เวอร์ชันเก่ากว่า ...
Microsoft Defender สามารถบล็อค ransomware บน Windows 11 ได้ดีขึ้น
Microsoft ได้เปิดตัว Windows 11 รุ่นใหม่สำหรับ Beta Channel พร้อมด้วย Microsoft Defender for Endpoint ที่ปรับปรุงความสามารถในการบล็อกการโจมตีด้วยแ...
วิธีดาวน์โหลดและติดตั้ง Windows 11 เวอร์ชัน 24H2
ใกล้เข้ามาแล้วกับการเปิดตัวอย่างเป็นทางการของ Windows 11 เวอร์ชัน 24H2 ซึ่งเป็นการอัปเดตใหญ่ประจำปี 2024 ที่หลายคนรอคอย หากผู้ใช้เป็นหนึ่งในผู้ที่ต้...

Quote

Line

Call