Meta เปิดตัว MusicGen AI แบบโอเพ่นซอร์ส สร้างเพลงได้เพียงพิมพ์ข้อความอธิบาย

Meta เปิดตัว MusicGen AI แบบโอเพ่นซอร์ส สร้างเพลงได้เพียงพิมพ์ข้อความอธิบาย


ทีมวิจัยด้าน Audiocraft ของ Meta ได้เพิ่งเปิดตัว MusicGen ซึ่งเป็นโมเดลการเรียนรู้ลึกโดยใช้เทคนิค deep learning และสามารถสร้างเพลงใหม่จากข้อความที่ระบุและสามารถสอดตัวกับเพลงที่มีอยู่ได้ด้วย การรายงานจาก The Decoder รายงานไว้ว่ามันคล้ายกับ ChatGPT แต่ใช้สำหรับเสียงเพลง โดยคุณสามารถอธิบายลักษณะของเพลงที่คุณต้องการได้ และสามารถใส่เพลงที่มีอยู่ได้ (ตัวเลือก) แล้วคลิกที่ "สร้าง" หลังจากผ่านเวลาไปสักพัก (ประมาณ 160 วินาทีในกรณีของฉัน) มันจะสร้างเพลงสั้นๆ ใหม่ๆ จากข้อความที่คุณระบุและท่องโครงของเพลง

เว็บไซต์ตัวอย่างบน Facebook's Hugging Face AI ช่วยให้คุณอธิบายเพลงของคุณโดยให้ตัวอย่างเช่น "เพลงดนตรีป๊อปขับขี่ในยุค 80 พร้อมกับกลองกั้นและซินธ์แพดในพื้นหลัง" คุณสามารถ "กำหนดเงื่อนไข" ให้เพลงนั้นในส่วนของเพลงที่มีอยู่สูงสุด 30 วินาที และคุณสามารถคลิก "สร้าง" เพื่อให้มันสร้างชิ้นส่วนที่มีคุณภาพสูงได้ยาวถึง 12 วินาที

ทีมวิจัยได้ใช้เพลงที่มีลิขสิทธิ์มากถึง 20,000 ชั่วโมงในการฝึกฝน รวมถึงเพลงที่มีคุณภาพสูง 10,000 เพลงจากชุดข้อมูลภายในและรวมถึงเพลงจาก Shutterstock และ Pond5 ในการทำให้มันเร็วขึ้น พวกเขาใช้เครื่องมือตัดเสียง EnCodec ที่มีความถี่ 32Khz ของ Meta เพื่อสร้างชิ้นเล็กๆ ของเพลงที่สามารถประมวลผลได้พร้อมกัน "ต่างจากวิธีการที่มีอยู่ในเช่น MusicLM, MusicGen ไม่ต้องการการแสดงตัวที่ตนเองซึ่งไม่เป็นการควบคุมด้านความหมาย [และมี] เพียง 50 ขั้นตอนการทำงานอัตโนมัติต่อวินาทีของเสียง" นักวิศวกรศาสตร์เครือข่ายของ Hugging Face ชื่อ Ahsen Khaliq แจ้งในทวีต

เดือนที่แล้ว Google ได้เปิดตัวเครื่องมือสร้างเพลงที่คล้ายกันชื่อ MusicLM แต่ MusicGen ดูเหมือนสร้างผลลัพธ์ที่ดีกว่านิดหน่อย ในหน้าตัวอย่าง นักวิจัยเปรียบเทียบผลลัพธ์ของ MusicGen กับ MusicLM และโมเดลอื่นๆ อย่าง Riffusion และ Musai เพื่อพิสูจน์จุดดังกล่าว สามารถใช้งานบนเครื่องคอมพิวเตอร์ส่วนตัว (แนะนำให้ใช้ GPU ที่มี RAM อย่างน้อย 16GB) และมีให้ใช้งานในสี่ขนาดโมเดล ตั้งแต่เล็ก (300 ล้านพารามิเตอร์) ถึงขนาดใหญ่ (3.3 พันล้านพารามิเตอร์) — โดยโมเดลขนาดใหญ่นั้นมีศักยภาพในการสร้างเพลงที่ซับซ้อนมากที่สุด

เช่นเคยกล่าวมา MusicGen เป็นโอเพ่นซอร์สและสามารถใช้เพื่อสร้างเพลงเชิงพาณิชย์ได้ (ฉันลองใช้กับ  "Ode to Joy" และแนวเพลงที่แนะนำหลายแนว และผลลัพธ์ที่ได้ดังกล่าวเป็น... แบบผสมผสาน) อย่างไรก็ตาม นี่เป็นตัวอย่างล่าสุดของความเร่งด่วนที่น่าทึ่งของการพัฒนา AI ในรอบหลายครึ่งปีที่ผ่านมา  ด้วยโมเดลการเรียนรู้เชิงลึกที่คุกคามการรุกรานไปยังประเภทอื่น

 

ที่มา: https://publish.twitter.com/


เผย 12 ฟีเจอร์ Threads ที่กำลังจะสามารถทำได้ Adam Mosseri หัวหน้า Instagram ได้กล่าว
Threads แอพโซเชียลมีเดียที่เพิ่งเปิดตัวของ Metaมีผู้ใช้มากกว่า 30 ล้านคนภายใน 24 ชั่วโมงแรกที่มาถึงอย่างไรก็ตาม Instagram เวอร์ชันข้อความที่สร้างขึ้...
Adobe เปิดตัวฟีเจอร์ Text to Vector Graphic ใน Adobe Illustrator
Adobe เปิดตัวฟีเจอร์ Text to Vector Graphic ใน Adobe Illustrator สำหรับเดสก์ท็อปเพื่อสร้างกราฟิกเวกเตอร์ได้อย่างรวดเร็วและง่ายดายจากพิมพ์ข้อความคำสั...
DeepSeek R1: ก้าวใหม่ของ AI จีน ที่ท้าชน OpenAI ด้วยต้นทุนที่ต่ำกว่ามาก
วงการปัญญาประดิษฐ์ (AI) กำลังจับตามอง DeepSeek R1 โมเดล AI โอเพนซอร์สตัวใหม่จากสตาร์ทอัพจีน DeepSeek ที่ถูกพัฒนาให้สามารถแข่งขันกับ ChatGPT o1 ของ O...

Quote

Line

Call