Google ประกาศเปิดตัว Gemini 2.5 Flash Image (ชื่อในการทดสอบ “nano-banana”) โมเดลสร้างภาพและแก้ไขภาพรุ่นล่าสุดที่ทรงพลังที่สุดในตอนนี้ จุดเด่นคือความสามารถในการสร้างภาพที่สมจริง รักษาความคงที่ของตัวละคร และผสมภาพหลาย ๆ ภาพเข้าด้วยกันอย่างแนบเนียน
ตามรายงานจาก LMArena โมเดลนี้ถูกจัดอันดับให้เป็นโมเดลแก้ไขภาพที่ดีที่สุดในโลก แซงหน้า OpenAI GPT Image 1 และ Flux.1 Kontext ที่ผ่านมา แม้โมเดลสร้างภาพหลายตัวจะทำได้ดีด้านความสวยงาม แต่กลับไม่เข้าใจความหมายหรือความสมจริงของโลกมากนัก ขณะที่ Gemini 2.5 Flash Image ใช้ความรู้เชิงลึกของ Gemini เพื่อสร้างภาพที่ “แม่นยำและใกล้เคียงความจริง” มากกว่าเดิม
เปิดให้ใช้งานทั้งนักพัฒนาและผู้ใช้ทั่วไป
- สำหรับนักพัฒนา (Developers):
สามารถเข้าถึงได้ผ่าน Gemini API, Google AI Studio, และ Vertex AI ในระดับ Enterprise โดยมีราคาอยู่ที่ 30 ดอลลาร์ ต่อ 1 ล้าน output tokens หรือคิดเฉลี่ยราว 0.039 ดอลลาร์ต่อภาพ - สำหรับผู้ใช้ทั่วไป (Consumers):
ใช้งานได้ผ่านเว็บและแอป Gemini ทั้งบนมือถือและเดสก์ท็อป Google ยกตัวอย่างการใช้งานที่น่าสนใจไว้ดังนี้- เปลี่ยนฉากหรือชุดได้ทันที: อัปโหลดภาพคนหรือสัตว์เลี้ยง โมเดลจะรักษาลักษณะเดิมไว้ แล้วนำไปใส่ในสถานการณ์ใหม่ๆ
- ผสมภาพหลายใบเป็นภาพเดียว: เช่น นำภาพตัวเองกับสุนัขมารวมกัน กลายเป็นภาพคู่บนสนามบาส
- แก้ไขต่อเนื่องหลายขั้นตอน: เริ่มจากห้องเปล่า ๆ แล้วค่อยเพิ่มสีผนัง ชั้นหนังสือ เฟอร์นิเจอร์ ไปจนถึงโต๊ะกาแฟ
- ดีไซน์สร้างสรรค์: ใช้สไตล์หรือเท็กซ์เจอร์จากภาพหนึ่งไปใส่กับวัตถุในอีกภาพ เช่น ลายดอกไม้บนรองเท้าบูท หรือออกแบบชุดจากปีกผีเสื้อ
ความโปร่งใสและความปลอดภัย
Google ยืนยันว่าจะไม่ใช้ภาพที่ผู้ใช้อัปโหลดไปฝึกโมเดล ยกเว้นในกรณีที่ผู้ใช้ส่งเป็น Feedback โดยภาพที่สร้างหรือแก้ไขทั้งหมดบน Gemini App จะมี ลายน้ำ (Watermark) ทั้งแบบที่มองเห็นและแบบดิจิทัล SynthID เพื่อป้องกันการนำไปใช้ผิดวัตถุประสงค์
การมาของ Gemini 2.5 Flash Image ถือเป็นอีกก้าวสำคัญของ Google ที่ผลักดันการสร้างภาพด้วย AI ให้แม่นยำ สมจริง และใช้งานได้ทั้งเพื่อความบันเทิงและการทำงานของนักพัฒนาและธุรกิจ
ที่มา Google