Technology

การทำงานของ Stable Cascade

2024-03-25 01:42:28

หลังจากที่ Stability ได้มีการเปิดตัว Stable Cascadeในตัวอย่างการวิจัย โมเดลข้อความเป็นรูปภาพที่เป็นนวัตกรรมใหม่นี้นำเสนอแนวทางสามขั้นตอนที่น่าสนใจ โดยกำหนดมาตรฐานใหม่สำหรับคุณภาพ ความยืดหยุ่น การปรับแต่งอย่างละเอียด และประสิทธิภาพ โดยมุ่งเน้นที่การขจัดอุปสรรคด้านฮาร์ดแวร์เพิ่มเติม

รายละเอียดทางเทคนิค

Stable Cascade แตกต่างจากกลุ่มผลิตภัณฑ์ Stable Diffusion เนื่องจากสร้างขึ้นบนไปป์ไลน์ที่ประกอบด้วยโมเดลที่แตกต่างกันสามรุ่น สเตจ A, B และ C สถาปัตยกรรมนี้ช่วยให้สามารถบีบอัดรูปภาพตามลำดับชั้น เพื่อให้ได้ผลลัพธ์ที่น่าทึ่ง ในขณะที่ใช้พื้นที่แฝงที่มีการบีบอัดสูง

เฟสตัวสร้างแฝง ระยะ C แปลงอินพุตของผู้ใช้ให้เป็นค่าแฝง 24x24 ขนาดกะทัดรัดที่ถูกส่งผ่านไปยังเฟสตัวถอดรหัสแฝง (ระยะ A และ B) ซึ่งใช้ในการบีบอัดภาพ คล้ายกับงานของ VAE ที่อยู่ในความเสถียร การแพร่กระจายแต่ได้รับการบีบอัดที่สูงกว่ามาก

ด้วยการแยกการสร้างข้อความแบบมีเงื่อนไข (ระยะ C) จากการถอดรหัสไปเป็นพื้นที่พิกเซลความละเอียดสูง (ระยะ A และ B) เราสามารถอนุญาตให้มีการฝึกอบรมเพิ่มเติมหรือปรับแต่งเพิ่มเติม รวมถึง ControlNets และ LoRA ให้เสร็จสิ้นแบบเอกเทศบนระยะ C สิ่งนี้มา ด้วยการลดต้นทุนถึง 16 เท่า เมื่อเทียบกับการฝึกโมเดล Stable Diffusion ที่มีขนาดใกล้เคียงกัน (ดังแสดงในรายงานต้นฉบับ ) สามารถเลือกปรับแต่งสเตจ A และ B เพื่อการควบคุมเพิ่มเติมได้ แต่จะเทียบได้กับการปรับแต่ง VAE ในโมเดล Stable Diffusion สำหรับการใช้งานส่วนใหญ่ มันจะให้ประโยชน์เพิ่มเติมน้อยที่สุด และเราขอแนะนำให้ฝึกขั้น C และใช้ด่าน A และ B ในสถานะดั้งเดิม

Stages C & B จะเปิดตัวพร้อมกับรุ่นที่แตกต่างกันสองรุ่น: พารามิเตอร์ 1B & 3.6B สำหรับ Stage C และพารามิเตอร์ 700M & 1.5B สำหรับ Stage B ขอแนะนำให้ใช้รุ่น 3.6B สำหรับ Stage C เนื่องจากรุ่นนี้มีเอาต์พุตคุณภาพสูงสุด . อย่างไรก็ตาม เวอร์ชันพารามิเตอร์ 1B สามารถใช้สำหรับผู้ที่ต้องการเน้นไปที่ความต้องการฮาร์ดแวร์ขั้นต่ำที่สุด สำหรับขั้นตอน B ทั้งสองได้ผลลัพธ์ที่ยอดเยี่ยม อย่างไรก็ตาม 1.5 พันล้านชิ้นนั้นเก่งกว่าในการสร้างรายละเอียดเล็กๆ น้อยๆ ใหม่ ด้วยวิธีโมดูลาร์ของ Stable Cascade ทำให้ข้อกำหนด VRAM ที่คาดหวังสำหรับการอนุมานสามารถเก็บไว้ได้ประมาณ 20GB แต่สามารถลดลงได้อีกโดยใช้เวอร์ชันที่เล็กกว่า (ตามที่กล่าวไว้ก่อนหน้านี้ ซึ่งอาจลดคุณภาพเอาต์พุตสุดท้ายด้วย)

คุณลักษณะเพิ่มเติม

-ถัดจากการสร้างข้อความเป็นรูปภาพมาตรฐาน Stable Cascade สามารถสร้างรูปแบบรูปภาพและการสร้างรูปภาพเป็นรูปภาพได้

รูปแบบต่างๆ ของรูปภาพทำงานโดยการแยกการฝังรูปภาพออกจากรูปภาพที่กำหนดโดยใช้ CLIP จากนั้นจึงคืนค่ากลับไปยังโมเดล ด้านล่างนี้คุณสามารถดูผลลัพธ์ตัวอย่างบางส่วนได้ รูปภาพด้านซ้ายแสดงต้นฉบับ ในขณะที่สี่รูปทางด้านขวาคือรูปแบบที่สร้างขึ้น

-ภาพต่อภาพทำงานโดยการเพิ่มจุดรบกวนให้กับภาพที่กำหนด จากนั้นใช้สิ่งนี้เป็นจุดเริ่มต้นสำหรับการสร้าง นี่คือตัวอย่างสำหรับการสร้างสัญญาณรบกวนให้กับรูปภาพด้านซ้าย จากนั้นจึงเรียกใช้การสร้างจากที่นั่น

-รหัสสำหรับการฝึกอบรม การปรับแต่งอย่างละเอียด ControlNet และ LoRA

ด้วยการเปิดตัว Stable Cascade เรากำลังปล่อยโค้ดทั้งหมดสำหรับการฝึกฝน การปรับแต่ง ControlNet และ LoRA เพื่อลดข้อกำหนดในการทดสอบกับสถาปัตยกรรมนี้เพิ่มเติม นี่คือ ControlNet บางส่วนที่เราจะเปิดตัวพร้อมกับโมเดลนี้:

การวาดภาพภายใน / การวาดภาพภายนอก:ป้อนภาพที่จับคู่กับมาสก์เพื่อประกอบกับข้อความแจ้ง จากนั้นโมเดลจะเติมส่วนที่มาสก์ของรูปภาพโดยปฏิบัติตามข้อความแจ้งที่ให้ไว้

ดูรายละเอียดเกี่ยวกับสิ่งเหล่านี้ได้ที่หน้า Stability GitHubรวมถึงโค้ดการฝึกอบรมและการอนุมาน

แม้ว่าโมเดลนี้จะไม่สามารถใช้งานได้ในเชิงพาณิชย์ในปัจจุบัน แต่หากคุณต้องการลองใช้โมเดลรูปภาพอื่นๆ ของเราสำหรับการใช้งานเชิงพาณิชย์ โปรดไปที่หน้า Stability AI Membership สำหรับการใช้งานเชิงพาณิชย์ที่โฮสต์เอง หรือ แพลตฟอร์มนักพัฒนาของเราเพื่อเข้าถึง API ของเรา .