בינה מלאכותית של טקסט לסרטון כמו סורה

[מודעה_1]

סורה (OpenAI)

סורה הוא השם החדש ביותר שהוכרז אך עורר את המהומה הרבה ביותר, בין היתר משום שהוא תוצר של OpenAI - המפתחת המפורסמת של ChatGPT, אך בעיקר בגלל איכות הסרטונים שהתוכנה יוצרת מפקודות טקסט בלבד.

הצלחת החברה עם ChatGPT גם מעניקה לבינה המלאכותית שלה הבנה מעמיקה של שפה. קטעים המדגימים את יכולותיה של סורה מראים דמויות נעות ומבטאות את עצמן בצורה מציאותית כמו סרט שצולם על ידי אדם.

Video "siêu thực" do Sora tạo từ các lệnh văn bản — סרטון "סוריאליסטי" שנוצר על ידי סורה מפקודות טקסט

אבל Sora עדיין לא זמין לצריכה ציבורית, מסיבות בטיחותיות. OpenAI תנקוט צעדים זהירים לפני שתנגיש אותו לציבור הרחב, במיוחד לאור המספר ההולך וגדל של משתמשי בינה מלאכותית המשמשים למטרות זדוניות, כגון התחזות למשתמשים או ביצוע פשעים.

לומייר (גוגל)

Lumiere הוא מוצר של גוגל, המסוגל גם לייצר סרטונים מקלט טקסט, המבוסס על מודל דיפוזיה מבני STUNet (Space-Time-U-Net). Lumiere לא טורח לחבר יחד פריימים סטילס, אלא במקום זאת, בינה מלאכותית זו מזהה את הפרטים בסרטון (החלק המרחבי), עוקבת אחר האופן שבו הם נעים ומשתנים בו זמנית (החלק הזמני), ובכך מסייעת לתהליך להתנהל בצורה חלקה.

כמו סורה, גם לומייר לא שוחרר לציבור. החברה הציגה מודל זה רק בסוף ינואר 2024 לאחר השקת ג'מיני - מודל השפה הגדול שזה עתה סונכרן עם בארד.

וידאופואט (גוגל)

מודל שפה גדול זה (LLM) מאומן ממאגר עצום של סרטונים, תמונות, אודיו וטקסט שפותח על ידי חיפוש גוגל בשנת 2023. VideoPoet יכול לבצע משימות שונות ממקורות קלט כגון טקסט, תמונות, סרטונים... כדי ליצור סרטונים, להדגיש תוכן, להמיר סרטונים לאודיו, להפוך תמונות סטילס לאנימציות...

הרעיון המקורי של VideoPoet נבע מהצורך לתרגם כל מודל שפה אוטורגרסיבי למערכת ליצירת וידאו. מודלים של שפה אוטורגרסיבית נוכחיים יכולים לעבד טקסט וקוד תכנות כמו בני אדם, אך מתקשים בכל הנוגע לווידאו. VideoPoet פותר זאת באמצעות שימוש באסימון כדי לתרגם קלט מכל פורמט לשפה שהוא יכול להבין.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn — כלים ליצירת סרטונים מטקסט בוחנים בעיקר את גבולותיהם

סרטון אמו (מטא)

מלבד גוגל ו-OpenAI, גם מטה היא אחת מחברות הטכנולוגיה הגדולות שפעילות בפיתוח בינה מלאכותית. החברה שבבעלותה פייסבוק פיתחה גם בינה מלאכותית ליצירת סרטונים בשם Emu Video, שיכולה להמיר תמונות לטקסט ולאחר מכן להשתמש בהן כנתונים ליצירת קליפים.

Emu Video מקבל ביקורות חיוביות מבחני בטא, כאשר 81% מעדיפים אותו על פני Imagen Video (גוגל). מעל 90% בחרו במודל של Meta על פני PYOCO (Nvidia), אפילו טוב יותר מ-Make-A-Video של Meta (96%).

CogVideo (אוניברסיטת צינגהואה, סין)

בניגוד למודלים הנ"ל, שכולם מוצרים של חברות הטכנולוגיה המובילות בעולם , CogVideo היא בינה מלאכותית שפותחה על ידי צוות מחקר מאוניברסיטת צינגהואה - מוסד יוקרתי מוביל בסין וגם באסיה. התוכנית מבוססת על CogView2, מודל טקסט-לתמונה שאומן מראש.

מומחה אמנות המחשב גלן מרשל, שבדק את CogVideo, אמר ש"במאים עלולים לאבד את מקום עבודתם". הקליפ שלו, שנקרא "העורב ", שנוצר בעזרת CogVideo, זכה לשבחים רבים והיה מועמד לפרס האקדמיה הבריטית לקולנוע (BAFTA).

[מודעה_2]
קישור למקור