גוגל ג'מיני לוקחת את הבינה המלאכותית לשלב הבא: שינוי רקע, תסרוקת ושילוב תמונות בפקודה אחת בלבד

שדרוג גוגל ג'מיני משתמש במודל התמונה "ננו בננה" שפותח על ידי גוגל דיפמיינד. התכונה זמינה כעת ברחבי העולם למשתמשים בחינם ולמשתמשים בתשלום כאחד. היתרון הגדול ביותר שלה הוא היכולת לשמור על עקביות בין פנים ועצמים בתמונות, דבר שכלי בינה מלאכותית אחרים מתקשים בו לעתים קרובות.

"באמת שדרגנו את איכות התמונה ואת יכולתו של המודל לעקוב אחר הוראות", אמרה ניקול בריכטובה, ראש מוצר ב-DeepMind. "עדכון זה הופך את העריכה לחלקה יותר והתוצאות טובות מספיק לשימוש לכל מטרה."

שמור על "אתה" בכל תמונה

אחד הדברים שגורמים לתמונות בינה מלאכותית להיראות מזויפות הוא שפרטים קטנים מתעוותים. גוגל אומרת שג'מיני פותר את הבעיה הזו, ומאפשר לך לשנות את כל הסצנה תוך שמירה על הפנים וההבעה זהים. אתה יכול לנסות תסרוקת חדשה, לשנות את צבע הקיר או להכניס חיית מחמד לסצנה מבלי לדאוג לעיוות תמונה.

ערבוב תמונות יחד.gif — מיזוג תמונות עם הקשר חדש משתי תמונות קיימות באמצעות גוגל ג'מיני. מקור: גוגל

ג'מיני גם מאפשר לך להעלות מספר תמונות לשילובן לאחת, כמו שילוב של דיוקן עם החתול שלך כדי ליצור תמונה של שניכם רוכבים יחד על הכביש.

ג'מיני תומך בעריכה מרובת-סיבובים, המאפשרת למשתמשים להוסיף כל פרט לחלל: החל מטפטים, רהיטים ועד צבע. היתרון הוא שרק החלק שצריך לערוך משתנה, השאר נשאר זהה.

בנוסף, ג'מיני יכולה לשלב סגנונות בין תמונות. לדוגמה, להפוך מגפי גשם לנעליים עם הדפס פרחוני, או ליצור שמלה עם דוגמת פרפרים.

מרוץ יצירת תמונות בינה מלאכותית בין ענקיות הטכנולוגיה

השדרוג של גוגל מגיע כאשר מלחמת ההדמיה של הבינה המלאכותית מתחממת. OpenAI השיקה בעבר את GPT-4o, שיכול לייצר תמונות ישירות, והפכה ויראלית עם סדרת ממים בסגנון סטודיו ג'יבלי. המנכ"ל סם אלטמן חשף שמספר המשתמשים גדל עד כדי כך שמעבדי הגרפיקה של החברה כמעט "נמסו".

כדי לעמוד בקצב, מטה הכריזה על שותפות עם Midjourney, בעוד שסטארט-אפ הגרמני Black Forest Labs עם מודל FLUX שלו שולט במצעדים רבים.

עריכה מרובת תורות.gif — יכולות עריכת תמונות מרובות שלבים של גוגל ג'מיני. מקור: גוגל

גוגל מקווה שג'מיני תוכל לסגור את הפער עם צ'אטGPT. לדברי המנכ"ל סונדר פיצ'אי, לג'מיני יש כיום 450 מיליון משתמשים חודשיים, הרבה פחות מצ'אטGPT, שיש לה יותר מ-700 מיליון משתמשים שבועיים.

בריכטובה אמרה ש-Gemini מיועד לתרחישים מהעולם האמיתי, החל מהדמיית חדרי מגורים וגנים ועד ליצירת תמונות משעשעות. למודל יש "הבנה טובה יותר של העולם ", והוא יכול לשלב מספר תמונות ופלטות צבעים לרינדור יחיד.

עם זאת, גוגל גם קובעת מגבלות נוקשות. לכל התמונות שנוצרות יש סימן מים ברור ומזהים נסתרים במטא-דאטה. החברה אוסרת בתכלית האיסור על יצירת תמונות רגישות באופן לא רצוני כדי למנוע שימוש לרעה ב"זיוף עמוק".

גוגל התנצלה בעבר על התמונות ההיסטוריות הלא מדויקות של ג'מיני. הפעם, החברה מאמינה שהיא מצאה איזון בין יצירתיות לבטיחות. "אנחנו רוצים שמשתמשים יהיו יצירתיים, אבל לא הכל מותר", הדגישה בריכטובה.

עם Gemini 2.5 Flash Image, גוגל מהמרת על שיפור חוויית עריכת התמונות מבוססת הבינה המלאכותית, בתקווה לשמר משתמשים ותיקים ולמשוך חדשים במרוץ טכנולוגי עז מול OpenAI, Meta ומתחרות אחרות.

(לפי TechCrunch, המדריך של טום)

תמורת 85 מיליון דונג וייטנאמי לכל "מוח", אנבידיה סוללת את הדרך לעידן בני האדם שבונים רובוטים. אנבידיה השיקה זה עתה את Jetson AGX Thor - שבב המכונה "מוח רובוטי", המסוגל לעזור למכונות לראות, לחשוב ולפעול כמו בני אדם, ופתחה את מרוץ הבינה המלאכותית הפיזית במחיר של 3,499 דולר.

מקור: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html