לימוד בינה מלאכותית לבטא צליל

בהשראת המכניקה של הגרון, מודל חדש של בינה מלאכותית (AI) יכול לייצר ולהבין סימולציות של צלילים יומיומיים.

שיטה זו יכולה לתמוך בפיתוח ממשקי שמע חדשים עבור מגזרי הבידור והחינוך .

חיקוי צלילים בעזרת הקול שלך הוא כמו רישום תמונה מהירה כדי להעביר משהו שראית. במקום להשתמש בעיפרון כדי להמחיש את התמונה, אתה משתמש בקולות שלך כדי לבטא את הצליל. אמנם זה אולי נראה קשה, אבל זה משהו שכולם עושים באופן טבעי. נסו לחקות סירנת אמבולנס, צרחת עורב או פעמון כדי לחוות זאת.

בהשראת המדע הקוגניטיבי על האופן שבו אנו מתקשרים, חוקרים במעבדה למדעי המחשב ובינה מלאכותית (CSAIL) של MIT פיתחו מערכת בינה מלאכותית המסוגלת לייצר סימולציות צלילים אנושיות ללא אימון ומבלי ש"שמעו" אי פעם צלילים מדומים על ידי בני אדם קודם לכן.

כדי להשיג זאת, צוות המחקר תכנן את המערכת שלהם לייצר ולפרש צליל באופן המחקה דיבור אנושי. הם החלו בבניית מודל של מערכת הקול האנושית, המדמה כיצד תנודות מהגרון מעוצבים על ידי הגרון, הלשון והשפתיים. לאחר מכן, הם השתמשו באלגוריתם בינה מלאכותית בהשראה קוגניטיבית כדי לתפעל מודל זה, ויצרו סימולציות צליל תוך התחשבות בדרכים הספציפיות של תקשורת קולית בכל הקשר.

מודל זה יכול לשחזר מגוון רחב של צלילים סביבתיים, כגון רשרוש עלים, נשיפות נחשים או סירנה של אמבולנס. יתר על כן, המודל יכול לפעול הפוך כדי לחזות צלילים אמיתיים מסימולציות של דיבור אנושי, בדומה לאופן שבו מערכות ראייה ממוחשבת מסוימות משחזרות תמונות באיכות גבוהה מסקיצות. לדוגמה, המודל יכול להבחין במדויק בין צליל של חתול מילל לבין צליל של חתול גרגור כאשר אדם מחקה אותו.

בעתיד, מודל זה יוכל להוביל לממשקים אינטואיטיביים יותר "מבוססי סימולציה" עבור מעצבי סאונד, דמויות בינה מלאכותית אנושיות יותר במציאות מדומה, ואפילו שיטות שיסייעו לתלמידים ללמוד שפות זרות.

מחברי המחקר הראשיים - הסטודנטים לתואר שני קרטיק צ'אנדרה (MIT CSAIL), קרימה מא וסטודנט המחקר מתיו קארן - מציינים כי חוקרי גרפיקה ממוחשבת הכירו זה מכבר בכך שריאליזם אינו המטרה הסופית של ביטוי חזותי. לדוגמה, ציור מופשט או שרבוט של ילד יכולים להיות אקספרסיביים בדיוק כמו תצלום.

אמנות חיקוי הצליל דרך 3 שלבים

הצוות פיתח שלוש גרסאות מתוחכמות יותר ויותר של המודל כדי להשוות אותן לסימולציות של צלילים אנושיים. ראשית, הם יצרו מודל בסיסי שהתמקד אך ורק ביצירת סימולציות הדומות ביותר לצלילים אמיתיים, אך מודל זה לא תאם את ההתנהגות האנושית.

לאחר מכן, הצוות עיצב מודל שני שנקרא מודל "התקשורת". לדברי קארן, מודל זה מתחשב באלמנטים האופייניים של הצליל עבור המאזין. לדוגמה, ניתן לחקות את צלילה של ספינה על ידי סימולציית שאגת המנוע שלה, שכן זהו המאפיין המוכר ביותר של הצליל, אם כי הוא אינו האלמנט המשמעותי ביותר (כמו למשל, צליל המים מתחממים). מודל זה היווה שיפור משמעותי לעומת הגרסה הראשונה.

לבסוף, צוות המחקר הוסיף שכבת חשיבה נוספת למודל. צ'נדרה הסביר, "הצלילים המדומים יכולים להשתנות בהתאם לכמות המאמץ שמשקיעים בכך. יצירת צלילים מדויקים דורשת זמן ואנרגיה." המודל המלא של הצוות מתחשב בכך על ידי הימנעות מצלילים מהירים מדי, חזקים מדי או גבוהים/נמוכים מדי - אלמנטים שפחות סבירים להופיע בתקשורת רגילה. התוצאה היא סימולציות צלילים אנושיות יותר, המשקפות רבות מההחלטות שבני אדם מקבלים כשהם מחקים צלילים דומים.

לקראת טכנולוגיית שמע אקספרסיבית יותר.

מודל זה יכול לסייע לאמנים לתקשר צליל עם מערכות מחשוב בצורה יעילה יותר, ולסייע ליוצרי סרטים וליוצרי תוכן לייצר צלילים מבוססי בינה מלאכותית הרלוונטיים יותר להקשרים ספציפיים. הוא יכול גם לאפשר למוזיקאים לחפש במהירות במאגרי מידע של צלילים על ידי סימולציה של צליל שקשה לתאר בכתב.

בינתיים, צוות המחקר בוחן יישומים של מודל זה בתחומים אחרים, כולל התפתחות שפה, כיצד תינוקות לומדים לדבר, והתנהגות חיקוי של ציפורים כמו תוכים או ציפורי שיר.

עם זאת, למודל הנוכחי עדיין יש כמה מגבלות: הוא מתקשה עם עיצורים כמו "z", מה שמוביל לסימולציות לא מדויקות של צלילים כמו זמזום. בנוסף, הוא עדיין לא יכול לשחזר את האופן שבו בני אדם מחקים דיבור, מוזיקה או את הצלילים השונים המחקים בשפות שונות, כמו פעימות לב.

פרופסור לבלשנות רוברט הוקינס באוניברסיטת סטנפורד ציין: "המעבר מצליל של חתול אמיתי למילה 'מיאו' מדגים את יחסי הגומלין המורכבים בין פיזיולוגיה, חשיבה חברתית ותקשורת באבולוציה של השפה. מודל זה הוא צעד מרגש קדימה בפורמליזציה ובחינת תיאוריות על תהליכים אלה."

(מקור: חדשות MIT)

[מודעה_2]
מקור: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html