Virtuální hudba, skutečné starosti.

Aplikace umělé inteligence v hudbě se v naší zemi stává stále populárnější. Někteří vnímají umělou inteligenci jako rozšíření tvůrčích a interpretačních aspektů hudby. Jiní však vnímají virtuální hudbu jako nebezpečí, protože hranice mezi tvorbou a imitací, uměním a neuměním zůstává poměrně nejasná.

Nové pokroky

Ann – první oficiálně uznaná virtuální zpěvačka z Vietnamu – nedávno vydala svůj druhý hudební produkt s názvem „Cry“. Na rozdíl od své debutové písně „How Can I Say I Love You“, která byla loni baladou, Annin návrat tentokrát ukazuje změnu hudebního stylu i image. „Cry“ je napsána v rockovém žánru.

Její vokální styl byl upraven na dětský hlásek. Annin obraz v hudebním videoklipu „Cry“ je výrazný a individualistický, což je v ostrém kontrastu s jejím jemným a něžným vzhledem v jejím prvním videoklipu. Annin videoklip k písni „How Can I Say I Love You“ čelil vlně kritiky. Její vzhled byl kritizován za nezapomenutelný, její výrazy nepřirozené, pohyby rtů nekonzistentní a její strnulé chování v každé scéně. Obsah a melodie písně byly v široké škále skladeb na trhu považovány za nevýrazné.

Virtuální zpěvačka Ann ukazuje v hudebním videoklipu „Cry“ mnoho pozitivních změn.

Po roce a půl naslouchání zpětné vazbě od veřejnosti provedl tým na Annině hlase mnoho vylepšení a úprav. Proto je tento návrat, od jejího vokálu až po vizuální efekty a výrazy, přirozenější a rozmanitější. Na tiskové konferenci k uvedení videoklipu se Ann dokonce objevila jako skutečná osoba, aby píseň zazpívala. Na rozdíl od dvou virtuálních zpěváků, My Chau a Dam San, kteří byli představeni na hudebním festivalu Ho Do 2022, Annin hlas nebyl dabován skutečnou, anonymní zpěvačkou, ale spíše kombinací algoritmů umělé inteligence a skutečných zvuků k vytvoření požadovaného vokálního tónu. Videoklip „Cry“ je považován za nový krok vpřed v hudbě produkované technologií umělé inteligence.

Nedávno se umělá inteligence experimentálně objevila i v některých hudebních videích skutečných zpěváků, což publiku přineslo nový pohled na svět. V červenci zpěvák Dan Truong upoutal pozornost, když ve svém hudebním videu „Em Oi Vi Dau“ aplikoval 100% umělou inteligenci. Vietnamský venkov, záběry pracovitých farmářů a dokonce i portrét Dana Truonga při zpěvu, to vše umělá inteligence zpracovala s realistickými pohyby. Podpora této technologie jemu a jeho týmu ušetřila námahu s cestou do studia nebo natáčením na místě.

Podobu zpěváka Dana Truonga vytvořila umělá inteligence v hudebním videu „Em ơi ví dầu“.

Dan Truong se podělil: „Tým umělé inteligence použil mnoho mých obrázků k vytvoření co nejpřesnější reprezentace postavy. V průměru jsme k vytvoření čtyřsekundového klipu potřebovali 4 až 16 obrázků. K dokončení tohoto videoklipu bylo použito přes 600 obrázků s různými nástroji umělé inteligence.“ Protože to bylo poprvé, co tým Dana Truonga experimentoval s umělou inteligencí, i přes jejich úsilí měla vizuální stránka videoklipu stále mnoho omezení. V některých scénách vypadaly venkovské scenérie strnule a uměle. Synchronizace rtů a výrazy obličeje ve verzi s umělou inteligencí neodpovídaly jeho vokálu. Přestože byl Dan Truong kritizován, uvedl, že tento počáteční experiment pomohl jemu a jeho týmu naučit se cenné lekce pro vytváření lepších produktů v budoucnu.

Také „magnát v oblasti natáčení mobilních filmů“ Pham Vinh Khuong ohromil mnoho lidí svým hudebním videem „The Picture of Dai Viet“, které ilustruje píseň „Nam Quoc Son Ha“ (hudební soubor DTAP, interpreti zpěváci Phuong My Chi a Erik). Různé nástroje umělé inteligence byly využity v plném rozsahu k vytvoření pětiminutového hudebního videa chválící vietnamskou krajinu, kulturu a hrdou čtyřtisíciletou historii. Pham Vinh Khuong uvedl, že díky zjednodušení mnoha procesů umělou inteligencí činily náklady na produkci hudebního videa pouhé tři miliony dongů. Naproti tomu u konvenčních produkčních metod (tj. herci, natáčení historických scén a natáčení na místě od severu k jihu) by minimální náklady na hudební video činily tři miliardy dongů.

Skladatel a zvukař Nguyen Hoang Bao Dai.

Pouhé online vyhledávání „jak skládat písně pomocí umělé inteligence“ rychle přináší řadu výsledků. Uživatelé stačí k vytvoření písně dodržet jen několik technických kroků v dostupných aplikacích nebo softwaru. Nejvýznamnější postavou při budování modelu „psaní písní s umělou inteligencí“ je hudebník a inženýr Nguyen Hoang Bao Dai.

Mladý muž ve věku kolem dvaceti let vytvořil model umělé inteligence, který dokáže složit 10 vietnamských písní během jediné sekundy. Mechanismus je poměrně jednoduchý. Uživatelé stačí zadat do stroje několik hudebních not nebo krátkou melodii a stisknout tlačítko; umělá inteligence automaticky dokončí píseň a vygeneruje mnoho unikátních, kompletních verzí. Uživatelé si pak mohou vybrat svou oblíbenou píseň nebo ji nechat upravovat, dokud nejsou spokojeni. Tento model umělé inteligence je tak inteligentní, že i když hudebník nemá žádné nápady nebo neposkytne žádné návrhy, umělá inteligence stále dokáže skládat hudbu podle vlastních přání. Model Bảo Đạiho je navíc připraven vytvářet hudební videa na základě textových návrhů.

Velký potenciál, mnoho starostí.

Na workshopu „Aplikace umělé inteligence v současné hudební kompozici“, který se konal v červnu v Ho Či Minově Městě, hudebníci a odborníci uznali, že ačkoli je stále v plenkách, budoucí exploze aplikací umělé inteligence v hudbě je nevyhnutelným trendem, protože pomáhá lidem vytvářet hudbu inteligentněji, pohodlněji a s větší rozmanitostí.

Podle hudebníka Nong Xuan Hieua je výhodou umělé inteligence to, že dokáže skládat kompletní hudební díla s minimálním lidským zásahem. Nabízí hudebníkům mnoho nových kreativních směrů. Umělá inteligence dokáže automaticky vytvářet hudbu, vytvářet virtuální nástroje, analyzovat hudbu a pomáhat s harmonizací a aranžmá. Umělá inteligence se neomezuje pouze na produkci, ale také se účastní živých vystoupení, interaguje s publikem a shromažďuje a analyzuje zpětnou vazbu od publika z různých online platforem a mediálních kanálů. „Nástroje umělé inteligence se budou i nadále vyvíjet, budou chytřejší a snadněji použitelné a umožní všem, i těm s malými hudebními znalostmi, skládat a produkovat vysoce kvalitní hudbu. Pochopení a správné využívání technologií umělé inteligence pomůže hudebnímu průmyslu prosperovat, poskytne více kreativních příležitostí a zlepší poslechový zážitek,“ uvedl hudebník Nong Xuan Hieu.

Hudební video „The Picture of Dai Viet“ bylo vytvořeno výhradně s využitím umělé inteligence.

Samotný model virtuálního zpěváka představuje v zemích s rozvinutým hudebním průmyslem, jako je Japonsko, Jižní Korea a Čína, lukrativní trh. Mnoho virtuálních zpěváků se stalo idoly mladých lidí a svým tvůrcům přinášejí obrovské zisky. Například Hatsune Miku a Apoki generují ročně pro japonský zábavní průmysl desítky milionů dolarů. V Číně je Luo Tianyi nejoblíbenějším virtuálním zpěvákem s četnými sólovými vystoupeními. Ve Vietnamu je model virtuálního zpěváka sice stále v plenkách, ale prokázal skvělou schopnost pochopit obecný trend.

BoBo Dang, „tvůrce“ virtuální zpěvačky Ann, prozradil, že jeho svěřenkyně se neustále vylepšuje, aby byla připravena vystupovat na hudebních pódiích a komunikovat s fanoušky jako skutečná osoba. „Jedním z našich nadcházejících cílů je, aby Ann mohla komunikovat jako skutečná osoba a spolupracovat s dalšími umělci. Vedli jsme velmi slibná jednání s manažery dalších zpěváků. Ann bude jistě v blízké budoucnosti moci spolupracovat se skutečnými zpěváky. Většina organizátorů show má optimální plány podpory, pokud chce Ann vystupovat na pódiu,“ řekl.

Přestože otevírá široké obzory, virtuální hudba stále vyvolává mezi profesionály obavy. V první řadě je to otázka emocí a osobní identity v hudebních produktech. Dr. Nguyen Bach Mai z Univerzity Nguyen Tat Thanh poukazuje na to, že umělá inteligence má stále omezení, pokud jde o emoce, a při tvorbě hudby se primárně spoléhá na šablony a algoritmy, takže jí často chybí autenticita a jemnost, a nemůže se srovnávat s emocemi odvozenými z reálných lidských zkušeností. Schopnost umělé inteligence vcítit se je navíc omezená a není tak přirozená jako u lidí. Zejména umělá inteligence často bojuje s improvizační a nekonvenční tvorbou, v čemž hudebníci obvykle vynikají. Nedostatek emocí, autenticity a osobní identity vede k tomu, že hudba generovaná umělou inteligencí je považována za neuměleckou.

Díky umělé inteligenci může i někdo, kdo nezná jedinou notu, vytvořit novou píseň. To snadno vede k riziku uspokojení skladatelů, kteří se na umělou inteligenci zcela spoléhají. Mohou se stát uspokojenými a věřit, že k tomu, aby se hrdě nazývali hudebníky, nepotřebují mnoho učení ani tréninku. To platí zejména tehdy, když tvůrce modelu „hudby psané umělou inteligencí“ tvrdí: „V minulosti si lidé při poslechu hudby složené stroji mohli okamžitě uvědomit rozdíl. Ale nyní, s neustále rostoucím množstvím dat a stále inteligentnějšími algoritmy, už rozdíl mezi hudbou napsanou umělou inteligencí a hudbou napsanou lidmi není jasný.“

Dalším problémem jsou autorská práva. Podle hudebníka Nong Xuan Hieua, když se umělá inteligence učí z existujících hudebních děl vytvářet nová, hranice mezi tvorbou a kopírováním se stírá. To vyvolává otázky ohledně práv duševního vlastnictví. S tímto názorem se shoduje i Dr. Nguyen Bach Mai, který tvrdí, že určení práv duševního vlastnictví pro hudební díla generovaná umělou inteligencí je složitá otázka. „Kdo bude vlastnit autorská práva – hudebník, vývojář umělé inteligence, nebo oba? Používání umělé inteligence v hudebním skládání by mohlo být považováno za neetické, pokud by zcela nahrazovalo roli hudebníka a snižovalo hodnotu lidské kreativity.“

Pan Dinh Trung Can, ředitel Vietnamského centra pro ochranu autorských práv k hudbě, uvedl: „V současné době zákony o autorských právech ve Vietnamu nedrží krok s rozvojem umělé inteligence. Protože zákonu chybí jasná pravidla pro uznávání autorských práv a souvisejících práv k produktům vytvořeným umělou inteligencí, centrum je opomíjeno.“

V souvislosti s modelem virtuální zpěvačky se objevila řada protiargumentů od světoznámých hvězd, že jejich image a hlasy byly kradeny za účelem vytváření hudebních produktů poháněných umělou inteligencí. Když Ann poprvé debutovala, setkala se také s mnoha negativními ohlasy, když se její hlas údajně velmi podobal hlasu slavné místní zpěvačky. Annin vokální styl, který čelil negativní reakci publika, se při jejím comebacku s hudebním videoklipem „Cry“ výrazně změnil, aby se vyhnula obvinění z napodobování.

Vzhledem k etickým a autorským obavám odborníci doporučují, aby uživatelé umělé inteligence vnímali umělou inteligenci pouze jako nástroj, který pomáhá s produkcí a interpretací hudby, nikoli jako úplnou náhradu za lidskou činnost. Harmonická spolupráce mezi hudebníky a umělou inteligencí usnadní hudební produkci a ušetří čas, peníze a úsilí. Umělá inteligence dokáže navrhovat kreativní nápady, automatizovat úkoly, jako je aranžování a mixování, a měřit zpětnou vazbu z trhu. Hudebníci budou mít více času soustředit se na oblasti vyžadující intelektuální investice, jako je psaní textů a skládání melodií. Pohled na umělou inteligenci jako na nástroj, který v konečném důsledku vede umělce k odpovědnosti za jejich práci, zvyšuje efektivitu produkce, aniž by snižoval individualitu a identitu umělce.

Zdroj