Sztuczna inteligencja odtwarza głos Brytyjki, która 25 lat temu straciła zdolność mówienia.

Brytyjka cierpiąca na stwardnienie zanikowe boczne (MND), przez które straciła zdolność mówienia, może znów komunikować się za pomocą własnego głosu dzięki technologii sztucznej inteligencji (AI) oraz 8-sekundowemu nagraniu audio ze starego rodzinnego filmu wideo .

Sarah Ezekiel, artystka mieszkająca w północnym Londynie, straciła zdolność mówienia, gdy w wieku 34 lat zdiagnozowano u niej stwardnienie zanikowe boczne (SMD), gdy 25 lat temu była w ciąży z drugim dzieckiem.

Choroba ta uszkadza układ nerwowy, osłabiając mięśnie języka, ust i gardła, przez co niektórzy pacjenci tracą całkowicie zdolność mówienia.

Przez wiele lat Ezekiel musiała korzystać z komputerów i technologii generowania głosu, aby się komunikować, ale głos, który w rezultacie wydawała, nie brzmiał jak jej własny. Jej dwoje dzieci, Aviva i Eric, dorastało, nie znając prawdziwego głosu swojej matki.

W ostatnich latach eksperci zdołali wykorzystać technologię do odtworzenia oryginalnego głosu danej osoby. Technika ta wymaga jednak długich, wysokiej jakości nagrań, a uzyskany głos często uznaje się za „monotonny”.

Simon Poole, przedstawiciel brytyjskiej firmy medialnej Smartbox zajmującej się medycyną , powiedział, że firma początkowo zwróciła się do pani Ezekiel z prośbą o dostarczenie 60-minutowego nagrania.

Pani Ezekiel znalazła jednak tylko bardzo krótki, słabej jakości klip, pochodzący z rodzinnego filmu wideo z lat 90. Klip miał zaledwie 8 sekund długości, był zniekształcony i zawierał szum tła z telewizora.

Pan Poole zwrócił się ku technologii opracowanej przez ElevenLabs, nowojorską firmę zajmującą się generowaniem głosu przy użyciu sztucznej inteligencji, która potrafi odtworzyć realistyczne głosy, wykorzystując niewielką ilość danych.

Pan Poole użył narzędzia opartego na sztucznej inteligencji, aby oddzielić głos od starego nagrania, a następnie użył innego narzędzia – przeszkolonego na podstawie prawdziwych danych głosowych – aby stworzyć produkt końcowy.

Wyniki głęboko poruszyły panią Ezekiel. Odtworzony głos był bardzo podobny do jej własnego, z charakterystycznym londyńskim akcentem i lekkim seplenieniem, którego wcześniej nie lubiła.

Według brytyjskiego stowarzyszenia MND (Brytyjskiego Stowarzyszenia Stwardnienia Rozsianego), osiem na dziesięć osób z tą chorobą doświadcza trudności w mówieniu po postawieniu diagnozy. Jednak obecnie generowane komputerowo głosy są często krytykowane za brak rytmu i emocji.

Pan Poole stwierdził, że obecny postęp w technologii sztucznej inteligencji polega na jej zdolności do tworzenia ludzkich i ekspresyjnych głosów, „tchnąc w ten sposób życie” w dotychczas monotonne głosy komputerowe. Podkreślił, że personalizacja głosów to również sposób na zachowanie indywidualnej tożsamości.

Obecnie osoby zagrożone utratą zdolności mówienia z powodu takich schorzeń jak stwardnienie zanikowe boczne, często zachęca się do nagrywania swojego głosu tak wcześnie, jak to możliwe, w celu zachowania swojej tożsamości i na potrzeby przyszłej komunikacji.

Jednak zanim smartfony stały się popularne, uzyskanie porządnych nagrań nie było łatwe./.

(VNA/Wietnam+)

Źródło: https://www.vietnamplus.vn/ai-tai-tao-giong-noi-cho-mot-phu-nu-anh-mat-kha-nang-noi-25-nam-post1057350.vnp