Maschinelle Übersetzung ist eine der erfolgreichsten Anwendungen künstlicher Intelligenz in der Verarbeitung natürlicher Sprache. Hochwertige maschinelle Übersetzungssysteme wie Google Translate oder Microsoft Bing Translator benötigen umfangreiche zweisprachige Datensätze mit bis zu Millionen von Satzpaaren, um das Modell zu trainieren.
Viele Sprachen weltweit verfügen jedoch nicht über genügend Ressourcen. Daher ist die Entwicklung eines effektiven maschinellen Übersetzungsmodells für ressourcenarme Sprachen, einschließlich derjenigen Südostasiens, äußerst dringend und eine große Herausforderung.
Das Institut für Informationstechnologie (Vietnam Academy of Science and Technology) hat kürzlich die modernste maschinelle Übersetzungstechnologie erforscht und entwickelt. Diese Abteilung hat außerdem erfolgreich ein mehrsprachiges Textübersetzungssystem zwischen Vietnamesisch und Regionalsprachen wie Laotisch, Khmer, Thailändisch, Malaysisch und Indonesisch entwickelt.
Laut dem Entwickler stellen Sprachen wie Lao, Thailändisch und Khmer eine große Herausforderung beim Erstellen maschineller Übersetzungsmodelle dar. Die Schwierigkeit liegt nicht nur am Mangel an zweisprachigen Daten, sondern auch daran, dass diese Sprachen morphologisch reichhaltig sind und es ihnen an Wortsegmentierung, Satzsegmentierung und Polysemie mangelt.
Das vom Institut für Informationstechnologie entwickelte KI-Modell hat gelernt, sich an alle Besonderheiten der oben genannten Sprachen anzupassen. Dadurch ermöglicht die Software bei Bedarf die schnelle Integration weiterer Sprachen mit einer Übersetzungsqualität, die der von modernen Fremdsprachenprodukten entspricht.
Das Besondere daran ist, dass diese mehrsprachige Übersetzungssoftware separat läuft, Daten lokal speichert und nicht die API anderer Dienstanbieter nutzt. Dies gewährleistet Sicherheit und verhindert Informationsverluste.
Ein Problem von Übersetzungssystemen wie Google Translate oder Bing Translator ist ihre domänenspezifische Anpassungsfähigkeit. Das heißt, sie liefern gute Übersetzungen für allgemeine, gängige Sprachen, die die breite Masse bedienen, liefern aber in spezialisierten Sprachen wie Medizin , Recht, Sicherheit usw. eine schlechte Übersetzungsqualität.
Um die oben genannten Mängel zu beheben, hat das Forschungsteam am Institut für Informationstechnologie ein vietnamesischzentriertes Übersetzungssystem entwickelt, das eine bidirektionale Übersetzung in ressourcenarme Sprachen mit guter Qualität ermöglicht.
Insbesondere bietet diese Software für denselben Text die gleiche oder eine höhere Qualität als Google Translate. Darüber hinaus beschränkt die Software die Textlänge nicht.
Im Zeitraum 2022–2023 konzentriert sich das System auf den Einsatz von Techniken großer Sprachmodelle (LLMs), wobei die folgenden Sprachpaare priorisiert werden: Vietnamesisch – Khmer, Vietnamesisch – Laotisch, Vietnamesisch – Thailändisch, Vietnamesisch – Malaiisch und Vietnamesisch – Indonesisch.
Die Software des Instituts für Informationstechnologie gewährleistet in der englischen Sprache (einer äußerst umfangreichen Datenquelle und einer der wichtigsten Stärken von Google) eine Qualität, die der von Google Translate nahezu entspricht. Insbesondere ist das System in der Lage, sich an Fachsprachen wie Medizin, Recht usw. anzupassen, je nach den spezifischen Anforderungen der Partner.
Dieses System wurde vom Forschungsteam selbst entwickelt und basiert auf der technischen Infrastruktur, die die Speicherung großer Sprachdaten und die stärkste Supercomputerkapazität für künstliche Intelligenz/maschinelles Lernen (KI/ML) in Vietnam unterstützt.
Das Institut für Informationstechnologie beherrscht die relevanten Technologien umfassend. Daher kann diese Einheit die Anwendung bei Bedarf problemlos auf neue Zielsprachen erweitern, darunter auch auf die Sprachen ethnischer Minderheiten in Vietnam (die oft nur über sehr wenige Datenressourcen verfügen) wie Muong, Thai usw. sowie auf beliebte Fremdsprachen wie Chinesisch, Französisch, Russisch usw.
Diese mehrsprachige Übersetzungssoftware „Made in Vietnam“ soll die Lösung für das Problem des Informationszugangs für ethnische Minderheiten sein.
[Anzeige_2]
Quelle
Kommentar (0)