Künstliche Intelligenz und seltene Sprachen

Die großen Sprachmodelle, die natürliche Sprachkommunikation simulieren, Nachrichten generieren, Daten in lesbare Texte umwandeln, lange Essays zusammenfassen und Werbeslogans erstellen können, basieren auf umfangreichen Textdaten. Diese Trainingsdaten sind größtenteils in englischer Sprache verfasst. Es ist möglich, solche Modelle relativ einfach auf Sprachen anzuwenden, die eng mit dem Englischen verwandt sind, indem Anfragen ins Englische übersetzt und die Antworten wiederum zurückübersetzt werden, z. B. ins Deutsche.

Aber auch bei europäischen Sprachen wie Deutsch geht dabei ein Teil der sprachlichen Vielfalt verloren. Bei Sprachen, die stark vom Englischen abweichen, wie Thai, Vietnamesisch, Hindi oder Suaheli, wird dies zu einem noch größeren Problem. Hinzu kommt, dass diese Sprachen zwar von vielen Menschen gesprochen werden, aber nur wenig in digitalisierter Form vorliegen, womit das Training der Textmodelle erschwert wird. Man spricht von so genannten Low Resource Languages.

Welche neuen Kommunikationsprobleme entstehen, besonders in sozialen Situationen, wenn diese Sprachwelten aufeinandertreffen? Wie wirkt sich die durch KI geprägte Sprache der Medizin auf die Alltagssprache traditioneller Sprachen aus? Darüber habe ich einen Vortrag für das Afrika-Asien-Institut der Universität Hamburg, die Hamburger Gesellschaft für Thaiistik und das Bernhard-Nocht-Institut für Tropenmedizin gehalten. Der Vortrag ist online bei YouTube verfügbar.

https://youtu.be/YQBoUdj6Y7Y?si=IL3oi485ZfPGThhG