De nieuwe steen van Rosetta

Door | 21 juli 2011 | 0 Comments | Geplaatst onder: Misc

image

The Long Now Foundation, die de drijvende kracht achter de 10.000 jaar klok project, heeft een paar andere projecten de moeite waard over. Het Rosetta-project is een initiatief dat probeert om elke menselijke taal (in het huidige gebruik) te documenteren. De bedoeling is het creëren van een repository (in de zeer lange termijn), die zou toestaan ​​dat degenen die ons volgen naar een schoon en eenvoudig toegang hebben tot zoveel mogelijk informatie als mogelijk is.

Dit zal een voor de hand liggende schatkamer voor antropoloog en taalkundigen zijn, en de implicatie is dat in sommige post apocalyptische wereld. Toekomstige generaties zullen zo veel hulp nodig hebben als we ze kunnen geven ...

Als u geïnteresseerd bent in de Foundation Isaac Asimov's serie van science fiction boeken, zal dit veel zin ...

Het Rosetta-project is behoud van elke taal ooit gesproken, op een Nano-Geëtste stuk metaal

Een project van de Long Now Foundation, is het de bedoeling om ervoor te zorgen dat we het behoud van de kennis die in het sterven talen: "Als talen zijn onze how-to gidsen voor het leven op de planeet Aarde, zijn we overhandigen onze nakomelingen een encyclopedie met bijna alle van de pagina's gerukt. "

Je probeert een record van alle talen in de wereld te maken. Hoe ga je dat?

Er zijn ongeveer 7000 talen gesproken in de wereld van vandaag, en het is waarschijnlijk dat we zullen verliezen ten minste de helft van hen-en sommigen zeggen tot 90% in de komende 100 jaar. Met al onze middelen in combinatie (geld, deskundigen in het veld, communautaire initiatieven) hebben we een hoop van misschien documenteren 500 talen in de nabije toekomst, maar we moeten deze schaal tot ongeveer 5.000. De enige manier waarop ik kan zien om dit te doen is door het aantrekken van sprekers van talen zich aan hun eigen taal documenten te produceren. Dus, de vraag wordt dan: Wat is de minimale hoeveelheid bruikbare taal documentatie van de gemiddelde persoon zou kunnen produceren? Ik zou zeggen dat het een verbale tekst-idealiter een korte video-en dan zou ik moeten weten welke taal de gebruiker denkt dat de opname is in de (gedetailleerde informatie kan later worden gedaan).

De realisatie Ik heb te komen in het afgelopen jaar of zo is de meesten van ons zijn die rond taal documentatie apparaten in onze eigen tas of broekzak-video is ingeschakeld mobiele telefoons, camera's, laptops. Als u projecteren 10 jaar, deze apparaten worden wereldwijd overal, en dan iedereen kan aanmaken en een bijdrage leveren taal documentatie om een ​​centrale repository. Dan, als we monteren een verzameling van video's voor een bepaalde taal, kunnen we beginnen te verrijken met transcripties, vertalingen, aantekeningen, dat wil zeggen het bouwen van een corpus.

Hoe zullen toekomstige onderzoekers gebruik maken van die gegevens, en wat inzichten zullen zij in staat zijn om op te lezen?

Een corpus kan gebruikt worden op veel verschillende manieren, een klein corpus kan leren van talen en lesmateriaal, evenals materialen voor de bouw van taalkundige bronnen zoals grammatica's en woordenboeken (dit is het soort taal documentatie taalkundigen zijn de productie van vandaag). Dan, met een groter corpus-zeggen tientallen uren van de getranscribeerde spraak, kunnen we beginnen met het bouwen van akoestische modellen voor spraakherkenning. Met een paar miljoen woorden we kunnen beginnen met automatische vertaling te doen. En dit zijn de tools waarmee een taal te gebruiken online-die ik zou willen stellen is een belangrijk nieuw domein voor het taalgebruik in de moderne wereld.

Hoe zal het corpus verzameld door de Rosetta-project verschillen van andere archieven van natuurlijke taal?

De meeste taal-archieven richten op talen van een bepaalde regio, of gegevens die worden verzameld onder de paraplu van een bepaald project. Het Rosetta-project is heel anders in dat willen we informatie verzamelen op en in alle menselijke talen-all 7.000 van hen. Niet alleen is dit een grote inspanning, het is ook een grote uitdaging voor hoe organiseer je al die informatie en maken het bruikbaar voor veel verschillende groepen mensen, van taalspecialisten, om bedreigde taal taalgemeenschappen, aan de geïnteresseerde publiek, om een lagere school leraar of student.

Related Posts Plugin voor WordPress, Blogger ...
Wees Gezellig, Share!
Tags:
Plaats commentaar als Twitter logofacebook-logo
Sorteren: Nieuwste | Oudste

Vertaler

Abonneren