VormingKolleges en universiteite

Wat is Korpuslinguistiek?

Net 'n paar dekades gelede aan die taalkundige navorsing te outomatiseer, kan wetenskaplikes net kan droom van. Die werk is met die hand gedoen, dit lok 'n groot aantal studente, is daar 'n aansienlike waarskynlikheid "sorgelose" foute, en die belangrikste - dit alles het 'n lang, lang tyd.

Met die ontwikkeling van rekenaartegnologie moontlik geword het om navorsing te doen oor die orde van grootte vinniger, en vandag een van die mees belowende rigtings in die studie van taal is 'n corpuslinguïstiek. Die belangrikste kenmerk is die gebruik van groot hoeveelhede teks inligting, inligting in 'n enkele databasis, in 'n spesiale manier en roep die gemerkte liggaam.

Tot op datum is, is daar baie geboue wat gemaak is met verskillende doeleindes op die basis van verskeie taalkundige materiaal wat strek vanaf miljoene aan tien van miljarde leksikale eenhede. Hierdie rigting word erken as 'n belowende en toon beduidende vordering ten opsigte van die aansoek en navorsing doeleindes. Kenners, een of ander manier hantering met natuurlike taal, word dit aanbeveel om kennis te maak met die liggaam van tekste ten minste op 'n basiese vlak.

Geskiedenis van corpuslinguïstiek

Die vorming van hierdie tendens is te wyte aan die skepping van die Verenigde State van Amerika by Brown liggaam in die vroeë 60-er jare van die vorige eeu. Die versameling sluit die tekste van al 1000000 van woordvorme, en vandag die liggaam van hierdie grootte sal heeltemal onmededingende wees. Dit is grootliks te danke aan die tempo van ontwikkeling van rekenaartegnologie, sowel as die groeiende aanvraag na nuwe bronne navorsing.

In die 90s corpuslinguïstiek na vore gekom in 'n volle en onafhanklike dissipline, het 'n versameling van tekste opgestel en gemerk vir dekades van tale. In hierdie tydperk is geskep, byvoorbeeld die Britse Nasionale Corpus as 100 miljoen tekens.

Met die ontwikkeling van hierdie gebied van die taalkunde, is teks volumes besig om meer en meer (en bereik miljarde woordeboek eenhede), en die uitleg is besig om meer divers. Tot op datum is, kan die Internet ruimte gevind word karkasse geskrewe en gesproke taal, veeltalige en-leer-georiënteerde artistieke of akademiese literatuur, sowel as baie ander spesies.

Wat is die behuising

tipes liggaam in die liggaam linguistiek kan voorsien word vir verskeie redes. Intuïtief, kan die basis vir die klassifikasie van 'n teks taal (Russies, Duits), die toegang modus (open source, gesluit, kommersiële), die genre van die bronmateriaal (fiksie, dokumentêre, akademiese, joernalistiek) wees.

Interessante manier genereer materiaal van gesproke taal. Sedert die doelbewuste opname van so 'n toespraak aan 'n kunsmatige omgewing te skep vir die respondente, en die gevolglike materiaal kan nie genoem word "spontane", het moderne corpuslinguïstiek andersom gegaan. 'N Vrywilliger is toegerus met 'n mikrofoon, en gedurende die dag het 'n rekord van alle gesprekke, waarin dit deelneem. Mense rondom, natuurlik, kan nie weet wat in die loop van die alledaagse gesprek dra by tot die ontwikkeling van die wetenskap.

Later het rekord in die databasis gestoor en word vergesel deur gedrukte teks transkripsie tipe. Dus, word dit moontlik opmaak wat nodig is om 'n mondelinge daaglikse toespraak behuising te skep.

aansoek

Waar moontlik die gebruik van taal, en miskien die gebruik van geboue tekste. Metodes om die romp in taalkunde van toepassing mag wees:

  • Die skep van 'n program bepaling van die sleutel, is wyd gebruik word in die politiek en besigheid om tred te hou van positiewe en negatiewe reaksies van kiesers en kliënte onderskeidelik hou,.
  • Verband inligtingstelsel om woordeboeke en vertalers om hul prestasie te verbeter.
  • 'N Verskeidenheid van navorsing take wat bydra tot die begrip van die taaleenheid, die geskiedenis van die ontwikkeling en voorspelling van veranderinge in die nabye toekoms.
  • Ontwikkeling van inligtingherwinning stelsels wat gebaseer is op die morfologiese, sintaktiese, semantiese en ander funksies.
  • Optimalisering van die verskillende taalkundige stelsels en ander.

Gebruik van geboue

soortgelyke hulpbron koppelvlak met 'n tipiese soektog, en vra die gebruiker om 'n woord of 'n kombinasie van woorde te betree om te soek na die inligting basis. Behalwe vir die presiese navraag kan die verbeterde weergawe, wat dit moontlik maak om tekstuele inligting oor feitlik enige taalkundige kriteria gebruik.

soek base kan wees:

  • lidmaatskap van 'n bepaalde groep woordsoorte;
  • grammatikale kenmerke;
  • semantiek;
  • stilistiese en emosionele kleur.

Jy kan ook kombineer search kriteria vir 'n reeks van woorde, byvoorbeeld, om alle verskynsels van die werkwoord te vind in die teenwoordige tyd, eerste persoon enkelvoud, wat kom na die voorsetsel "in" en die naamwoord in die akkusatief geval. Die oplossing vir so 'n eenvoudige taak neem die gebruiker 'n paar sekondes en vereis slegs 'n paar muis klik in die gespesifiseerde velde.

Die proses van die skep van

Die soektog self kan uit op al subcorpus gedra en een spesifiek gekies, afhangende van die behoeftes in die bereiking van 'n bepaalde doel voor oë:

  1. Die eerste stap is om te definieer wat tekste die basis vir die geval te vorm. Vir praktiese doeleindes, is dit dikwels gebruik joernalistieke, nuus stories, online kommentaar. Die navorsingsprojek is die gebruik van 'n wye verskeidenheid van verpakking tipes, maar die teks moet gekies word volgens sommige gemeenskaplike grond.
  2. Die gevolglike versameling van tekste blootgestel aan behandeling, daar is regstelling van foute, indien enige, wat voorberei is deur bibliografiese en ekstra-linguistiese beskrywing van die teks.
  3. Uitgeskakel al nietekstueel information: Hiermee die grafiese, foto's, tafels.
  4. Is 'n toekenning van tekens, wat tipies is spraak, vir verdere verwerking.
  5. Ten slotte, dit gedra morfologiese, sintaktiese en ander merke verkry pluraliteit van elemente.

Die gevolg van alle transaksies wat deur 'n sintaktiese struktuur met daarin versprei 'n pluraliteit van elemente, elk van wat woordsoort, grammatikale is geïdentifiseer en, in sommige gevalle, die semantiese eienskappe.

Probleme in die skep van geboue

Dit is belangrik om te verstaan dat dit nie genoeg is om 'n stel van woorde of sinne saam te stel vir die liggaam. Aan die een kant, moet 'n versameling van tekste gebalanseerde wees, dit is, verteenwoordig verskillende tipes tekste in sekere verhoudings. Aan die ander - die inhoud van die hok moet gespasieer in 'n spesiale manier.

Die eerste probleem is opgelos deur 'n ooreenkoms: byvoorbeeld, in die versameling sluit 60% van literêre tekste, 20% van dokumentêre programme, word 'n sekere persentasie gegee 'n skriftelike voorlegging van die gesproke taal, wetgewing, wetenskaplike werke, ens perfekte resep gebalanseer liggaam vandag bestaan nie ...

Die tweede vraag, met betrekking tot die inhoud uitleg, los uitdagende. Daar is spesiale programme en algoritmes gebruik vir outomatiese merk van tekste, maar hulle het nie 'n perfekte resultaat gee, kan ontwrigting veroorsaak en vereis handleiding herwerken. Geleenthede en uitdagings in die hantering van hierdie probleem is beskryf in detail in 'n papier V. P. Zaharova van corpuslinguïstiek.

Teks opmaak geïmplementeer op verskeie vlakke, wat ons hieronder 'n lys.

morfologiese kodering

Uit die skool, onthou ons dat in die Russiese taal, is daar verskillende dele van spraak, en elkeen van hulle het sy eie kenmerke. Byvoorbeeld, die werkwoord het kategorieë neiging en die tydstip waarop geen naamwoord. 'n native speaker sonder huiwering weier naamwoorde en toegevoegde werkwoorde, maar om die liggaam van 100 miljoen merk. tekens handearbeid sal nie werk nie. Al die nodige operasies kan die rekenaar uit te voer, maar vir hierdie is dit nodig om te leer.

Morfologiese kodering, moet die rekenaar "verstaan" elke woord as 'n sekere deel van spraak met sekere grammatikale kenmerke. Sedert die Russiese (en enige ander taal) beskik oor 'n aantal gereelde reëls, is dit moontlik om 'n outomatiese proses te bou vir die morfologiese analise, belê in die motor vir 'n aantal algoritmes. Daar is egter uitsonderings op die reël, asook verskeie kompliserende faktore. As gevolg hiervan, netto rekenaar ontleding van vandag is ver van ideaal, en selfs 4% fout lewer 'n waarde van 4 miljoen. Woorde op die liggaam van 100 miljoen. Eenhede, wat handleiding herwerken.

Gedetailleerde boek beskryf die probleem Zaharova V. P. "Corpus Linguistiek".

sintaktiese body

Ontleding van of die ontleding van - 'n proses wat die verhouding van woorde in 'n sin bepaal. Met behulp van 'n stel van algoritmes is moontlik om die teks van die onderwerp, gesegde, toevoegings, verskeie draaie van spraak te bepaal. Vind uit watter woorde die belangrikste volgorde, en wat is - afhanklik is, kan ons effektief inligting te onttrek uit teks en om die masjien te leer om uit te reik in reaksie op 'n navraag slegs die inligting interessante ons.

By the way, moderne soekenjins gebruik hierdie spesifieke getalle in plaas van lang tekste uit te gee in reaksie op relevante navrae soos "hoeveel kalorieë in 'n appel" of "die afstand van Moskou na St Petersburg." Maar selfs die basiese beginsels van die beskryf deur die behoefte om die "Inleiding tot die Corpus Linguistiek" of ander basiese handleiding te raadpleeg proses verstaan.

semantiese opmaak

Die semantiek van die woord - is, in eenvoudige terme, die betekenis. Wyd van toepassing benadering tot die semantiese analise van 'n woord toeskrywing tags, weerspieël sy deel uitmaak van 'n stel van semantiese kategorieë en subkategorieë. Sulke inligting is waardevol vir die optimalisering van algoritmes te ontleed teks toon, outomatiese opsomming en ander take metodes van corpuslinguïstiek.

Daar is 'n aantal "wortel" van die boom, wat 'n abstrakte woord met 'n baie wye semantiek. As 'n tak van die boom nodes gevorm, met meer en meer spesifieke leksikale elemente. Byvoorbeeld, kan die woord "dier" word geassosieer met sulke konsepte soos "menslike" en "dier". Die eerste woord sal voortgaan om tak uit in verskillende beroepe, verwantskap terme, nasionaliteit, en die tweede - op klasse en tipes diere.

Die gebruik van inligtingherwinning stelsels

Gebiede van gebruik van corpuslinguïstiek dek diverse Gebiede. Omhulsels word gebruik vir die voorbereiding en die regstelling van woordeboeke, te skep outomatiese vertaling stelsels, regmaak, te herwin feite, die bepaling van die toon en ander teks verwerking.

Daarbenewens is so hulpbronne aktief gebruik in die studie van wêreldtale en meganismes van werking van taal in die algemeen. Toegang tot 'n groot volumes van voorafbereide inligting fasiliteer vinnige en omvattende studie van die tendense van die ontwikkeling tale, en stabiele vorming neologismes spraak spoed verandering waardes leksikale eenhede en ander.

Sedert die werk met sulke groot hoeveelhede data outomatisering vereis, vandag is daar noue wisselwerking tussen die rekenaar en corpuslinguïstiek.

Russiese Nasionale Corpus

Hierdie geval (verkorte NKRYA) sluit 'n aantal subcorpus, sodat die gebruik van 'n hulpbron vir 'n wye verskeidenheid van take.

Die materiaal in die databasis is verdeel NKRYA:

  • publikasies in '90 en 2000's die media, beide plaaslike en buitelandse;
  • opname toespraak;
  • aktsentologicheski gemerk tekste (dit wil sê die punte van stres);
  • dialek toespraak;
  • gedigte;
  • Materiaal met sintaktiese en ander merke.

Die inligting stelsel sluit ook Subcorpus met parallel vertalings van werke uit Russian in Engels, Duits, Frans en vele ander tale (en omgekeerd).

Ook in die databasis is daar 'n artikel van historiese tekste, wat die geskrewe toespraak in Russies in verskillende tydperke van die ontwikkeling daarvan. Daar is ook 'n opleiding liggaam, wat nuttig vir buitelandse burgers kan wees in die bemeestering van die Russiese taal.

Russiese Nasionale Corpus bestaan as 400 miljoen leksikale eenhede, en in baie maniere voor 'n belangrike deel van die tale van Europa liggame.

vooruitsigte

Trouens ten gunste van die erkenning van hierdie tendens is die beskikbaarheid van belowende laboratorium corpuslinguïstiek in Russiese universiteite, sowel as buitelandse. Met die gebruik van en navorsing in die raamwerk van hierdie inligting en soek hulpbronne behels die ontwikkeling van sekere gebiede in die veld van 'n hoë-tegnologie,-vraag te beantwoord stelsels, maar dit is wat hierbo bespreek is.

Verdere ontwikkeling van corpuslinguïstiek word voorspel op alle vlakke, wat wissel van tegniese en in terme van die implementering van nuwe algoritmes wat die prosesse van soek en verwerking van inligting, die bemagtiging van rekenaars te optimaliseer, meer RAM, en aan die verbruiker, omdat gebruikers is meer en meer maniere om hierdie soort hulpbron gebruik in hul daaglikse lewe en werk.

Ter afsluiting

In die middel van die vorige eeu in 2017 gelyk verre toekoms, waar ruimte reis deur die heelal en robotte te doen al die werk vir die mense. Trouens, die wetenskap is vol met "wit kolle" en maak desperate pogings om die vrae van die mensdom vir eeue ontstellende beantwoord. Vrae funksioneer van taal hier te beset 'n ereplek, en kabinet en rekenaarlinguistiek kan ons help om dit te beantwoord.

Verwerking van groot datastelle kan patrone op te spoor, wat voorheen ontoeganklik, voorspel die ontwikkeling van spesifieke taal funksies tot die vorming van woorde op te spoor in byna real time.

Op 'n praktiese vlak, kan die globale kampe gesien word, byvoorbeeld, as 'n potensiële instrument om die openbare sfeer te evalueer - die Internet is 'n voortdurend opgedateer daagliks verskeie tekste geskep deur werklike gebruikers: hierdie kommentaar en resensies, en artikels, en baie ander vorme van spraak.

Daarbenewens, in samewerking met instansies dra by tot die ontwikkeling van die dieselfde hardeware, wat betrokke is in die onttrekking van inligting, ons is vertroud met die diens "Google" of "Yandex", masjien vertaling, elektroniese woordeboeke.

Ons kan met vertroue beweer dat die corpuslinguïstiek maak net die eerste stappe, en in die nabye toekoms sal floreer.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 af.birmiss.com. Theme powered by WordPress.