Świdziński M - Lingwistyka korpusowa w Polsce. Źźródła, stan, perspektywy.pdf - _ Polski. Artykuły - napomoc

„LingVaria” Nr 1, 2006

Lingwistyka korpusowa w Polsce – Ņ ródła, stan, perspektywy

Marek ĺ widzi ı ski

Instytut J ħ zyka Polskiego

Uniwersytet Warszawski

Wst ħ p

Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-

polonistów, przedstawia wizj ħ j ħ zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka

korpusowa. Rozwija si ħ ona ju Ň od jakiego Ļ czasu; wynikła w sposób naturalny z do Ļę szcz ħ -

Ļ liwego splotu ró Ň norodnych okoliczno Ļ ci; zdominowała inne nurty i odmiany j ħ zykoznaw-

stwa nieodwracalnie. Nie mo Ň na by ę dzi Ļ j ħ zykoznawc Ģ i nie otrze ę si ħ o ni Ģ cho ę by jako

u Ň ytkownik narz ħ dzi. A skoro tak, to warto wej Ļę w ten Ļ wiat z wyboru, zada ı bowiem jest

moc i b ħ dzie ich coraz wi ħ cej. W Ļ wiecie jest na t ħ najnowsz Ģ lingwistyk ħ , nie na dowoln Ģ ,

mnóstwo pieni ħ dzy – i zajmuj Ģ si ħ ni Ģ całe rzesze; to dowodzi, Ň e co Ļ jest na rzeczy, Ň e cze-

mu Ļ to słu Ň y... Niestety, nie w naszej ojczy Ņ nie.

In Ň ynieri ħ korpusow Ģ przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –

rewolucja informatyczna. Ale przed ni Ģ zdarzyły si ħ dwie inne rewolucje intelektualne. Marsz

przez te rewolucje stał si ħ udziałem pokole ı j ħ zykoznawców. Drog ħ t ħ przeszedłem i ja.

Rewolucja nr 1: strukturalizm

J ħ zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho ę

w minionych tysi Ģ cleciach znale Ņę mo Ň na wielu wa Ň nych prekursorów, od Paniniego i Ary-

stotelesa poprzez gramatyków staro Ň ytnego Rzymu po Arnaulda i Lancelota, twórców Gra-

matyki Port-Royal , to lingwistyka teoretyczna zrodziła si ħ u schyłku XIX stulecia.

Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j ħ zykoznawcy szwajcar-

skiego, profesora uniwersytetów w Genewie i Pary Ň u. Jemu, jego współpracownikom i wy-

chowankom (którzy zreszt Ģ sami spisali i wydali wykłady mistrza), a tak Ň e grupie wybitnych

nast ħ pców zawdzi ħ czamy sformułowanie koncepcji j ħ zyka naturalnego jako systemu semio-

tycznego: to dwuklasowy system znaków słu ŇĢ cy okre Ļ lonej populacji do komunikacji uni-

wersalnej. Lingwistyka dostała aparat, który jest dzi Ļ oczywisto Ļ ci Ģ : (a) synchronia przede

wszystkim, (b) abstrakcyjny system ( langue ) i konkretny tekst ( parole ), (c) znak – obiekt o

dwóch twarzach: ma kształt i funkcj ħ , (d) opozycja – ró Ň nica kształtu obci ĢŇ ona funkcjonal-

nie, (e) paradygmatyka i syntagmatyka, (f) słownik – zbiór znaków prostych, gramatyka –

zbiór instrukcji syntezy i rozbioru wyra Ň e ı , (g) inwarianty i warianty. Teoria de Saussure’a

dotarła do Polski z gór Ģ pół wieku od jej powstania – przekład polski jego wykładów ukazał

si ħ w roku 1961 (Saussure (1961)). Koryfeuszy ówczesnego j ħ zykoznawstwa w Polsce nie

zainteresowała.

Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j ħ zykoznawstwo – nauk ħ

empiryczn Ģ – z oków humanistycznej filologii. Filolodzy zajmowali si ħ przez stulecia teksta-

mi (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj Ģ ł problem budowy i funkcji

wyra Ň e ı . Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik, gramatyka>

daje model rodzimego u Ň ytkownika j ħ zyka; elementy tej pary to składniki kompetencji j ħ zy-

kowej. Doktryna strukturalna opanowała Ļ wiat lingwistyki pierwszej połowy zeszłego stule-

cia, a my Ļ lenie systemowe, rzecz ciekawa, promieniowało na inne działy humanistyki.

Nie miejsce tu na wykład ró Ň nych szkół europejskiego j ħ zykoznawstwa strukturalnego.

Trzeba wszak Ň e wspomnie ę o strukturalizmie ameryka ı skim, czyli dystrybucjonizmie, od

niego bowiem do NLP ( Natural Language Processing ) tylko krok. Dystrybucjoni Ļ ci to pierw-

si teoretycy, którzy budowali korpusy – zbiory wyra Ň e ı traktowane jako reprezentuj Ģ ce dany

j ħ zyk naturalny. Od nich pochodzi inne ni Ň nasze europejskie rozumienie j ħ zyka naturalnego.

Jest nim zbiór zda ı poprawnych i tylko takich. Opis (czy model) danego j ħ zyka to recepta na

wyra Ň enia tego j ħ zyka.

Strukturali Ļ ci, zapewne jako pierwsi w historii lingwistyki, podj ħ li si ħ sporz Ģ dzania wy-

czerpuj Ģ cych opisów ró Ň nych j ħ zyków naturalnych, opisów całego j ħ zyka. Za przykład niech

posłu Ň y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949). To, Ň e

nowoczesna lingwistyka rozwin ħ ła si ħ najowocniej w kr ħ gu anglosaskim, jest pewnie zasług Ģ

Jespersena.

Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego j ħ zykoznaw-

cy.

3. Rewolucja nr 2: generatywizm i lingwistyka formalna

Drug Ģ rewolucj ħ potrafimy dokładnie datowa ę . W roku 1957 ukazały si ħ w wydawnic-

twie Moutona Struktury składniowe Noama Chomsky’ego (1957). Ów „przewrót kopernika ı -

ski” polega ę miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa Ň ał, Ň e struktura-

lizm nie ujawnia tego, Ň e kompetencja j ħ zykowa jest produktywna; Ň e, innymi słowy, u Ň yt-

kownik j ħ zyka potrafi interpretowa ę wyra Ň enia, których nigdy nie słyszał, i nowe wyra Ň enia

produkowa ę . Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt Ģ sprawiedliwa) dotyka

co najwy Ň ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem obrazy jest dla Chom-

sky’ego ograniczono Ļę korpusów, którymi posiłkowali si ħ dystrybucjoni Ļ ci. Dla nich korpus

był Ņ ródłem danych empirycznych. Poniewa Ň podejmowali trud opisywania ró Ň nych j ħ zyków

dot Ģ d nie opisywanych, w szczególno Ļ ci j ħ zyków Indian, którzy wymierali, korpusy z natury

rzeczy nie mogły by ę du Ň e. Wielkich zreszt Ģ nie dałoby si ħ obj Ģę ogl Ģ dem.

Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury poj ħ -

ciowej. Przede wszystkim, id Ģ c Ļ ladem dystrybucjonistów, ujmuje j ħ zyk naturalny teorio-

mnogo Ļ ciowo: to zbiór wszystkich mo Ň liwych zda ı , zbiór niesko ı czony. Opis j ħ zyka, a wi ħ c

jego gramatyka, jest tego zbioru definicj Ģ . Definicj ħ tak Ģ nazywamy gramatyk Ģ formaln Ģ .

Słownik jako zbiór pewnych składników prostych nale Ň y do gramatyki.

Ju Ň od półwiecza Chomsky nosi szat ħ guru współczesnej lingwistyki. Z gramatyki gene-

ratywno-transformacyjnej, której ide ħ wyło Ň ył w Stukturach składniowych , wyrosły kolejne

jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w Aspektach teorii składni

Chomsky’ego (1966), a tak Ň e teoria rz Ģ du i wi Ģ zania (GB; Haegemann (1992)) oraz minima-

lizm; te dwie ostatnie – z nieistotn Ģ dla nas tutaj filozoficzn Ģ obudow Ģ Gramatyki Uniwersal-

nej. Zrodziły si ħ te Ň w ci Ģ gu dziesi ħ cioleci inne teorie, znacznie lepiej dopracowane formal-

nie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i powstaje

gigantyczna literatura na temat najrozmaitszych j ħ zyków, od staroislandzkiego po warlpiri.

Mo Ň na powiedzie ę bez przesady, Ň e du Ň a cz ħĻę populacji lingwistów na Ļ wiecie działa w kr ħ -

gu generatywizmu chomskia ı skiego. Nie dotyczy to, niestety, Polski, w której ziemi ħ t ħ

uprawiaj Ģ niemal wył Ģ cznie angli Ļ ci. Opisuj Ģ oni zreszt Ģ głównie polszczyzn ħ ; obszerny ze-

staw odesła ı do publikacji polskich generatywistów znale Ņę mo Ň na na przykład w tomie stu-

diów po Ļ wi ħ conych HPSG (Przepiórkowski i in. (2002)). Znamienne, Ň e polski przekład

Aspektów Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si ħ popularne

kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył wszak Ň e wielkich

syntez, a wi ħ c wyczerpuj Ģ cych opisów poszczególnych j ħ zyków; cho ę by tych najwa Ň niej-

szych.

Dobra znajomo Ļę narz ħ dzi generatywizmu to drugi składnik kompetencji współczesne-

go j ħ zykoznawcy.

Rewolucja nr 3: lingwistyka informatyczna

O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju my-

Ļ lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn Ģ trz, i to bardzo niedawno.

Komputery, jeszcze w połowie ubiegłego wieku pracuj Ģ ce w Pentagonie, agencjach kosmicz-

nych czy o Ļ rodkach obliczeniowych, trafiły pod strzechy, aby sta ę si ħ standardowym urz Ģ -

dzeniem gospodarstwa domowego. Co wi ħ cej, w ci Ģ gu parunastu lat wymarł pewien fach:

zawód zecera. Skład komputerowy to wyrok Ļ mierci dla drukarstwa Gutenberga.

I jeszcze jeden zbieg okoliczno Ļ ci. Oto w latach 1970. rozpocz ħ ła si ħ współpraca mi ħ -

dzy grup Ģ informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup Ģ j ħ zy-

koznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze przygo-

towane, podobnie jak pó Ņ niej – do podj ħ cia zaawansowanych prac w zakresie lingwistyki

informatycznej. Ni Ň ej b ħ dzie mowa o niektórych przedsi ħ wzi ħ ciach, które wyrosły z owego

zbli Ň enia dwóch Ļ rodowisk. Poka Ňħ tu w szczególno Ļ ci prace powstałe w Ļ rodowisku war-

szawskim, zwłaszcza w Zakładzie J ħ zykoznawstwa Komputerowego, którym kieruj ħ . Skupie-

nie si ħ tutaj na nich nie ma oznacza ę , Ň e nigdzie indziej nie działo si ħ i nie dzieje nic, co dla

dyscypliny wa Ň ne.

Trzy wa Ň ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny

rozwój pami ħ ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost ħ p do gigan-

tycznych zbiorów tekstowych. R ħ czna ich obsługa jest absolutnie niemo Ň liwa. Nie chodzi

przy tym o materiał empiryczny dla naukowców. Teksty s Ģ w zasi ħ gu r ħ ki szarego obywatela.

Monstrualne zasoby informacji na serwerach internetowych maj Ģ przede wszystkim posta ę

zbiorów tekstowych. Narz ħ dzia operowania takimi zbiorami to wyzwanie nie tylko dla infor-

matyka; tak Ň e (a nawet przede wszystkim) dla lingwisty.

Dost ħ p do zawarto Ļ ci no Ļ nika umo Ň liwiaj Ģ specjalne aplikacje – ró Ň nego rodzaju wy-

szukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa ę

interesuj Ģ ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci Ģ gu zna-

ków, aby dotrze ę do wszystkich tej sekwencji wyst Ģ pie ı . Szukanie jest trywialne, dotyczy

bowiem kształtów:

Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam

zwykle o dany napis. Oto wynik poszukiwania jednostki kot w Komputerowym Słowniku J ħ -

zyka Polskiego (KSJP):

Szukali Ļ my tutaj jakiej Ļ jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam artyku-

ły hasłowe, w których u Ň yto formy leksemu KOT . Co prawda, jedno z pi ħ ciu znalezisk odrzu-

cimy, bo nie chodziło nam raczej o leksem KOTA ... Otó Ň wi ħ kszo Ļę wyszukiwa ı daje rezultaty

niechciane; taki jest po prostu j ħ zyk naturalny, który roi si ħ od neutralizacji. Ambitniejsze

narz ħ dzia kwerend tekstowych słu ŇĢ poszukiwaniom nie „po kształtach”, jak si ħ mawia

w Ň argonie, tylko po jakich Ļ znacznikach. Wprowadzenie do tekstu znaczników (tagów), któ-

re pomog Ģ w ujednoznacznieniach, jest zadaniem lingwistycznym.

ĺ wiadomo Ļę istnienia narz ħ dzi obsługi tekstów to trzeci komponent kompetencji współ-

czesnego j ħ zykoznawcy.

5. Wyzwanie homonimii

Zbiór tekstów przygotowany specjalnie do jakiego Ļ celu nazywamy korpusem. Korpu-

sami posługuj Ģ si ħ j ħ zykoznawcy, przede wszystkim leksykografowie. Korpusy lingwistyczne

bywaj Ģ znakowane, czyli wzbogacone przynajmniej o informacj ħ gramatyczn Ģ ; docelowo –

pewnie pragmatyczn Ģ i semantyczn Ģ .

Polszczyzna reprezentuje klas ħ j ħ zyków wysoce fleksyjnych. Cech Ģ znamienn Ģ takich

j ħ zyków jest homonimiczno Ļę słów. Ostro Ň ny szacunek poucza, Ň e w tek Ļ cie polskim 40 słów

na sto to homonimy, czyli słowa b ħ d Ģ ce kształtami wi ħ cej ni Ň jednej jednostki systemowej.

Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi Ģ zywanie homonimii:

słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne – znalezie-

nie interpretacji wła Ļ ciwej (por. ĺ widzi ı ski, Derwojedowa i Rudolf (2003)).

Warto zaznaczy ę , Ň e jedno z pierwszych w Ļ wiecie przedsi ħ wzi ħę lingwistyki korpuso-

wej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w Uniwer-

sytecie Warszawskim półmilionowy zrównowa Ň ony korpus znakowany, który posłu Ň ył za

baz ħ empiryczn Ģ słownika frekwencyjnego j ħ zyka polskiego. Znakowania dla ujednoznacz-

nienia słów dokonywano r ħ cznie, ale listy frekwencyjne zostały sporz Ģ dzone komputerowo.

Podstawy gramatyczne projektu były tak solidne, Ň e zachowały aktualno Ļę po dzi Ļ dzie ı .

Słownik ukazał si ħ najpierw w postaci pi ħ ciu tomów (w jedenastu woluminach) pod tytułem

Słownictwo współczesnego j ħ zyka polskiego. Listy frekwencyjne (S-LF). Tomy te wyszły po-

tem w postaci zbiorczej pod redakcj Ģ Zygmunta Saloniego jako Słownik frekwencyjny polsz-

czyzny współczesnej (SFPW). SFPW jest słownikiem form wyrazowych popakowanych

w leksemy. Twórcy korpusu przypisywali r ħ cznie znaczniki słowom, które s Ģ homoformami

(Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz Ģ tek został uczyniony.

6. Analizatory i wyszukiwarki

Urz Ģ dzenie do automatycznego rozwi Ģ zywania homonimii to analizator morfologiczny.

Musi on opiera ę si ħ na rygorystycznym opisie gramatycznym danego j ħ zyka. Dorobek grama-

tyczny j ħ zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy Klemen-

siewicza na czele, nie spełniał oczywi Ļ cie warunków pełno Ļ ci i jawno Ļ ci. Polszczyzna docze-

kała si ħ jednak szcz ħĻ liwie zadowalaj Ģ cych opisów morfologicznych i składniowych – wy-

mie ı my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj Ģ Tokarskiego”, Tokarski (1973) i

(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i ĺ widzi ı skiego (2001), Włodzimie-

rza Gruszczy ı skiego (1989), Janusza Stanisława Bienia (1991), a tak Ň e, z innej szkoły, mor-

fologi ħ z Gramatyki j ħ zyka polskiego PAN (Gramatyka_PAN (1984)). Morfologi ħ mo Ň na ju Ň

było zaimplementowa ę .

Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator Ro-

berta Wołosza, znany dzi Ļ pod nazw Ģ PoMoR (por. Wołosz (2005)), analizator SAM Krzysz-

tofa Szafrana (1994), Morfeusz Marcina Woli ı skiego (2004a), w ko ı cu – AMOR Joanny

Rabiega-Wi Ļ niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj Ģ słowom zbiory

interpretacji gramatycznych.

Analizator dostaje słowo lub list ħ słów do interpretacji. AMOR na przykład zinterpretu-

je słowo jutro jako nale ŇĢ ce do leksemu przysłówkowego JUTRO 1 lub rzeczownikowego JU-

TRO 2 , czyli dokona rozpoznania cz ħĻ ci mowy ( PoS-tagging ) oraz rozpoznania leksemu, do

którego forma wyrazowa o takim kształcie nale Ň y ( lemmatization ); słowo szkoły – jako repre-

zentuj Ģ ce cztery formy wyrazowe: dopełniaczow Ģ w liczbie pojedynczej b Ģ d Ņ mianowniko-

w Ģ , biernikow Ģ albo wołaczow Ģ w mnogiej; słowo czytali – jako form ħ wyrazow Ģ czasownika

CZYTA Ę z pewnym opisem gramatycznym. Program, który zwraca analizowany tekst z odpo-

wiednimi znacznikami poprzypisywanymi wszystkim słowom, nazywany bywa tagerem ( ta-

gger ), a efektem pracy takiego programu jest tekst (czy korpus) znakowany. Na korpusie,

znakowanym lub nie, pracuj Ģ dopiero zaawansowane wyszukiwarki.

Ostatnio zako ı czyły si ħ dwa projekty naukowo-badawcze, których celem było ju Ň to

zbudowanie korpusu znakowanego, ju Ň to opracowanie narz ħ dzi do obsługi korpusu.

Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod kierun-

kiem Adama Przepiórkowskiego. W ramach projektu KBN 7T11C 043 20 powstał w latach

2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN), który nie

ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład zrównowa-

Ň onym; powstała te Ň wyszukiwarka Poliqarp (por. Przepiórkowski (2004)).

Oto pokaz wyszukiwania:

Świdziński M - Lingwistyka korpusowa w Polsce. Źźródła, stan, perspektywy.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: