in Nauka XXI wieku, Podkast

Tomasz Stanisz – Instytut Fizyki Jądrowej Polskiej Akademii Nauk w Krakowie

Linki:

Ilustracje


Jest to rysunek sieci, takiej jak przedstawionej w animacji (film poniżej), tyle że dla pierwszych 2000 słów.

 Wypisane słowa stanowiące połowę objętości trzech książek razem wziętych: Lalka, Potop,Chłopi. W tym korpusie (zbiorze tekstów) jest razem ok. 930 tysięcy słów, z tego ok. 87 tysięcy słów różnych. Wystarczyłoby wymazać tylko te 403 słowa (wszystkie ich wystąpienia), które są podane w załączonym pliku, żeby zniknęła połowa tekstu w tych trzech książkach.

Prawo Herdana, na przykładzie „Lalki” Prusa. Prawo Herdana (Heapsa) podaje, że liczba różnych słów, na jakie napotkamy czytając jakiś tekst, będzie się zwiększać wraz z dotychczasprzeczytaną liczbą słów tak jak funkcja potęgowa. Wartość wykładnika tej funkcji jest zazwyczaj w okolicach między 0.4 a 0.6; przedstawiona na wykresie funkcja potęgowa (linia przerywana) ma wykładnik 0.62.

Prawo Zipfa na przykładzie „Lalki” Prusa.Prawo Zipfa stanowi, że częstość występowania danego słowa w tekście jest w przybliżeniu odwrotnie proporcjonalna do jego rangi (ranga słowa to jego numer na liście słów porządkowanej od najczęstszych do najrzadszych, najczęstsze słowo ma rangę 1, drugie najczęstsze słowo ma rangę 2, itd.). Wykres ten rysuje się w skali log-log, bo wtedy taka zależność jest linią prostą, ze współczynnikiem kierunkowym -1. Narysowana na wykresie Zipfa prosta (szara) ma współczynnik -0.97, a więc prawo jest dobrze spełnione.

Przedstawiony jest rozkład częstości występowania różnych słów w „Lalce”. Należy zwrócić uwagę, że skala na osi pionowej jest logarytmiczna, więc między najczęstszymi a najrzadszymi słowami różnica w częstości jest ponad stukrotna(!).

Rysunek sieci cytowań. Przedstawiona sieć to fragment sieci cytowań, dostępnej pod adresem:http://vlado.fmf.uni-lj.si/pub/networks/data/cite/default.htm (pozycja „Small World”) Sieć składa się z prac naukowych, które powołują się na pracę Milgrama dotyczącą „małego świata” oraz prac, które zawierają w tytule „Small World”. Każdy wierzchołek to jedna publikacja, opisana nazwiskiem pierwszego autora. Strzałki oznaczają cytowania prac (praca cytowana -> praca cytująca).

Animacja wizualizująca sposób tworzenia sieci sąsiedztwa słów z tekstu. Przedstawionym tekstem jest początek „W pustyni i w puszczy” Sienkiewicza (pierwsze 105 słów). W tej sieci znaki interpunkcyjne są potraktowane tak jak słowa i są oznaczone krzyżykiem (#) – mamy tam „#com” (przecinek), „#bra” i „#ket” (lewy i prawy nawias) oraz „#dot” (kropka).

Lista patronów wspierających audycję

Agata Kicia, Tomasz Zadański, Sebastian Bysiak, Jakub Mamelski, Miłosz Pracowity, Piotr Prochenka, Andrzej Lach, Łukasz Wołowiec, Paweł Dempc, Michał Tomana, Daniel Świrski, Marcin Stanclik, Przemysław Śmiejek, Kryszna Kirtan, Marian Kozielski, Mariusz Mi, Karol Wezik, Joanna Pszenicyn, Bartłomiej B, Grzegorz Maciazek, Dorota Kozielska, Joanna J., Mateusz Pawlicki, Michał Gajewski, Tomasz Duda, Konrad Smollak i dwóch patronów anonimowych

Aby zostać patronem kliknij tutaj

Informacja prasowa na temat Stylometrii

Tekst jak sieć: Ile wyrazów wystarczy, by rozpoznać autora?

Jesteśmy bardziej oryginalni niż sądzimy, sugerują analizy tekstów 
literackich przeprowadzone nową metodą stylometrii, zaproponowaną przez 
naukowców z Instytutu Fizyki Jądrowej PAN w Krakowie. Indywidualność 
autora widać już w powiązaniach między zaledwie kilkunastoma wyrazami 
tekstu angielskiego. W językach słowiańskich do identyfikacji twórcy 
wystarcza nawet mniejsza liczba wyrazów, a na dodatek wynik jest pewniejszy.

Ustalenie, kto jest autorem tekstu, na ogół nie jest trudne – wystarczy 
przeczytać podpis. Zdarza się jednak, że podpisu nie ma, ponieważ się 
nie zachował lub został przez autora z premedytacją pominięty. Nierzadko 
też zamiast imienia i nazwiska widzimy pseudonim. Jak więc zweryfikować, 
spod czyjego pióra wyszedł historyczny tekst znany jedynie z fragmentów? 
Jak ustalić rzeczywistego twórcę internetowego paszkwilu? Jak naprawdę 
wiarygodnie stwierdzić, czy tekst pracy magisterskiej bądź doktorskiej 
nie jest plagiatem? Tradycyjne metody stylometryczne w wielu przypadkach 
zawodzą lub nie prowadzą do dostatecznie pewnych wniosków. Na łamach 
czasopisma „Information Sciences” naukowcy z Instytutu Fizyki Jądrowej 
Polskiej Akademii Nauk (IFJ PAN) w Krakowie przedstawili własne 
narzędzie statystyczne do analizy stylometrycznej. Skonstruowane z 
użyciem grafów, pozwala ono spojrzeć na strukturę tekstów w jakościowo 
nowy sposób.

„Wnioski płynące z naszych badań z jednej strony są budujące. Wskazują 
bowiem, że indywidualność każdej osoby przejawia się wyraźnie w sposobie 
używania już zaskakująco małej liczby wyrazów. Ale jest i druga, 
ciemniejsza strona medalu. Skoro bowiem okazujemy się tak oryginalni, 
będzie nas można łatwiej identyfikować po wypowiedziach”, mówi prof. dr 
hab. Stanisław Drożdż (IFJ PAN, Politechnika Krakowska).

Stylometria – czyli nauka zajmująca się wyznaczaniem statystycznych 
charakterystyk stylu tekstów – opiera się na spostrzeżeniu, że każdy z 
nas nieco inaczej używa nawet tego samego języka. Jedni mają szerszy 
zasób słownictwa, inni węższy, ktoś lubi stosować pewne sformułowania i 
popełnia błędy, ktoś inny unika powtórzeń i jest purystą językowym. A 
gdy piszemy, różnimy się też sposobem stosowania znaków 
interpunkcyjnych. W typowym podejściu stylometrycznym zazwyczaj bada się 
podstawowe cechy tekstu, np. częstotliwość występowania poszczególnych 
wyrazów, interpunkcję zaś się ignoruje. Analizy są przeprowadzane dla 
badanego tekstu oraz dla tekstów napisanych przez potencjalnych, dobrze 
znanych autorów. Za twórcę uznaje się tę osobę, której dzieła mają 
parametry o wartościach najbardziej zbliżonych do otrzymanych dla 
identyfikowanego materiału.

„My zaproponowaliśmy, żeby charakterystycznych cech stylu szukać w 
sieciowej reprezentacji tekstu, za pomocą grafów”, wyjaśnia Tomasz 
Stanisz, doktorant IFJ PAN i pierwszy autor publikacji, po czym 
precyzuje: „Graf to zbiór punktów, czyli wierzchołków grafu, połączonych 
liniami, czyli krawędziami grafu. W najprostszym przypadku – w tak 
zwanej sieci nieważonej – wierzchołki odpowiadają poszczególnym wyrazom 
i są połączone krawędziami wtedy i tylko wtedy, gdy w tekście dane dwa 
wyrazy przynajmniej raz wystąpiły obok siebie. Na przykład dla zdania 
’Ala ma kota’ graf miałby trzy wierzchołki, po jednym dla każdego 
wyrazu, ale krawędzie byłyby tylko dwie, jedna między 'Ala’ a 'ma’, 
druga między 'ma’ a 'kota’”.

Podczas konstruowania swoich narzędzi stylometrycznych badacze z IFJ PAN 
testowali różne rodzaje grafów. Najlepsze wyniki otrzymano dla grafów 
ważonych, a więc takich, w których każda krawędź niesie informację o 
liczbie wystąpień odpowiadającego jej połączenia między wyrazami. W 
takich sieciach najbardziej przydatne okazały się dwa parametry: 
krotność węzłów i współczynnik gronowania. Pierwszy z nich opisuje 
liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z 
liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik 
gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone 
krawędzią z danym wyrazem są połączone krawędzią także między sobą.

Za pomocą tak przygotowanych narzędzi statystycznych krakowscy fizycy 
przyjrzeli się 96 książkom: po sześciu powieściom ośmiu znanych autorów 
angielskich (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell, 
Twain) i ośmiu polskich (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, 
Reymont, Sienkiewicz, Żeromski). W gronie autorów było dwóch laureatów 
literackiej Nagrody Nobla (Władysław Reymont i Henryk Sienkiewicz). 
Wszystkie teksty pobrano z serwisów Project Gutenberg, Wikisources i 
Wolne Lektury. Grupa z IFJ PAN sprawdzała następnie, z jaką 
wiarygodnością można w ramach jednego języka stwierdzić autorstwo 12 
losowo wybranych dzieł, traktując pozostałą część puli utworów jako 
materiał do porównań.

„W przypadku tekstów angielskich identyfikowaliśmy autorów poprawnie w 
niemal 90% przypadków. Na dodatek by osiągnąć sukces należało 
prześledzić powiązania między zaledwie 10-12 wyrazami badanego tekstu. 
Wbrew naiwnej intuicji, dalsze zwiększanie liczby badanych wyrazów nie 
podnosiło znacząco skuteczności metody”, mówi Tomasz Stanisz.

W języku polskim ustalenie autorstwa okazało się jeszcze prostsze: 
wystarczało prześledzić powiązania zaledwie 5-6 wyrazów. Co szczególnie 
ciekawe, mimo dwukrotnie mniejszej niż w języku angielskim puli 
istotnych wyrazów, prawdopodobieństwo poprawnej identyfikacji wzrastało 
– nawet do 95%! Tak wysoka poprawność diagnoz była jednak osiągana tylko 
wtedy, gdy jako osobne wyrazy traktowano także znaki interpunkcyjne. W 
obu językach pominięcie interpunkcji skutkowało wyraźną redukcją liczby 
poprawnych odgadnięć. Zaobserwowana rola interpunkcji to kolejne 
potwierdzenie wniosków z publikacji grupy prof. Drożdża z 2017 roku, 
gdzie wykazano, że interpunkcja pełni w języku rolę równie ważną jak 
same wyrazy.

„W porównaniu z językiem angielskim język polski wydaje się dawać 
większe możliwości ujawniania się stylu autora. Sądzimy, że podobną 
cechą charakteryzują się również pozostałe języki słowiańskie. Angielski 
jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim 
kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na 
indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli 
słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona 
bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy 
niezmienionym jego znaczeniu”, podsumowuje prof. Drożdż.

Instytut Fizyki Jądrowej PAN (IFJ PAN) w Krakowie zajmuje się strukturą 
materii i własnościami oddziaływań fundamentalnych od skali kosmicznej 
po wnętrza cząstek elementarnych. Wyniki badań – obejmujących fizykę i 
astrofizykę cząstek, fizykę jądrową i oddziaływań silnych, fazy 
skondensowanej materii, fizykę medyczną, inżynierię nanomateriałów, 
geofizykę, biologię radiacyjną i środowiskową, radiochemię, dozymetrię 
oraz fizykę i ochronę środowiska – są każdego roku przedstawiane w ponad 
600 artykułach publikowanych w recenzowanych czasopismach naukowych. 
Częścią Instytutu jest nowoczesne Centrum Cyklotronowe Bronowice, 
unikalny w skali europejskiej ośrodek obok badań naukowych zajmujący się 
terapią protonową nowotworów. IFJ PAN jest członkiem Krakowskiego 
Konsorcjum Naukowego „Materia-Energia-Przyszłość” o statusie Krajowego 
Naukowego Ośrodka Wiodącego (KNOW) na lata 2012-2017. Instytut zatrudnia 
ponad pół tysiąca pracowników. W kategoryzacji MNiSW Instytut został 
zaliczony do kategorii naukowej A+ w grupie nauk ścisłych i inżynierskich.

Informacje

Audycja udostępniana jest na licencji CC-BY, w ramach nieodpłatnej działalności statutowej fundacji „Otwórz się”.

Każdy słuchacz może stać się mecenasem audycji deklarując comiesięczne wpłaty na stronie patronite.pl/boryskozielski.

Zapraszam do kontaktu poprzez fanpage na facebook oraz e-mail boryskozielski@gmail.com. Żaden list nie pozostaje bez odpowiedzi.

Jeśli znasz kogoś kto interesuje się nauką tak jak Ty po prostu powiedz mu o tym podkaście i pokaż jak słuchać. Niech nas będzie więcej 🙂