Statystyki korpusu

Lista frekwencyjna

W tym polu wyświetlana jest lista frekwencyjna ze względu na lematy słów. Wstępnie odfiltrowana jest do słów pełnoznacznych, jednak za pomocą przycisku na górze można ją odfiltrować do dowolnie wybranych części mowy. Po kliknięciu przycisku „Pobierz” zostanie pobrana pełna lista frekwencyjna bez zastosowanego filtrowania.

Miary dyspersji i skorygowanej frekwencji

Oprócz standardowej listy frekwencyjnej w polu „Lista frekwencyjna” wyświetlane są również miary dyspersji oraz skorygowanej frekwencji słów.

Poniższa lista przedstawia wszystkie dostępne miary. W podanych wzorach przyjęto następujące oznaczenia:

\(N\) - liczba tekstów w korpusie.
\(N_t\) - liczba tekstów, w których występuje dane słowo.
\(L\) – liczba słów w korpusie.
\(L_i\) – liczba słów w i-tym tekście korpusu.
\(F\) - liczba wystąpień słowa w całym korpusie.
\(F_i\) – liczba wystąpień słowa w i-tym tekście korpusu.
\(\bar{F}\) - średnia liczba wystąpień danego słowa w tekście korpusu: \(\bar{F} = \frac{\sum_{i=1}^{N}F_i}{N}\).
\(P_i\) – stosunek liczby wystąpień danego słowa do liczby wszystkich słów w i-tym tekście korpusu.
\(\bar{P}\) - średnia częstość wystąpień danego słowa w tekście korpusu: \(\bar{P} = \frac{\sum_{i=1}^{N}P_i}{N}\).
\(S_i\) – stosunek liczby słów w i-tym tekście korpusu do liczby słów we wszystkich tekstach korpusu: \(S_i = \frac{L_i}{L}\)

Miary dyspersji i skorygowanej frekwencji:

Frekwencja – liczba wystąpień danego słowa w korpusie.

\[F\]
IDF – miara ilości informacji wiążącej się z użyciem danego słowa. Przyjmuje wartość 0, jeśli słowo występuje we wszystkich tekstach korpusu, i wartości tym większe im mniejsza jest liczba tekstów, w których występuje słowo.

\[\begin{split}\\log_2\frac{N}{N_t}\end{split}\]
Współczynnik zmienności (vc).

\[\sigma_F = \sqrt{\frac{\sum_{i=1}^N(F_i - \bar{F})^2}{N}}\]

\[vc = \frac{\sigma_F}{\bar{F}}\]
D i U Juillanda – miara dyspersji (D) i skorygowanej frekwencji (U). Miary obliczane są przy pomocy skorygowanej formuły, która uwzględnia różne objętości tekstów należących do korpusu. D przyjmuje wartości z przedziału \([0, 1]\), natomiast U – z przedziału \([0, F]\).

\[\sigma_P = \sqrt{\frac{\sum_{i=1}^N(P_i - \bar{P})^2}{N}}\]

\[D_{adj} = 1 - \frac{\sigma_P}{\bar{P}\sqrt{N - 1}}\]

\[U = D_{adj} \cdot F\]

Uwaga: odchylenie standardowe wykorzystane do obliczania D i U Juillanda obliczane jest przy pomocy innej formuły, niż w przypadku współczynnika zmienności.
DP Griesa (odwrotne DP, standaryzowane DP) – miary dyspersji. Oprócz standardowej miary DP obliczane są wartości odwrotnego DP (\(DP_{rev}\)), które łatwiej można porównać z wartościami innych metryk dyspersji, a także standarydowanego DP (\(DP_{norm}\)), wartości którego można porównać z korpusami składającymi się z innej liczby tekstów. Wyższe wartości DP i standaryzowanego DP (lub niższe wartości odwróconego DP) reprezentują bardziej nierównomierne występowanie słowa w korpusie. DP przyjmuje wartości z przedziału \([0, 1-min\left\{S_i \right\}_{i=1}^N]\), standaryzowane DP – z przedziału \([0, 1]\), a odwrotne DP – z przedziału \([min \left\{S_i \right\}_{i=1}^N, 1]\).

\[DP = \frac{\sum_{i=1}^{N}|\frac{F_i}{F}-S_i|}{2}\]

\[DP_{rev} = 1 - DP\]

\[DP_{norm} = \frac{DP}{1 - \frac{1}{N}}\]
D2 i Um Carolla – miara dyspersji (D2) i skorygowanej frekwencji (Um). Miara D2 przyjmuje wartości z przedziału \([0, 1]\), przy czym wyższe wartości D2 świadczą o bardziej równomiernej dystrybuji słowa w korpusie. Um przyjmuje wartości z przedziału \([\frac{F}{N}, F]\).

\[D_2 = \frac{- \sum_{i=1}^{N} \left( \frac{P_i}{\sum_{i=1}^{N} P_i} \cdot \log_2\frac{P_i}{\sum_{i=1}^{N}P_i} \right)}{\log_2{N}}\]

\[U_m = F \cdot D_2 + (1 - D_2) \cdot \frac{F}{N}\]
Rozbieżność KL (KLD) – niesymetryczna miara różnic w rozkładach prawdopodonieństwa, używana jako miara dyspersji. Przy obliczaniu wartości tej metryki przyjmuje się, że \(\\log_2 0 = 0\). Miara przyjmuje nieujemne wartości – tym wyższe, im mniej równomiernie dane słowo występuje w korpusie.

\[KLD = \sum_{i=1}^N \Bigg( \frac{F_i}{F} \cdot \log_2 \left( \frac{F_i}{F} \cdot \frac{1}{S_i} \right) \Bigg)\]
S i AF Roesengrena – miara dyspersji (S) oraz frekwencji (AF). Miary obliczane są przy pomocy skorygowanej formuły, która uwzględnia różnie objętości tekstów należących do korpusu. S przyjmuje wartości z przedziału \([\frac{1}{N}, 1]\), przy czym wyższe wartości odzwierciedlają bardziej równomierną dystrybuję słowa. AF przyjmuje natomiast wartości z przedziału \([\frac{F}{N}, F]\).

\[S_{adj} = \frac{1}{F} \left( \sum_{i=1}^N \sqrt{F_i \cdot S_i} \right)^2\]

\[AF = F \cdot S_{adj}\]
ARF – miara zmodyfikowanej frekwencji oparta o odległości pomiędzy wystąpieniami danego słowa. W poniższym wzorze zmienna \(d_j\) oznacza dystans między j-tym i j+1-szym wystąpienie słowa (a dla \(j = F\) – odległość pomiędzy pierwszym i ostatnim wystąpieniem słowa zakładając, że pierwsze i ostatnie słowo korpusu sąsiadują ze sobą). Miara przyjmuje wartości z przedziału \([1, F]\), tym wyższe, im bardziej równomierna jest dystrybuja słowa w korpusie.

\[ARF = \frac{F}{L} \sum_{i=1}^F min \left\{ d_i, \frac{L}{F} \right\}\]

Dla korpusów składających się tylko z jednego tekstu obliczane są jedynie frekwencja oraz ARF.

Dostępne miary zostały opisane w artykule „Dispersions and adjusted frequencies in corpora” (Gries, 2008) oraz rozdziale 5. podręcznika „A Practical Handbook of Corpus Linguistics” (Gries, 2021).

Terminologia

Lista terminów generowana jest przez aplikację TermoPL. Opis jej działania, instrukcja i dodatkowe informacje dostępne są na stronie aplikacji.

W zakładce Terminologii informacje ograniczone są do formy bazowej, wartości C-value oraz liczby wystąpień, posortowane wg C-value. Po kliknięciu przycisku „Pobierz” pobrany zostaje plik txt zawierający wszystkie dane wygenerowane przez TermoPL.

Pliki wygenerowane przez Korpusomat są kompatybilne z aplikacją TermoPL – po pobraniu „plików źródłowych korpusu” (przycisk dostępny na ekranie korpusu) można samodzielnie uruchomić aplikację TermoPL z wybranymi przez siebie opcjami.