Download The Principles of Probability and Statistics

Document related concepts

Mixture model wikipedia , lookup

Expectation–maximization algorithm wikipedia , lookup

Transcript
1
ISBN 978-80-904 948-5-5
Bilingual Czech-English Version
2
ISBN 978-80-904 948-5-5
Dvojjazyčná česko-anglická verze
3
The Principles of Probability and Statistics
(data mining approach)
Bilingual Czech-English Version
Základy pravděpodobnosti a statistiky
(data miningový přístup)
Dvojjazyčná česko-anglická verze
 CURRICULUM 2013. First edition.
No part of the present publication may be reproduced and distributed in any way and in
any form without express permission of the author and of the Publishing House
Curriculum
The publisher and author will appreciate possible comments concerning the work. They
may be forwarded to the addresses of the publisher and author presented below.
The grant project was supported by: MAKET PROMOTION INSTITUTE
The Company Corporation – 1313 N.Market Street – Wilmington, DE 19801-1151,
U.S.A.
The publisher: Publishing House CURRICULUM
Cholupická 39, CZ-142 00 Praha 4, Czech Republic
e-mail: [email protected]
The author: Assoc. Prof. RNDr. Přemysl Záškodný, CSc., Emy Destinové 17,
CZ-370 01 České Budějovice, Czech Republic
e-mail: [email protected]
Affiliation of the author:
The University of South Bohemia, České Budějovice, Czech Republic
The University of Finance and Administration, Praha, Czech Republic
The reviewers:
RNDr. Ivan Havlíček, CSc.
Assoc. Prof. Ing. Vladislav Pavlát, CSc.
Mgr. Petr Procházka
Assoc. Prof. PaeDr. Jana Škrabánková, CSc.
On line presentation: http//sites.google.com/site/csrggroup/textbook3/
ISBN 978-80-904948-5-5
4
CONTENTS
Introduction (Úvod)-6
Part 1. The main methods of descriptive statistics, Statistical Probability-12
Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost
1.1. Formulation of statistical investigation (Formulace statistického šetření)-12
1.2. Creation of scale (Škálování)-16
1.3. Measurement (Měření)-19
1.4. Elementary statistical processing (Elementární statistické zpracování)-22
1.4.1. Table (Tabulka)-24
1.4.2. Empirical distribution of frequencies (Empirické rozdělení četností)-25
1.4.3. Empirical parameters (Empirické parametry)-27
1.4.4. Illustration of calculation of empirical parameters (Ilustrace výpočtu empirických parametrů)-30
Part 2. The main methods of mathematical statistics, Probability distribution-32
Část 2. Hlavní metody matematické statistiky, Pravděpodobnostní distribuce
2.1. Assignment of theoretical distribution to empirical distribution-32
(Přiřazení teoretického rozdělení rozdělení empirickému)
2.1.1. Interval division of frequencies (Intervalové rozdělení četností)-35
2.1.2. Theoretical distribution (Teoretické rozdělení)-36
2.1.3. Description of selected theoretical distributions (Popis vybraných teoretických rozdělení)-43
2.1.4. Apparatus of non-parametric testing (Aparát neparametrického testování)-51
2.1.5. Illustration of non-parametric testing (Ilustrace neparametrického testování)-54
2.2. Comparison of empirical and theoretical parameters – estimations of theoretical
parameters, testing parametric hypotheses-57
(Srovnání empirických a teoretických parametrů – odhady teoretických parametrů,
testování parametrických hypotéz)
2.2.1. Basics of estimation theory (Základy teorie odhadů)-59
2.2.2. Illustration of confidence intervals construction (Ilustrace konstrukce interval spolehlivosti)-62
2.2.3. Basics of parametric hypotheses testing (Základy testování parametrických hypotéz)-63
2.2.4. Illustration of parametric testing (Ilustrace parametrického testování)-67
2.3. Measurement of statistical dependences – some fundaments of regression
and correlation analysis-73
(Měření statistických závislostí – některé základy regresní a korelační analýzy)
2.3.1, Delimitation of problem (Vymezení problému)-74
2.3.2. Simple linear and quadratic regression analysis-77
(jednoduchá lineární a kvadratická regresní analýza)
2.3.3. Simple linear and quadratic correlation analysis-80
(jednoduchá lineární a kvadratická korelační analýza)
2.3.4. Illustration of dependence measurement (Ilustrace měření závislostí)-82
Part 3. Applications-86
Část 3. Aplikace
3.1. Description of statistical and probability base of financial options-86
3.1.1. Introduction
3.1.2. Financial options
3.1.3. Statistical and probability base of Black-Scholes model
3.1.4. Statistical and probability base of Binomial and Trinomial model
3.1.5. Statistical and probability data mining tools – Normal, Binomial and Trinomial distribution
3.1.6. Conclusion
5
3.2. Description of statistical and probability base of Greeks-90
3.2.1. Introduction
3.2.2. Greeks
3.2.3. Value function
3.2.4. Segmentation and definitions of Greeks
3.2.5. Indications of Greeks
3.2.6. Formulas for Greeks
3.2.7. Needful statistical and probability relations for deduction of Greeks formulas
3.2.8. Conclusion, References
3.3. Data mining tools in statistics education-98
3.3.1. Introduction
3.3.2. Data mining
3.3.3. Data preprocessing in statistics education
3.3.4. Data processing in statistics education
3.3.5. Complex and partial tool of DMSTE – CP-DMSTE, ASM-DMSTE
3.3.6. Conclusion, References
3.3.7. Supplement of chapter 3.3. – The principles of data mining approach
3.3.7.1. Quotations from sources
3.3.7.2. Brief summary
3.3.7.3. Data mining cycle, References
Part 4. Statistical tables-122
Část 4. Statistické tabulky
CV of author-132
Bibliography of author-133
Global references-135
6
ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY
(DATA MININGOVÝ PŘÍSTUP)
THE PRINCIPLES OF PROBABILITY AND STATISTICS
(DATA MINING APPROACH)
Úvod Introduction
Předmětem pravděpodobnosti a statistiky jsou aplikace deskriptivní a matematické
statistiky a teorie pravděpodobnosti při zkoumání hromadných náhodných jevů. Aby bylo
možno tyto aplikace popsat, je potřebné se nejdříve zabývat deskriptivní a matematickou
statistikou a teorií pravděpodobnosti. Jelikož rozsah výkladu pravděpodobnosti a statistiky je
do jisté míry omezen (vzhledem k zaměření studijního textu na konkrétní studijní obory),
bude účelné seznámit se především s hlavními statistickými metodami, průběžně je ilustrovat
zadaným příkladem, přehledem osvojovaných pojmů a kontrolními otázkami, okrajově se
dotknout některých pojmů teorie pravděpodobnosti a pak přistoupit k aplikacím. Studium
takto pojatého výkladu je sice přístupné pro prezenční i kombinovanou formu studia, nelze je
však zaměňovat se souvislým a uceleným studiem statistiky a teorie pravděpodobnosti jako
samostatných vědních disciplín.
The applications of descriptive and mathematical statistics and probability theory in an
investigation of the collective random phenomena are the subject of probability and statistics.
To describe these applications it is necessary to first be concerned with descriptive and
mathematical statistics and probability theory. In view of the fact that the extent of the
probability and statistics presentation is to a certain degree limited (due to the study text
orientation to concrete branches of study) it will be effective to acquaint ourselves above all
with main statistical methods, continuously to illustrate them by the assigned example, by the
survey of acquired concepts and the check questions, marginally to touch of some concepts of
probability theory and finally to approach the applications. The studies of so structured
orientation is although accessible for attendance and combined form of study, it cannot,
however, be confused with a continuous and coherent study of statistics and probability
theory as a separate scientific disciplines.
Struktura výkladu bude uvedena prostřednictvím analyticko-syntetického modelu
struktury statistiky jako celku. Tento model je možné použít k okamžitému zařazení
statistické metody a k okamžitému zjištění předcházejících a navazujících metod. Model má
rovněž významnou poznávací dimenzi – ukazuje, které operace analýzy, abstrakce a syntézy
je třeba provádět, aby osvojení příslušné statistické metody bylo úplné. Předkládaný model na
obrázku Obr.1 (Fig.1) obsahuje čtyři dílčí analyticko-syntetické struktury. Model na obrázku
Obr.1, legenda k obrázku Obr.1 i popis dílčích strukturálních částí je uveden pouze
v angličtině.
The structure of presentation will be introduced by analytical-synthetic model of the
structure of statistics as a whole. This model can be used for the immediate classification of
statistical method and for the immediate location of previous and follow-up methods. The
model also has a significant cognitive dimension – it is showing which the operations of
analysis, abstraction and synthesis are to be carried out to be complete the adoption of
relevant statistical method. The presented model in figure Fig.1 contains the four partial
7
analytical-synthetic structures. The model in figure Fig.1, the legend to figure Fig.1 and the
description of component structural parts is presented only in English.
Následující krátkou část textu, která je předložena v angličtině, představuje data
miningový přístup ke studiu základů statistiky a několika potřebných pojmů
pravděpodobnosti. Data miningový přístup umožňuje pracovat s intgrálními pojmy a poznatky
v jejich systémové podobě (viz analyticko-syntetický model). Podrobněji je data minigový
přístup vyložen v Části 3 “Aplikace”. Okamžitá strukturální orientace, ukazující, která část
statistiky a jejích pravděpodobnostních aplikací je při studiu právě osvojována, není
k zahození. Vždy je dobré vědět, zda je „pouze“ vymezován výběrový statistický soubor VSS
(první dílčí struktura od strukturálního prvku a-1 až k prvku e-1), zda je již vytvářen
empirický obraz souboru VSS (druhá dílčí struktura od prvku a-2 až k prvku e-2) nebo zda je
již dokonce zkoumán pravděpodobnostní obraz souboru VSS (třetí dílčí struktura od prvku a3 až k prvku e-3) nebo zda již bylo vstoupeno do procesu vytváření asociativního obrazu
souboru VSS (čtvrtá dílčí struktura od prvku a-4 až k prvku e-4). Navíc, studium textů
v angličtině je potřebným předpokladem pro studium zahraniční literatury.
Following a short part of text presented only in English represents data mining
approach to the study of the principles of statistics and several needful concepts of
probability. The data mining approach enables to work with the integral concepts and
knowledge pieces in their system shape (see analytical-synthetic model). The data mining
approach is explained in Part.3 “Applications” more detail. The immediate structural
orientation, showing which part of the statistics and its probability applications is just
acquired in the course of the study, isn´t useless. It is always good to know whether the
selective statistical set (SSS) is “only” determined (the first partial structure from element a-1
up to element e-1), whether the empirical picture of set SSS is already created (the second
partial structure from element a-2 up to element e-2) or whether the probability picture of set
SSS is already even explored (the third partial structure from element a-3 up to element e-3)
or whether it was already entered to the process of creation of the associative picture of set
SSS (the fourth partial structure from element a-4 up to element e-4). In addition, the study of
the texts in English is needful assumption for the study of foreign literature.
8
Collective random phenomenon and reason of its investigation a-1
Statistical unit
Variants (values) of
statistical sign
Statistical sign
Choice of statistical
units
Selective statistical set (SSS) as a part of basic statistical set, Goals of statistical examination e-1=a-2
Statistical probability
Creating of scale
Measurement
Frequencies tables
(Empirical distribution)
Graphical expression
Empirical parameters
Empirical picture of selective statistical set, Necessity of probable investigation e-2=a-3
Probability distributions
Choice of acceptable
theoretical distribution
Quantification
theoretical parameters
Testing non-parametric
hypotheses
Point & interval estimation
(e.g. confidence interval)
Empirical & probable picture of selective statistical set,
Statistical dependence
(causal, non-causal)
of
Comparison of theoretical and
empirical parameters
Testing parametric hypotheses
Necessity of association investigation e-3=a-4
Regression analysis
Correlation analysis
Empirical & probable & association picture of selective statistical set
Interpretation and conclusions as the statistical & probable dimension e-4
of investigation collective random phenomenon
Applied probability and statistics
(e.g. financial options and their mathematical and statistical elaboration by means of greeks calculation and
option hedging models)
Fig.1 Analytical synthetic model of statistics and needful probability concepts
formed by four partial models a1-e1, a2-e2, a3-e3, a4-e4
9
LEGEND to whole figure Fig.1
a-1
e-1
,
a-2
e-2
,
a-3
e-3
,
a-4
e-4
One – Sample Analysis, Two / Multiple – Sample Analysis
LEGEND to partial models of figure Fig.1
a-1
e-1
Formulation of statistical examination
a-2
e-2
Relative & Cumulative Frequencies (Empirical distribution)
Plotting functions: e.g. Plot Frequency Polygon (Graphical expression)
Average-Means (Arithmetic Mean), Variance-Standard (Determinative) Deviation,
Obliqueness (Skewness), Pointedness (Kurtosis) – (Empirical parameters)
a-3
e-3
Theoretical Distribution (partial survey in alphabetical order):
Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma,
Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular,
Trinomial, Uniform, Weibull
Testing Non-parametric Hypotheses (Hypothesis test for H0 – receive or reject H0):
e.g. computed Wilcoxon´s test, Kolmogorov-Smirnov test, Chi-square test
e.g. at alpha = 0,05
Point & Interval Estimation:
e.g. confidence interval for Mean, confidence interval for Standard Deviation
Testing Parametric Hypotheses (Hypothesis test for H0 – receive or reject H0):
e.g. computed u-statistic, t-statistic, F-statistic, Chi-square statistic, Cochran´s test, Barlett´s
test, Hartley´s test
e.g. at alpha = 0,05
a-4
e-4
Statistical dependence:
e.g. confidence interval for difference in Means (Equal variances, Unequal variances)
e.g. confidence interval for Ratio of Variances
Regression analysis:
simple – multiple, linear – non-linear
Correlation analysis:
e.g. Rank correlation coefficient, Pearson´s correlation coefficient
10
Description of four partial analytical synthetic structures
The example of applicability of analytical synthetic modeling presented via Fig. 1 is
introduced by means of description of statistics as a whole. In the framework of this
description it is possible to indicate four partial analytical-synthetic structures of statistical
dimension of investigated problem.
Now, these four partial analytical synthetic structures will be presented. Within this
presentation let us compare general model of analytical synthetic structure of investigated
problem (from investigated phenomenon to the result of solution given by intellectual
reconstruction) with figure Fig. 1 "Analytical synthetic model of statistics formed by four
partial models".
First structure
a-1
e-1
(see Fig. 1)
From investigated phenomenon
(marked a-1)
"Collective random phenomenon and reason of its investigation"
to the result of intellectual reconstruction (marked e-1)
"Selective statistical set as a part of basic statistical set"
Second structure
a-2
e-2
(see Fig. 1)
From investigated phenomenon
(marked a-2)
"Selective statistical set as a part of basic statistical set"
to the result of intellectual reconstruction (marked e-2)
"Empirical picture of selective statistical set"
Third structure
a-3
e-3
(see Fig. 1)
From investigated phenomenon
(marked a-3)
"Empirical picture of selective statistical set"
to the result of intellectual reconstruction
(marked e-3)
"Probable picture of selective statistical set"
Fourth structure
a-4
e-4
(see Fig. 1)
From investigated phenomenon
(marked a-4)
"Probable picture of selective statistical set"
to the result of intellectual reconstruction
(marked e-4)
"Association picture of selective statistical set"
Applied statistics
a5
(see Fig. 1)
11
Struktura výkladu bude odrážet model znázorněný obrázkem Obr.1 (Fig.1). Jednotlivé
odstavce výkladu proto mohou být popsány prostřednictvím strukturálních prvků a-1 až a-5
a e-1 až e-4 modelu. Výklad bude pro zájemce o hlubší pochopení doplněn kapitolou
vysvětlující některé základní pojmy teorie pravděpodobnosti a přehledem základních
statistických tabulek.
The structure of explanation will reflect the model represented by figure Fig.1.
Therefore, the interpretation of individual paragraphs can be described by means of the
structural elements a-1 up to a-5 and e-1 up to e-4. The explanation will be fulfilled for
persons interested in deeper understanding by both the chapter explaining some basic
concepts of probability theory and the survey of basic statistical tables.
Struktura výkladu bude následující:
The structure of explanation will be as follows:
Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost
Part 1. The main methods of descriptive statistics, Statistical probability
1.1.
Formulace statistického šetření
Formulation of statistical investigation
(od prvku a-1 k prvku e-1) (from element a-1 to element e-1)
1.2.
Škálování Creation of scale
(od prvku a-2 k prvku e-2) (from element a-2 to element e-2)
1.3.
Měření, Pravděpodobnost
Measurement, Probability
(od prvku a-2 k prvku e-2) (from element a-2 to element e-2)
1.4.
Elementární statistické zpracování
Elementary statistical processing
(od prvku a-2 k prvku e-2) (from element a-2 to element e-2)
Část 2. Hlavní metody matematické statistiky, Pravděpodobnostní distribuce
Part 2. The main methods of mathematical statistics, Probability distribution
2.1. Přiřazení teoretického rozdělení rozdělení empirickému – testování neparametrických
hypotéz, Pravděpodobnost – teoretická rozdělení
Assignment of theoretical distribution to empirical distribution – testing non-parametric
hypotheses, Probability – theoretical distributions
(od prvku a-3 k prvku e-3) (from element a-3 to element e-3)
2.2. Srovnání empirických a teoretických parametrů – odhady teoretických parametrů,
testování parametrických hypotéz
Comparison of empirical and theoretical parameters – estimations of theoretical
parameters, testing parametric hypotheses
(od prvku a-3 k prvku e-3) (from element a-3 to element e-3)
2.3. Měření závislostí - některé základy regresní a korelační analýzy
Measurement of statistical dependences – some fundaments of regression and
correlation analysis
(od prvku a-4 k prvku e-4) (from element a-4 to element e-4)
Část 3. Aplikace (prvek a5)
Part 3. Applications (element a5)
3.1. Popis statistického a pravděpodobnostního základu finančních opcí
Description of statistical and probability base of financial options
3.2. Popis statistického a pravděpodobnostního základu Greeks
Description of statistical and probability base of Greeks
3.3. Nástroje data miningu ve statistickém vzdělávání
Data Mining Tools in Statistics Education
Část 4. Statistické tabulky Part 4. Statistical tables
12
Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost
Part 1. The main methods of descriptive statistics, Statistical
probability
1.1. Formulace statistického šetření
1.1. Formulation of statistical investigation
Cíle:
-
Goals:
Hromadný náhodný jev a důvod jeho zkoumání (Collective random phenomenon and
reason of its investigation)
Výběrový statistický soubor jako část základního statistického souboru (Selective
statistical set as a part of basic statistical set)
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Hromadný náhodný jev (collective random phenomenon), statistická jednotka (statistical
unit), statistický znak (statistical sign – statistical character), hodnoty statistického znaku
(values of statistical sign), základní statistický soubor (basic statistical set – basic statistical
file – population), výběrový statistický soubor (selective statistical set – sample statistical file)
Kontrolní otázky:
Check questions:
-
Co je předmětem zkoumání statistiky a teorie pravděpodobnosti
What is the subject of investigation of statististics and probability theory
-
Co je to hromadný náhodný jev
What is the collective random phenomenon
-
Jak je vymezena statistická jednotka
How is the statistical unit delimited
-
Jak je vymezen statistický znak a jeho hodnoty
How are statistical sign and its values delimited
-
Jaký je rozdíl mezi základním a výběrovým statistickým souborem
What is the difference between basic and selective statistical set
-
Proč je důležitý proces náhodného výběru
Why is the procces of random selection important
13
Výklad bude ilustrován prostřednictvím zadaného příkladu.
The explanation will be illustrated by means of the assigned example.
Zadaný příklad: Assigned example:
Testům na „exportní schopnost“ se podrobilo 4000 podniků. Pro předběžnou informaci
bylo třeba určit průměrnou „exportní schopnost“ na škále 1 až 5 (1 – maximální exportní
schonost, 5 – minimální exportní schopnost). Proto bylo náhodně vybráno 50 testů, jejichž
výsledky jsou uvedeny v tabulce Tab.1. Hromadný náhodný jev (exportní schopnost podniku)
postupně komplexně statisticky zpracujte.
The 4000 enterprises have undergone tests on “export ability”. The average “export
ability”on a scale 1 to 5 (1 – maximum export ability, 5 – minimum export ability) was
necessary to define for preliminary information.That is why the 50 tests was randomly
selected and their results are presented in table Tab.1. Elaborate the collective random
phenomenon (export ability of enterprise) gradually and complexly.
xi
1
2
3
4
5
ni
9
15
20
4
2
Σ 50
ni/n
0,18
0,3
0,4
0,08
0,04
Σ 1,00
Σ ni/n
0,18
0,48
0,88
0,96
1,00
xini
9
30
60
16
10
Σ 125
xi2ni
9
60
180
64
50
Σ 363
xi3ni
9
120
540
256
250
Σ 1175
xi4ni
9
240
1620
1024
1250
Σ 4143
Tabulka Tab.1: Výsledky zpracování 50 testů Table Tab.1: The results of 50 test elaboration
-
Formulace statistického šetření je založena na vymezení následujících pojmů:
The formulation of statistical investigation is worked on delimitation of following concepts:
hromadný náhodný jev
HNJ
collective random phenomenon
CRP
statistická jednotka
SJ
statistical unit
SU
statistický znak
SZ
statistical sign
SS
hodnoty statistického znaku
HSZ
values of statistical sign
VSS
základní statistický soubor a jeho rozsah
ZSS
basic statistical set and its extent
BSS
náhodný výběr
NV
random selection
RS
výběrový statistický soubor a jeho rozsah
VSS
selective statistical set and its extent
SSS
Hromadný náhodný jev HNJ (např.exportní schopnost podniku) je realizace činností
nebo procesů, jejichž výsledek nelze s jistotou předpovědět a které se odehrávají v rozsáhlé
14
množině prvků (např. podniků). Tyto prvky mají určitou skupinu vlastností stejných (např.
stejný typ ekonomického parametru – charakter podniku) a další skupinu vlastností odlišných
(např. odlišné hodnoty jiných parametrů celkového ekonomického stavu podniku).
Matematická statistika a teorie pravděpodobnosti se zabývají kvalitativní a kvantitativní
analýzou zákonitostí hromadných náhodných jevů.
Collective random phenomenon CRP (e.g. export ability of enterprise) is the realization
of the activities or processes whose result cannot be predicted with certainty and which are
taking place in an extensive set of elements (e.g. enterprises). These elements have the certain
group of identical properties (e.g. identical type of economical parameter – enterprise
character) and the other a group of different properties (e.g. the different values of export
ability of global economical state of enterprise). Mathematical statististics and probability
theory deal with qualitative and quantitative analysis of the patterns of collective random
phenomena.
Statistická jednotka SJ je vymezena stejnými vlastnostmi prvků zkoumané množiny
(např. podniky a jejich charakter).
The statistical unit SU is delimited by the identical properties of investigated set
elements (e.g. the enterprises and their character).
Statistický znak SZ je dán některou z odlišných vlastností prvků zkoumané množiny
(např. exportní schopností podniku).
The statistical sign SS is given by some from different properties of investigated set
elements (e.g. by export ability of enterprise).
Hodnoty statistického znaku HSZ jsou způsobem popisu zkoumaného statistického
znaku (např. popis exportní schopnosti podniků těžařského průmyslu procentem vytěžené
rudy dopravené ke zpracování do 14 dní od vytěžení).
The values of statistical sign VSS are a way of investigated statistical sign description
(e.g. the description of export ability of mining industry enterprises by the percent of the
mined ore transported for the processing within fortnight from the extraction).
Základní statistický soubor ZSS (populace) je dán všemi statistickými jednotkami, jeho
rozsah je roven počtu všech statistických jednotek (např. rozsah zkoumaného ZSS je
u zadaného příkladu roven celkovému počtu 4000 podniků). Obvykle není v praktických
možnostech statistiků zkoumat statistický znak SZ u všech statistických jednotek SJ a je nutno
přistoupit k omezení počtu statistických jednotek SJ.
The basic statistical set BSS (population) is given by all the statistical units, its extent is
equal to the number of all the statistical units (e.g. the extent of investigated BSS is equal to
the total number of 4000 enterprises in the assigned example). It is usually not in the practical
possibilities of statisticians to investigate the statistical sign SS in all the statistical units SU
and it is required to limit the number of statistical units SU.
Náhodný výběr NV je omezení počtu zkoumaných statistických jednotek SJ takovým
způsobem, aby bylo možné přenášet získané výsledky na celý ZSS. Existují rozmanité
způsoby náhodného výběru (losování, generování tabulkou náhodných čísel, záměrný výběr).
Je potřebné ověřovat, zda je možno získaný výběr považovat za náhodný.
The random selection RS is limit the number of investigated statistical units SU in such
a way, in order to transfer the results obtained to the entire BSS. The various ways of random
selection are existing (drawing, generating a table of random numerals, deliberate selection).
It is necessary to verify whether it could be considered as random selection obtained.
15
Výběrový statistický soubor VSS je dán těmi statistickými jednotkami, které byly
vybrány ze základního statistického souboru procesem náhodného výběru. Rozsah VSS je
roven počtu vybraných statistických jednotek (např. rozsah VSS je u zadaného příkladu roven
počtu 50 vybraných podniků). Výběrový statistický soubor VSS je jednorozměrným, je-li u
něj zkoumán jen jeden statistický znak, vícerozměrným, je-li zkoumáno více statistických
znaků.
The selected statistical set SSS is given those statistical units, which have been selected
from the basic statistical set by the process of random selection. The extent of SSS is equal to
the number of selected statistical units (e.g. the extent of SSS in the assigned example is equal
to the number of 50 selected enterprises). Selected statistical set SSS is one-dimensional if it
investigated only one statistical sign, multidimensional set found at, if investigated more
statistical signs.
Formulace statistického šetření je u zadaného příkladu uskutečněna vymezením
výběrového statistického souboru 50 podniků. V rámci tohoto vymezení musí být přesně
charakterizovány všechny navazující pojmy – zkoumaný hromadný náhodný jev HNJ, definice
statistické jednotky SJ, určení zkoumaného statistického znaku SZ, charakteristika hodnot
statistického znaku HSZ, přesné vymezení základního statistického souboru SZZ a konečně
zajištění procedury náhodného výběru NV.
The formulation of the statistical investigation is implemented in the assigned example
by the delimitation of selective statistical set 50 enterprises. In the context of this delimitation
must be exactly characterized all the follow-up concepts – investigated collective random
phenomenon CRP, definition of the statistical unit SU, determination of the investigated
statistical sign SS, characterization of the statistical sign values VSS, exact delimitation of the
basic statistical set BSS and finally, ensuring the procedure of random selection RS.
16
1.2. Škálování
1.2. Creation of scale
Cíle: Goals:
-
tvorba škály (creation of scale)
výběr typu škály (choice of scale type)
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Škála (scale), klasifikace škál (classification of scales), parametry vybraného typu škály
(parameters of selective type of scale)
Kontrolní otázky: Check questions:
-
Co je to škálování
What is the creation of scale
-
Podle čeho lze rozlišovat typy škál
Is it possible to distinguish the types of scales according to which facts
-
Jaké jsou základní typy škál
What are the basic types of scales
-
Jaký je rozdíl mezi kvantitativní metrickou škálou a absolutní metrickou škálou
What is the difference between the quantitative metric scale and absolute metric scale
Škálování je vhodné vyjádření hodnot statistického znaku prostřednictvím prvků škály.
Jde o to, že hodnoty statistického znaku mohou být rozčleněny do rozumných skupin, do
prvků škály. Soustava prvků škály vytváří škálu. Počet k prvků škály může být vypočítán
např. Sturgesovým pravidlem k = 1 + 3,3 log10n, kde n je rozsah výběrového statistického
souboru VSS.
Podle povahy statistického znaku je možné rozlišovat např. čtyři typy škál: kvalitativní,
ordinální, kvantitativní metrickou a absolutní metrickou. Klasifikace škál lze využít také ke
klasifikaci statistických znaků. V některých případech lze hodnoty statistického znaku ihned
ztotožnit se škálou a škálování není nutné provádět.
The scale creation is the suitable expression of statistical sign values by means of scale
elements. The point is that the statistical sign values can be divided into reasonable groups,
into scale elements. The system of scale elements creates the scale. The number k of scale
elements can be calculated, for example, by Sturges rule k = 1 + 3.3 log10n, where n is an
extent of selective statistical set SSS.
According to the nature of statistical sign it is possible to distinguish, e.g., four types of
scales: qualitative (nominal), ordinal, quantitative metric and absolute metric. The
classification of scales can be used also to classify statistical signs. In some cases, the
statistical sign values immediately identify the scale and scaling isn´t necessary.
17
Nominální škála je klasifikací do kategorií (prvky škály jsou jednotlivé kategorie).
O každých dvou statistických jednotkách výběrového statistického souboru lze rozhodnout,
zda jsou z hlediska zkoumaného statistického znaku totožné nebo rozdílné (např. pohlaví nebo
zaměstnání, jsou-li statistickými jednotkami individuální osoby).
The nominal scale is the classification into categories (the scale elements are the
individual categories). For every two statistical units of selective statistical set it is possible to
decide whether or not they are in terms of investigated statistical sign of identical or different
(such as gender or employment, if the statististical units are individual persons).
Ordinální škála umožňuje nejen rozhodnout o totožnosti nebo rozdílnosti statistických
jednotek, ale také stanovit jejich pořadí (např. dosažení stupně školního vzdělání). Prvky
škály jsou jednotlivá pořadí. Neumožňuje stanovit vzdálenost mezi dvěma sousedními
statistickými jednotkami uspořádanými podle této škály.
The ordinal scale enables you to not only decide on the identity or the diversity of the
statistical units, but also to establish their order (e.g., achieve the degree of scholastic
education). The scale elements are the individual order. This one doesn´t enable to determine
the distance between two neighbouring statistical units arranged according to this scale.
Kvantitativní metrická škála již umožňuje stanovit vzdálenost mezi dvěma sousedními
statistickými jednotkami – z tohoto pohledu je nezbytné definovat jednotku škály (např.
procentové ohodnocení exportní schopnosti nebo jiného parametru celkového ekonomického
stavu, teplota ve stupních Celsia). Kvantitativní metrická škála vyjadřuje hodnoty
statistického znaku bez možnosti věcně interpretovat počátek (nulový bod) škály – volba
počátku škály je proto libovolná.
The quantitative metric scale already enables to establish the distance between two
neighbouring statistical units – from this perspective, it is needful to define the unit of scale
(e.g. percentage evaluation of export ability or other parameter of the global economical
condition, the temperature in degrees Celsius). The scale elements are the individual points of
scale expressed the numerical sizes. The quantitative metric scale expesses the values of
statistical sign without the possibility factually to interpret, in the beginning (zero point) of
scale – the choice of scale beginning is the question of free choice.
Absolutní metrická škála je kvantitativní metrická škála a navíc lze věcně interpretovat
počátek škály – nula škály odpovídá skutečné nulové hodnotě zkoumaného statistického
znaku (např. teplota ve stupních Kelvina, počet chyb při testování, délka školní docházky).
Prvky škály jsou jednotlivé body škály vyjádřené nejen číselnou velikostí, ale také absolutní
nulou škály. Pouze absolutní metrická škála umožňuje počítat podíly, podíl libovolných dvou
bodů škály nezávisí na volbě jednotky škály.
The absolute metric scale is a quantitative metric scale and, in addition, it can be
interpreted in the beginning of the scale factually – the scale zero responds to real zero value
of investigated statistical sign (e.g. the temperature in degrees Kelvin, the number of errors in
testing, the length of school attendance). The scale elements are the individual points of scale
of numeric sizes not only expressed but also the absolute zero of scale. Only the absolute
metric scale enables to calculate the divisions, the proportion of any two points of scale
doesn´t depend on the choice of scale unit.
V zadaném příkladě jsou hodnoty statistického znaku „stupeň exportní schopnosti“
dány stupni 1, 2, …, 5. Je zřejmé, že musel být vyvinut způsob vyjádření exportní schopnosti
(např. stupeň 1 – exportováno 100%-80% vytěžené rudy podnikem těžebného průmyslu,
stupeň 2 – exportováno 80%-60% vytěžené rudy, … , stupeň 5 – exportováno 20%-0%
18
vytěžené rudy) – stupně 1, 2, …, 5 lze tedy ztotožnit se škálou, která je typickou kvantitativní
metrickou škálou. Prvky škály jsou body škály vyjádřené číselnými velikostmi x1 = 1, x2 = 2,
…, x5 = 5. Tato škála by měla odrážet „stejnou vzdálenost (např. 20%)“ exportní schopnosti
mezi libovolnými dvěma sousedními prvky škály.
In the assigned example the statistical sign values “degree of export ability” are given
by the degrees 1, 2, …, 5. It is evident the way of export ability expression had to be produced
(e.g. degree 1 – exported 100%-80% of mined ore by enterprise of mining industry, degree 2
– exported 80%-60% of mined ore, … , degree 5 – exported 20%-0% of mined ore) – so the
degrees 1, 2, …, 5 can be identified the scale of, which is the typical quantitative metric
scale. The scale elements are the points of scale expressed by numerical sizes x1 = 1, x2 = 2,
… , x5 = 5. This scale should reflect “the identical distance (e.g. 20%)” of export ability
between any two neighbouring scale elements.
19
1.3. Měření
1.3. Measurement
Cíle: Goals:
-
proces měření (process of measurement)
vyjádření výsledků měření (expression of measurement results)
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Měření (measurement), absolutní četnost (absolute frequency), relativní četnost (relative
frequency), kumulativní četnosti (cumulative frequencies)
Kontrolní otázky: Check questions:
-
Co je to měření při statistickém zpracování hromadného náhodného jevu
What is the measurement within statistical elaboration of collective random
phenomenon
-
Na čem závisí volba metody měření
What does the selection of measurement method depend on
-
Jaké podmínky musí splňovat metoda měření
What conditions must the measurement method fulfil
-
Co jsou to výsledky měření
What are the results of measurement
-
Jaká je statistická definice pravděpodobnosti
What is the statistical definition of probability
-
Jak je definována absolutní a relativní četnost
How is the absolute and relative frequency defined
-
Jak jsou definovány kumulativní četnosti
How are the cumulative frequencies defined
20
Měření je proces, kterým je každé statistické jednotce SJ výběrového statistického
souboru VSS (o rozsahu n statistických jednotek) přiřazován jeden z k prvků škály
x1, x2, …, xk. Výsledky měření jsou zjištění, že prvek škály xi (i = 1, 2, …, k) byl naměřen
ni krát. Součet všech hodnot ni (i = 1, 2, …, k), kterým se říká absolutní četnosti, musí být
roven rozsahu n výběrového statistického souboru VSS.
The measurement is the process by which is one of k scale elements x1, x2, …, xk
assigned to each statistical unit SU of selective statistical set SSS (with extent n of
statististical units). The measurement results are the findings, that the scale element
xi (i = 1, 2, …, k) was measured ni times. The summation of all the values ni (i = 1, 2, …, k),
so called the absolute frequencies, must be equal to the extent n of selective statistical
set SSS.
Možné výsledky měření xi (i = 1, 2, …, k) lze hodnotit podle toho, jak velkou mají
pravděpodobnost, že při měření nastanou. Statistická definice pravděpodobnosti vychází
z n krát nezávisle provedeného měření (počet měření n odpovídá rozsahu výběrového
statistického souboru VSS) a ze zjištěných absolutních četností ni možných výsledků měření.
Statistická pravděpodobnost p(xi) výsledku xi je pak dána tzv. relativní četností ni / n. Součet
všech relativních četností musí být roven 1.
The potential results of measurement (i = 1, 2, …, k) can be evaluated by the size of the
probability which appears in the course of measurement. The statistical definition of
probability works on n times independently carried out measurement (the number of
measurement n corresponds to the extent of selective statistical set SSS) and on discovered
the absolute frequencies ni of potential measurement results. The statistical probability p(xi) of
result xi is then given by so called relative frequency ni / n. The summation of all the relative
frequencies must be equal to 1.
Mezi výsledky měření lze zařadit také kumulativní četnosti. Kumulativní četnost
Σ (ni / n) udává pravděpodobnost, že bude naměřen výsledek měření menší nebo rovný
výsledku xi. Je zřejmé, že kumulativní četnosti je možné zjišťovat jen u kvantitativních
metrických nebo absolutních metrických škál. Kumulativní četnosti mají velký význam např.
při konstrukci finančních a ekonomických rozvah.
Also the cumulative frequencies can be classified as the results of the measurement. The
cumulative frequency Σ (ni / n) is the probability that the measurement result will be measured
lesser or equal to result xi. It is evident the cumulative frequencies can be detected only within
quantitative metric or absolute metric scales. The cumulative frequencies, for example, are of
great significance in the construction of financial or economical balance sheets.
V rámci zadaného příkladu lze prostřednictvím tabulky Tab.1 vysledovat, že bylo
pracováno se škálou o 5 prvcích x1=1, x2=2, …, x5=5 (viz první sloupec tabulky), jejichž
absolutní četnosti byly postupně n1=9, n2=15, n3=20, n4=4, n5=2 (viz druhý sloupec tabulky).
Relativní četnosti ni / n jsou pak uvedeny v třetím sloupci tabulky, kumulativní četnosti
v sloupci čtvrtém. Z padesáti podniků výběrového statistického souboru (n=50) bylo
9 podniků s maximální exportní schopností (pravděpodobnost tohoto stupně je 0,18),
15 podniků se stupněm nižším než stupeň nejvyšší (pravděpodobnost 0,30), 20 podniků se
střední exportní schopností (pravděpodobnost 0,40), 4 podniky se stupněm rozvinutosti nižším
než je stupeň střední (pravděpodobnost 0,08) a 2 podniky s nejnižším stupněm exportní
schopnosti (pravděpodobnost 0,04)
Within the assigned example it is possible through table Tab.1 to discover that it was
being worked with the scale created by 5 elements x1=1, x2=2, …, x5=5 (see the first column in
table), their absolute frequencies were gradually n1=9, n2=15, n3=20, n4=4, n5=2 (see the
21
second column in table). The relative frequencies ni / n are then presented in the third column
of the table, the cumulative frequencies in the fourth column. Of the fifty enterprises selective
statistical set (n=50) 9 enterprises were with the maximum export ability (probability of this
degree is 0.18), 15 enterprises were with the lower degree than the highest degree
(probability 0.30), 20 enterprises were with the middle export ability (probability 0.40),
4 enterprises were with the degree of development lower than middle degree (probability
0.08) and 2 enterprises were with the lowest degree of export ability (probability 0.04).
V rámci zadaného příkladu je kumulativní četnost např. výsledku x3=3 dána
pravděpodobností 0,88. Tuto pravděpodobnost, že při zkoumání stupně exportní schopnosti
bude zjištěn stupeň 1, 2 nebo 3, lze určit jako součet pravděpodobností p(1) + p(2) + p(3) =
0,18 + 0,30 + 0,40 = 0,88. Pravděpodobnost zjištění stupně středního je tedy značně vysoká.
Within the assigned example the cumulative frequency, e.g. of result x3=3, is given by
probability 0.88. This probability, that the degree 1, 2 or 3 will be determined within the
investigation of export ability degree, can be determined by the summation of probabilities
p(1) + p(2) + p(3) = 0.18 + 0.30 + 0.40 = 0.88. So the probability of detection of the middle
degree is significantly high.
V případě kvantitativní metrické škály a absolutní metrické škály lze měření považovat
za zobrazení množiny statistických jednotek (např. výběrového statistického souboru) do
množiny reálných čísel.
In the case of quantitative metric scale or absolute metric scale the measurement can be
considered the projection of statistical units set (e.g. within selective statistical set) into set of
real numbers.
Metody měření jsou závislé na odborné oblasti, v jejímž rámci byl vymezen zkoumaný
výběrový statistický soubor VSS. Odlišné budou např. při zkoumání hromadného náhodného
jevu v sociologii (rozmanité dotazníkové formy měření) a při zkoumání hromadného
náhodného jevu v ekonomii (rozmanité způsoby měření exportní schopnosti před aplikací
a po aplikaci ekonomické optimalizace podniku).
The measurement methods depend on the expert field, which was defined in the
investigated selective statistical set SSS. They will be different, e.g., in the investigation of a
collective random phenomenon in sociology (various questionnaire forms of measurement)
and the investigation of a collective random phenomenon in economy (various ways of export
ability measurement before and after application of economical optimization of enterprise).
Metoda měření musí splňovat podmínky validity (zda je měřeno to, co má být měřeno),
reliability (reprodukovatelnost měření) a objektivnosti (zda různí posuzovatelé budou měřit
statistické jednotky stejným způsobem).
The measurement method shall comply with the conditions of validity (whether it is
measured what is to be measured), reliability (reproducibility of measurements) and
objectivity (whether the various evaluators will mesure the statistical unit in the same way).
Výsledky měření zkoumaného výběrového statistického souboru VSS jsou dány údaji
o hodnotách statistického znaku, tj. údaji o absolutních četnostech a relativních četnostech
jednotlivých prvků škály a údaji o četnostech kumulativních.
The measurement results of investigated selective statistical set SSS are given by the
information on statistical sign values, i.e. by the information on the absolute frequencies and
the relative frequencies of individual scale elements and by the information on the cumulative
frequencies.
22
1.4. Elementární statistické zpracování
1.4. Elementary statistical processing
Cíle: Goals:
-
Cíle zkoumání deskriptivní statistiky
Goals of investigation of descriptive statistics
-
Empirický obraz výběrového statistického souboru
Empirical picture of selective statistical set
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Tabulky četností
Frequencies tables
Empirické rozdělení
Empirical distribution
Grafické vyjádření
Graphical expression
Grafické vyjádření empirického rozdělení
Plotting function – Graphical expression of empirical distribution
Polygon četnosti
Frequency polygon
Empirické parametry
Empirical parameters
Obecné moment, např. aritmetický průměr
General moments, e.g. average-means (arithmetic mean)
Centrální momenty, např. rozptyl-směrodatná odchylka
Central moments, e.g. variance-standard deviation (determinative deviation)
Normované momenty, např. šikmost, špičatost
Standardized moments, e.g. obliqueness (skewness), pointedness (kurtosis)
23
Kontrolní otázky: Check questions:
-
Jaké jsou hlavní cíle elementárního statistického zpracování
What are the main goals of the elementary statistical processing
-
Jak lze vhodným způsobem uspořádat výsledky měření
How can be the measurement results arranged by suitable way
-
Jak lze vhodným způsobem parametrizovat výsledky měření
How can be the parameters of measurement results expressed by suitable way
-
Co je to empirické rozdělení četností
What is the empirical distribution of frequencies
-
Jak lze vhodným způsobem graficky vyjádřit výsledky měření
How can be the measurement results graphically expressed by suitable way
Jak lze graficky vyjádřit empirické rozdělení jednorozměrného statistického souboru
How can be the empirical distribution of one-dimensional statistical set expressed by
graphical way
-
Co je to polygon četností
What is the frequency polygon
-
Jaký je význam grafického vyjádření empirického rozdělení
What is the significance of graphical expression of empirical distribution
-
Jak lze dělit empirické parametry podle popisovaného rysu zkoumaného statistického
souboru
How can be the empirical parameters divided according to described feature of
investigated statistical set
-
Jak lze dělit empirické parametry podle způsobu výpočtu
How can be the empirical parameters divided according to calculation way
-
Jak jsou definovány obecné, centrální a normované moment
How are defined the general, central and standardized moments
-
-
Co je nejdůležitějším parametrem polohy, proměnlivosti (variability), šikmosti
a špičatosti, jaká je statistická interpretace těchto parametrů
What is the most important parameter of location, variability, skewness and kurtosis,
what is the statistical interpretation of these parameters
Jak je definována veličina „exces“ a jaký je její význam
How is the “excess” quantity defined and what is its significance
24
Výsledky měření je potřebné uspořádat, graficky vyjádřit a parametrizovat vhodnými
empirickými parametry. Tyto úkoly lze splnit pomocí elementárního statistického zpracování.
Výsledkem elementárního statistického zpracování je empirický obraz zkoumaného
výběrového statistického souboru VSS. Elementárním statistickým zpracováním je rovněž
završena ta skupina hlavních statistických metod, kterou lze nazvat deskriptivní statistikou.
The measurement results, it is necessary to arrange, to express graphically and to
express by suitable empirical parameters. These assignments can be fulfilled using the
elementary statistical processing. The empirical picture of investigated selective statistical set
SSS is the result of the elementary statistical processing. The elementary statistical processing
also completes this group of major statistical methods that can be called descriptive statistics.
Dílčí úkoly „uspořádání“, „grafického vyjádření“ a „parametrizace“ lze vystihnout třemi
základními výsledky elementárního statistického zpracování – „tabulkou“, „empirickými
rozděleními (nejlépe v podobě polygonu)“ a „empirickými parametry“.
The partial assignments “arrangement”, “graphical expression” and “expression by
parameters” can be represented in three basic results of the elementary statistical processing –
“table”, “empirical distributions (preferably in the shape of polygon)” and “empirical
parameters”.
1.4.1.Tabulka
1.4.1. Table
Tabulka představuje formu uspořádání výsledků měření. Při popisu tabulky lze sledovat
tabulku Tab.1 uvedenou u zadaného ilustrujícího příkladu.
The table represents a form of arrangement of the measurement results. In the
description of the table stated in the assigned illustrating example, it can be watched the table
Tab.1.
Tabulka obsahuje osm sloupců. První čtyři sloupce jsou potřebné jednak pro zobrazení
výsledků měření (splnění úkolu „uspořádání“), jednak pro znázornění empirických rozdělení
(splnění úkolu „grafického vyjádření“). Zbývající čtyři sloupce mají pomocný význam
a slouží k snadnému a rychlému výpočtu empirických parametrů (splnění úkolu
„parametrizace“).
The table contains eight columns. The first four columns are necessary partly for
the display of the measurement results (fulfillment of task “arrangement”) partly for
the representation of the empirical distributions (fulfillment of task “graphical expression”).
The remaining four columns have the helping significance and they can be used to easy and
quick calculation of empirical parameters (fulfillment of task “expression by parameters”).
První čtyři sloupce obsahují: The first four columns contain:
1. sloupec označený
2. sloupec označený
3. sloupec označený
4. sloupec označený
xi
ni
ni / n
Σ (ni / n)
1. column marked xi
2. column marked ni
3. column marked ni / n
4. column marked Σ (ni / n)
– prvky škály
– absolutní četnosti prvků škály
– relativní četnosti prvků škály
– kumulativní četnosti
– scale elements
– absolute frequencies of scale elements
– relative frequencies of scale elements
– cumulative frequencies
25
Další čtyři sloupce obsahují součiny potřebné pro výpočet empirických parametrů:
The following four columns contain the products needed for the calculation of empirical
parameters:
5. sloupec obsahuje součiny
6. sloupec obsahuje součiny
7. sloupec obsahuje součiny
8. sloupec obsahuje součiny
xi.ni
xi2.ni
xi3.ni
xi4.ni
5. column contains the products
6. column contains the products
7. column contains the products
8. column contains the products
xi.ni
xi2.ni
xi3.ni
xi4.ni
Tabulka je uzavřena součty údajů v jednotlivých sloupcích. V prvních čtyřech sloupcích
mají tyto součty význam kontrolní, v dalších čtyřech sloupcích jsou potřebné pro výpočet
empirických parametrů.
The table is closed by summations of the data in individual columns. In the first four
columns these summations have the checking significance, in the other four columns they are
needed for the calculation of empirical parameters.
1.4.2. Empirická rozdělení četností
1.4.2. Empirical distributions of frequencies
Empirická rozdělení četností lze členit na dva základní druhy. První druh přiřazuje
prvkům škály xi odpovídající absolutní četnosti ni nebo relativní četnosti ni / n. Druhý druh
přiřazuje prvkům škály xi odpovídající kumulativní četnosti Σ(ni / n).
The empirical distributions of frequencies can be divided into two basic types. The first
type assigns corresponding absolute frequencies ni or relative frequencies ni / n to the scale
elements xi. The second type assigns corresponding cumulative frequencies Σ(ni / n) to the
scale elements xi.
Grafické vyjádření empirického rozdělení jednorozměrného statistického souboru je
spojeno s používáním souřadnicového systému v rovině. V tomto souřadnicovém systému
jsou vždy na vodorovnou osu nanášeny prvky škály xi, na svislou osu odpovídající četnosti.
Grafické vyjádření těchto funkčních závislostí je dáno množinou bodů, jejichž první
souřadnicí je vždy prvek škály xi, druhou souřadnicí je odpovídající četnost. Spojením
sousedních bodů této množiny úsečkami lze obdržet lomenou čáru, která je nazývána
„polygon“. Lze rozeznávat „polygon absolutních četností“, „polygon relativních četností“,
„polygon kumulativních četností“.
The graphical expression of empirical distribution of one-dimensional statistical set is
connected with the use of the coordinate system in the plane. In this coordinate system the
scale elements xi are always applied to horizontal axis, the corresponding frequencies to
vertical axis. The graphical expression of these functional dependences is given by the set of
points the first coordinate of which is always scale element xi, the second coordinate is
corresponding frequency. By connection of neighbouring points of this set of the line
segments it is possible to obtain the broken line which is called “polygon”. It is possible to
distinguish “polygon of absolute frequencies”, “polygon of relative frequencies”, “polygon of
cumulative frequencies”.
26
Vedle grafického vyjádření empirických rozdělení polygonem je používána řada
pomocných grafických znázornění. Jejich „předností“ je odklon od matematicky exaktního
aparátu a určitá rychlá orientace. Nedostatkem je pak nemožnost navázat prohloubeným
aparátem matematické statistiky, především z hlediska zkoumání závislostí u vícerozměrných
statistických souborů. Mezi tato pomocná grafická vyjádření patří sloupcové diagramy,
sloupkové grafy, výsečové grafy apod. Všeobecně lze doporučit jednoznačný příklon
k exaktnímu grafickému vyjadřování.
In addition to the graphical expression of empirical distributions by polygon the ranks
of helping graphical representations is used. Their “advantage” is a deviation from
mathematically exact apparatus and a certain quick orientation. The impossibility to continue
by a deepen apparatus of the mathematical statistics is the shortage, above all from the point
of view of the investigation of dependencies for the multi-dimensional statistical sets. The bar
charts, the bar graphs, the pie charts, etcetera, belong to these helping graphical
representations. Generally, it is possible to recommend the unique resorting to exact graphical
expression.
Význam grafického vyjádření empirického rozdělení je značný. Grafické vyjádření
umožňuje okamžité zkoumání, kterému teoretickému rozdělení (z hlediska teorie
pravděpodobnosti) se přibližuje empirické rozdělení získané jako výsledek deskriptivní
statistiky. Další význam spočívá v okamžitém orientačním vyhodnocení parametrů polohy,
variability, šikmosti a špičatosti empirického rozdělení a tím i zkoumaného statistického
souboru.
The significance of the graphical expression of the empirical distribution is substantial.
The graphical expression enables the immediate investigation which the theoretical
distribution (in terms of probability theory) is close to the empirical distribution obtained as a
result of descriptive statistics. The next significance consists in the immediate evaluation of
parameters of location, variability, skewness and kurtosis of empirical distribution and by this
way also of investigated statistical set.
V rámci zadaného příkladu si lze procvičit např. konstrukci polygonů absolutní
a kumulativní četnosti. Na obrázku Obr.2 je znázorněn polygon absolutních četností, na
obrázku Obr.3 pak polygon kumulativních četností.
Within the assigned example it is possible to practice, e.g., the construction of polygons
of the absolute and the cumulative frequency. In figure Fig.2 the absolute frequencies polygon
is represented, in figure Fig.3 then the cumulative frequencies polygon.
25
1
20
0,8
15
0,6
10
0,4
5
0,2
0
1
2
3
4
5
Fig.2 Absolute frequencies polygon
0
1
2
3
4
5
Fig.3 Cumulative frequencies polygon
27
1.4.3. Empirické parametry
1.4.3. Empirical parameters
Empirické parametry stručně a jednoduše vystihují povahu zkoumaného statistického
souboru. Většinou jsou empirické parametry vztahovány k výběrovému statistickému
souboru, proto často nesou pojmenování „výběrové parametry“. Jako výběrové parametry
mají samy statisticko-pravděpodobnostní charakter a z tohoto důvodu se chovají jako zvláštní
skupina „statistických znaků“. Tento pohled nebude v dalším výkladu rozvíjen, je však nutno
na něj upozornit, zvláště z hlediska hlubšího studia statistiky a teorie pravděpodobnosti.
The empirical parameters briefly and simply express the nature of investigated
statistical set. The empirical parameters are mostly related to a selective statistical set that´s
why they often bear the naming “selective parameters”. As selective parameters they have
themselves the statistics-probability character and from this reason they behave as a special
group of “statistical signs”. This view will not be developed in following explanation but it is
necessary to draw attention to it, especially from the point of view of a deeper study of
statistics and probability theory.
Empirické parametry lze dělit podle toho, který rys zkoumaného statistického souboru
(zkoumaného statistického znaku) vystihují:
The empirical parameters can be classified according to the feature of the investigated
statistical set (investigated statistical sign):
parametry polohy
parametry proměnlivosti (variability)
parametry šikmosti
parametry špičatosti
parameters of location
parameters of variability
parameters of obliqueness (skewness)
parameters of pointedness (kurtosis)
Druhým dělením je dělení empirických parametrů podle způsobu jejich výpočtu:
The second classification is classification of empirical parameters according to the way
of their calculation:
momentové parametry (vystupují jako funkce všech hodnot statistického znaku)
kvantilové parametry (reprezentují jen určité hodnoty statistického znaku)
moment parameters (they work as a function of all values of statistical sign)
quantile parameters (they represent only certain values of statistical sign)
Kvantilové parametry úzce souvisejí s momentovými parametry, jsou však
konstruovány odlišným způsobem. Empirickým kvantilem je vždy určitá hodnota
statistického znaku (jenž lze vyjádřit kvantitativní metrickou nebo absolutní metrickou
škálou). Tato hodnota dělí počet menších a větších hodnot statistického znaku v určitém
poměru. Např. kvantil dělící hodnoty statistického znaku na dvě stejné části (tj.
padesátiprocentní kvantil) je nazýván „medián“. Kvantilové parametry nebudou blíže
zkoumány.
The quantile parameters are closely related to the moment parameters but they are
constructed by different way. The empirical quantile is always a certain value of statistical
sign (which is expressed by quantitative metric or absolute metric scale). That value divides
the number of smaller and greater values of statistical sign in certain ratio. E.g., the quantile
dividing the values of statistical sign in the identical parts (i.e. fiftypercentage quantile) is
called a “median”. The quantile parameters will not be investigated in more detail.
28
Momentové parametry jsou děleny na obecné momenty, centrální momenty
a normované momenty. Pomocí obecného momentu 1. řádu lze výstižně charakterizovat
parametr polohy (aritmetický průměr), pomocí centrálního momentu 2. řádu lze
charakterizovat parametr proměnlivosti (empirický rozptyl), pomocí normovaného momentu
3. a 4. řádu pak parametry šikmosti a špičatosti.
The moment parameters are divided into general moments, central moments and
standardized moments. The location moment (arithmetic mean) can be accurately
characterized using general moment of 1.order, the variability moment (empirical variance)
can be accurately characterized using central moment of 2.order , the obliqueness (skewness)
and pointedness (kurtosis) can be accurately characterized using standardized moments of
3. and 4.order.
Jelikož normované momenty lze vypočítat pomocí centrálních momentů a centrální
momenty pomocí momentů obecných, bude v dalším výkladu zvolen následující postup
(písmenem x bude v rámci tohoto postupu označen zkoumaný statistický znak, označení
hodnot statistického znaku xi, absolutních četností ni a rozsahu výběrového statistického
souboru n se nemění):
Uvedení obecných vztahů pro obecné a centrální momenty
Vyjádření potřebných centrálních momentů pomocí momentů obecných
Vyjádření potřebných normovaných momentů pomocí momentů centrálních
As the standardized moments can be calculated using central moments and the central
moments using general moments, the following procedure will be selected in next explanation
(within this procedure the investigated statistical sign will be marked by letter x; the marks of
statistical sign values xi, of absolute frequencies ni and of selective statistical set extent n
don´t change themselves):
Presentation of common relations for general and central moments
Expression of needful central moments using general moments
Expression of needful standardized moments using central moments
a) Obecné vztahy pro obecné a centrální parametry
a) The common relations for general and central moments
1
Obecný moment r-tého řádu:
Or(x) = Σ ni .(xi)r
n
General moment of r-th order:
Obecný moment 1. řádu:
General moment of 1. order:
O1(x) = x (aritmetický průměr )
(arithmetic mean)
Centrální moment r-tého řádu: Cr(x) =
1
Σ ni.(xi – x )r
n
Central moment of r-th order:
Centrální moment 2. řádu:
Central moment of 2. order:
C2(x) = Sx2 (empirický rozptyl)
(empirical variance)
Směrodatná odchylka:
Sx =
Determinative (standard) deviation:
C2 ( x)
29
b) Vyjádření potřebných centrálních momentů pomocí momentů obecných
b) The expression of needful central moments using general moments
C2(x) = O2(x) – O1(x)2
C3(x) = O3(x) – 3.O2(x).O1(x) + 2.O1(x)3
C4(x) = O4(x) – 4.O3(x).O1(x) + 6.O2(x).O1(x)2 – 3.O1(x)4
c) Vyjádření potřebných normovaných momentů pomocí momentů centrálních
c) The expression of needful standardized moments using central moments
N3(x) =
N4(x) =
C3 ( x)
C2 ( x) C2 ( x)
C4 ( x )
C2 ( x)2
Postup pro výpočet obecných, centrálních a normovaných momentů byl uskutečněn
pomocí kroků ad a), ad b) a ad c). Jelikož lze pomocí tohoto postupu určit všechny potřebné
momentové parametry, lze nyní popsat parametr polohy, proměnlivosti, šikmosti a špičatosti.
The procedure for calculation of general, central and standardized moments was
realized using the steps ad a), ad b) and ad c). Since all the needful moment parameters can be
determined using this procedure, now it is possible to describe the parameters of location,
variability, obliqueness (skewness) and pointedness (kurtosis).
Parametr polohy je určen obecným momentem 1. řádu O1(x) a nese název „aritmetický
průměr“. Polohou empirického rozdělení četností je myšleno jeho umístění na vodorovné ose
souřadnicového systému.
The location parameter is determined by general moment of 1. order O1(x) and it bears
the name “arithmetic mean”. The position of the frequency empirical distribution is its
location on the horizontal axis of the coordinate system.
Parametr proměnlivosti je určen centrálním momentem 2. řádu C2(x) a nese název
„empirický rozptyl“ (odmocnina rozptylu pak nese název „směrodatná odchylka“).
Směrodatná odchylka ukazuje, jakou výpovědní hodnotu má aritmetický průměr. Je-li
směrodatná odchylka velká, výpovědní hodnota aritmetického průměru je malá a opačně.
The variability parameter is determined by central moment of 2. order C2(x) and it bears
the name “empirical variance” (the square root from variance then bears the name “standard
deviation”). Determinative (standard) deviation shows what the information value is given to
arithmetic mean. If the determinative (standard) deviation is large, the information value of
arithmetic mean is small and vice versa.
Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu N3(x)
a nese pak název „koeficient šikmosti“. Je-li koeficient šikmosti kladný, pak prvky škály
ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně šikmé rozdělení četností –
větší koncentrace nižších prvků škály, menších hodnot statistického znaku) a opačně.
30
The obliqueness parameter (skewness) is dominantly determined using standardized
moment of 3. order N3(x) and it bears then the name “coefficient of skewness”. If the
skewness coefficient is positive, then the scale elements lying to the left of the arithmetic
mean have greater frequencies (positively skew distribution of frequencies – greater
concentration of the lower scale elements, of the smaller values of statistical sign) and vice
versa.
Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu N4(x)
a nese pak název „koeficient špičatosti“. Špičatějšímu rozdělení četností při daném rozptylu
odpovídá větší hodnota koeficientu špičatosti. Používá se rovněž veličina „exces“, definovaná
vztahem Ex = N4(x) – 3. Exces srovnává špičatost empirického rozdělení se špičatostí
známého normovaného normálního rozdělení. Je-li exces kladný, je empirické rozdělení
špičatější než toto rozdělení.
The pointedness parameter (kurtosis) is dominantly determined using standardized
moment of 4. order N4(x) and it bears then the name “coefficient of kurtosis”. The greater
value of kurtosis coefficient corresponds to more pointed distribution of frequencies for
a given variance. The quantity “excess”, defined by relation Ex = N4(x) – 3, is used as well.
The excess compares the kurtosis of empirical distribution with the kurtosis of known
standardized normal distribution. If the excess is positive, the empirical distribution is more
pointed than this distribution.
1.4.4. Ilustrace výpočtu empirických parametrů
1.4.4. Illustration of calculation of empirical parameters
Pro zadaný příklad bude nyní proveden výpočet empirických parametrů polohy,
proměnlivosti, šikmosti a špičatosti. Nejdříve budou užitím 5. až 8. sloupce tabulky Tab.1
vypočítány obecné momenty 1. až 4. řádu:
In the assigned example the calculation of the empirical parameters of location,
variability, skewness and kurtosis will be now carried out. The soonest the general moments
of 1. to 4. order will be calculated using 5. up to 8. column of table Tab.1.
O1(x) = 2.50
O2(x) = 7.26
O3(x) = 23.50
O4(x) = 82.86
Další část postupu bude spočívat ve výpočtu centrálních momentů 2. až 4. řádu:
Next part of the procedure will consist in the calculation of central moments of
2. up to 4. order:
C2(x) = 1.031
C3(x) = 0.300
C4(x) = 2.922
(směrodatná odchylka –standard deviation Sx = 1.015)
Závěrečná část výpočtu empirických parametrů bude směřovat k určení normovaných
momentů 3. a 4. řádu a excesu:
Final part of the procedure of empirical parameters calculation will be aimed at the
determination of standardized moments of 3. and 4. order and excess:
31
N3(x) =
N4(x)=
C3 ( x)
= 0.28
C2 ( x) C2 ( x)
C4 ( x )
C2 ( x)2
= 2.75
Ex = N4(x) – 3 = – 0.25
Parametr polohy (aritmetický průměr) O1(x) ukazuje na umístění empirického rozdělení
četností na vodorovné ose – aritmetický průměr stupňů exportní schopnosti je 2,5 (nižší
hodnota než je střední stupeň exportní schopnosti).
Location parameter (arithmetic mean) O1(x) shows to the placement of frequencies
empirical distribution on the horizontal axis – the arithmetic mean of export ability is 2.5
(a lower value than the middle degree of export ability)
Směrodatná odchylka vyjádřená odmocninou z C2(x) dává údaj o výpovědní hodnotě
aritmetického průměru. Informaci o výpovědní hodnotě lze kvantifikovat následujícím
způsobem – v rozmezí asi od stupně exportní schopnosti 1,5 do stupně exportní schopnosti
3,5 se nachází zhruba 70% podniků (použitelnost této informace závisí na tom, zda empirické
rozdělení četností lze nahradit teoretickým normálním rozdělením).
Determinative (standard) deviation expressed by the square root from C2(x) gives
an indication of the arithmetic mean information value. An indication of the information value
can be quantified by following way – in the range from export ability degree 1.5 to export
ability degree 3.5 the 70% enterprises is roughly situated (the applicability of this information
depends on whether the empirical distribution can be substituted by theoretical normal
distribution).
Kladný koeficient šikmosti N3(x) ukazuje na větší koncentraci nižších prvků škály,
nižších stupňů rozvinutosti exportní schopnosti. Obrázek Obr.2 toto zjištění potvrzuje – mírná
asymetrie vlevo vůči aritmetickému průměru.
The positive skewness coefficient N3(x) shows to the greater concentration of lower
scale elements, of lower degrees of export ability development. The figure Fig.2 confirms that
determination –the slight asymmetry of the left to the arithmetic mean.
Poměrně vysoká hodnota koeficientu špičatosti a rovněž hodnota excesu ukazují na
srovnatelnost se špičatostí normovaného normálního rozdělení. Toto sdělení dodatečně
podporuje závěr o dobré výpovědní hodnotě aritmetického průměru.
Relatively the high value of kurtosis coefficient and also the value of excess show to
a comparability with the kurtosis of standardized normal distribution. This communication
additionally supports the conclusion of arithmetic mean good information value.
32
Část 2. Hlavní metody matematické statistiky,
Pravděpodobnostní distribuce
Part 2. The main methods of mathematical statistics,
Probability distribution
2.1. Přiřazení teoretického rozdělení rozdělení empirickému
2.1. Assignment of theoretical distribution to empirical distribution
Cíle: Goals:
Pravděpodobnostní zkoumání výběrového statistického souboru: Výběr odpovídajícího
teoretického rozdělení
Probable investigation of selective statistical set: Choice of acceptable theoretical distribution
Pravděpodobnostní obraz výběrového statistického souboru: Testování neparametrických
hypotéz
Probable picture of selective statistical set: Testing non-parametric hypotheses
Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces:
Teoretické rozdělení
Theoretical distribution, partial survey in alphabetical order:
Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma,
Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular, Uniform,
Weibull
Testování neparametrických hypotéz
Testing nonparametric hypotheses
Test nulové hypotézy H0
Test of zero hypothesis H0
Přijetí nebo zamítnutí nulové hypotézy H0
Receiving or rejecting of zero hypothesis H0
Hladina statistické významnosti , např.  = 0,05
Level of statistical significance, e.g. at alpha = 0,05
33
Kontrolní otázky:
Proč je výhodné nahradit empirické rozdělení rozdělením teoretickým
Popište rozčlenění rozpětí hodnot statistického znaku na vhodný počet intervalů
Co je to intervalové rozdělení četnosti, jaká je podmínka pro vytváření intervalového
rozdělení četnosti v případě testování neparametrických hypotéz
Co je to náhodný pokus a náhodná veličina
Jak jsou členěny náhodné veličiny
Jak se liší hodnoty diskrétní a spojité náhodné veličiny
Jak je definováno teoretické rozdělení (rozdělení náhodné veličiny)
Jak jsou členěna teoretická rozdělení
Jaká je forma popisu diskrétního teoretického rozdělení
Jaká je forma popisu spojitého teoretického rozdělení
Jaký je rozdíl mezi pravděpodobnostní funkcí a hustotou pravděpodobnosti
Jaký je význam binomického rozdělení
Jaký je význam normálního rozdělení
Jaká je formulace centrální limitní věty
Uveďte tvar distribuční funkce binomického a normálního rozdělení
Uveďte tvar pravděpodobnostní funkce (hustoty pravděpodobnosti) binomického rozdělení
(normálního rozdělení)
Na kolika teoretických parametrech závisí binomické a normální rozdělení, teoretické
parametry popište
Co je to normované normální rozdělení
Jaké jsou obecné vztahy pro střední hodnotu a rozptyl pro diskrétní a spojité teoretické
rozdělení
Jaký je vztah mezi empirickými a teoretickými parametry
Co vyjadřuje zákon velkých čísel
Jaký je aparát neparametrického testování
Co předpokládá nulová a alternativní hypotéza v případě neparametrického testování
V čem spočívá podstata testování neparametrických hypotéz
Jaká teoretická rozdělení jsou požívána pro testování neparametrických hypotéz
Jaký je vztah teoretického rozdělení a statistického kritéria
Jaký je vztah experimentální hodnoty a kritické teoretické hodnoty statistického kritéria
Co je to kritický obor statistického kritéria
Popište testovací techniku 2-testu
Co je to hladina statistické významnosti
Co je to chyba I. druhu
34
Check questions:
Why is it advantegous to substitute an empirical distribution by theoretical distribution
Describe the division of statistical sign values extent into suitable number of intervals
What is the interval division of frequencies, what is the condition for creation of frequency
interval division in the case of testing non-parametric hypotheses
What is the random attempt and random variable
How are the random variables divided
How do the values of discrete and continuous random variable differ
How is the theoretical distribution (the distribution of random variable) defined
How are the theoretical distributions divided
What is the form of discrete theoretical distribution description
What is the form of continuous theoretical distribution description
What is the difference between probability function and probability density
What is the significance of binomial distribution
What is the significance of normal distribution
What is the formulation of central limit theorem
Present the form of distribution function of binomial and normal distribution
Present the form of probability function (probability density) of binomial distribution (normal
distribution)
How many of the theoretical parameters do binomial and normal distribution depend on,
describe the theoretical parameters
What is standardized normal distribution
What are the common relations for mean value and variance for discrete and continuous
theoretical distribution
What is the relation between empirical and theoretical parameters
What does the law of large numbers express
What is the apparatus of non-parametric testing
What do the zero and alternative hypothesis suppose in the case of non-parametric testing
What is the essence of testing non-parametric hypotheses
What are the theoretical distributions used for testing non-parametric hypotheses
What is the relation of theoretical distribution and statistical criterion
What is the relation of experimental value and critical theoretical value of statistical criterion
What is the critical domain of statistical criterion
Describe the testing technique of chi-square
What is the level of statistical significance
What is the error of I. type
35
Přiřazení teoretického rozdělení rozdělení empirickému je obsahové vystižení statistické
metody, která nese název „testování neparametrických hypotéz“. V rámci této statistické
metody bude potřebné zabývat se intervalovým rozdělením četností, pojmem „teoretické
rozdělení“, aparátem neparametrického testování a zadaným příkladem. Význam testování
neparametrických hypotéz spočívá především v tom, že je vždy výhodné nahradit empirické
rozdělení rozdělením teoretickým – s teoretickým rozdělením je spojen jednoduchý
matematický aparát, který umožňuje získat informace jinak nedostupné.
The assignment of theoretical distribution to empirical distribution is the expression of
content of statistical method which bears the name “testing non-parametric hypotheses”.
Within this statistical method it will be needful to deal with the interval division of
frequencies, the concept “theoretical distribution”, the apparatus of non-parametric testing and
the assigned example. The significance of testing non-parametric hypotheses consists above
all in the fact that it is always more advantageous to substitute an empirical distribution by
theoretical distribution – the simple mathematical apparatus is connected with theoretical
distribution and such apparatus enables to detect the information inaccessible by another way.
2.1.1. Intervalové rozdělení četností
2.1.1. Interval division of frequencies
V některých případech (např. pro potřeby neparametrického testování) je užitečné
rozčlenit rozpětí hodnot statistického znaku nebo rozpětí prvků metrické škály u zkoumaného
jednorozměrného statistického souboru na určitý počet intervalů. Do každého z vytvořených
intervalů pak budou zahrnuty odpovídající hodnoty statistického znaku nebo odpovídající
prvky metrické škály. Zpravidla se doporučuje sestrojit 5 – 20 intervalů stejné délky, existují
také empirická pravidla (vycházející z rozsahu n výběrového statistického souboru VSS) pro
hrubé vymezení počtu k interval (např. Sturgesovo pravidlo k = 1 + 3.3 log10n). Patřičnou
pozornost je zapotřebí věnovat také stanovení hranic intervalů.
In some cases (e.g., for needs of non-parametric testing) it is useful to divide the extent
of statistical sign values or the extent of metric scale elements into a certain number of
intervals. In each from intervals created, then the corresponding values of statistical sign or
the corresponding elements of metric scale will be included. Usually it is recommended to
construct 5 – 20 intervals of the same length, also the empirical rules (working on an extent n
of selective statistical set SSS) are in being for rough delimitation of interval number k (e.g.
Sturges rule k = 1 + 3.3 log10n). It is needful to dedicate a relevant attention also for the
determination of interval boundaries.
V rámci zadaného příkladu bude zjišťováno, zda empirické rozdělení na obrázku Obr.1
lze nahradit normálním rozdělením. Tento záměr vede ke stanovení počtu intervalů a jejich
hranic, tak jak je to uvedeno v tabulce Tab. 2.
Within the assigned example it will be determined if the empirical distribution in figure
Fig.1 can be substituted by normal distribution. This intention leads to the determination of
intervals number and intervals boundaries how it is presented in table Tab.2.
36
xi
1
2
3
4
5
Σ
interval
( - ∞; 1,5 
( 1,5; 2,5 
( 2,5; 3,5 
( 3,5; 4,5 
( 4,5; ∞ 
ni
9
15
20
4
2
50
ni/n
0,18
0,3
0,4
0,08
0,04
1,00
Σ ni/n
0,18
0,48
0,88
0,96
1,00
nixi
9
30
60
16
10
125
nixi2
9
60
180
64
50
363
nixi3
9
120
540
256
250
1175
nixi4
9
240
1620
1024
1250
4143
Tabulka Tab. 2: Intervalové rozdělení četností
Table Tab. 2: Interval division of frequencies
2.1.2. Teoretické rozdělení
2.1.2. Theoretical distribution
Pojem „teoretické rozdělení“ je jedním ze základních pojmů teorie pravděpodobnosti.
Hromadný náhodný jev HNJ, který je předmětem statistiky i teorie pravděpodobnosti, je
zkoumán v teorii pravděpodobnosti prostřednictvím pojmů „náhodný pokus“ a „náhodná
veličina“. Náhodný pokus je realizací činností nebo procesů, jejichž výsledek nelze s jistotou
předpovědět. Náhodná veličina NV je pak proměnnou, jejíž hodnota je jednoznačně určena
výsledkem náhodného pokusu.
The concept “theoretical distribution” is one from the fundamental concepts of
probability theory. The collective random phenomenon CRP, which is the subject of both
statistics and probability theory, is investigated in probability theory by means of the concepts
“random attempt” and “random variable”. The random attempt is a realization of activities or
processes the result of which isn´t possible to anticipate with certainty. The random variable
RV is then variable the value of which is definitely determined by result of random attempt.
„Hodnota náhodné veličiny HNV“ je pojem, který má výraznou teoretickou dimenzi.
Určitou analogií tohoto pojmu, jehož původ lze nalézt v teorii pravděpodobnosti, je pojem
„hodnota statistického znaku HSZ“, jehož původ lze objevit v deskriptivní statistice. Pojem
„hodnota statistického znaku HSZ“ má tedy naopak výraznou dimenzi empirickou.
“The value of random variable VRV” is concept which has strong theoretical
dimension. By certain analogy of this concept, the origin of which can be discovered in
probability theory, it is concept “the value of statistical sign VSS”, the origin of which can be
discovered in descriptive statistics. The concept “value of statistical sign VSS” so has on the
contrary strong empirical dimension.
Náhodné veličiny NV lze členit na diskrétní (hodnoty diskrétní náhodné veličiny na
sebe „nenavazují“ a budou označovány xi) a spojité (hodnoty spojité náhodné veličiny budou
označovány x a tyto hodnoty na sebe spojitě „navazují“ – nelze nalézt nejbližší sousední
hodnotu). Hodnotám náhodné veličiny lze přiřazovat pravděpodobnosti, s kterými nastanou
při náhodném pokusu. Tyto pravděpodobnosti mohou být definovány klasicky (počet
výsledků náhodných pokusů příznivých dané hodnotě dělený počtem všech výsledků
náhodných pokusů) nebo např. kolmogorovsky (užitím teorie míry).
The random variables RV can be divided into discrete (the values of discrete random
variable “don´t follow” themselves and they will be marked xi) and continuous (the values of
continuous random variable will be marked x and these values are continuously “following”
themselves – it isn´t possible to find the nearest neighbouring value). To values of random
37
variable it is possible to assign the probabilities with which they come in the course of
random attempt. These probabilities can be defined in a classical way (a number of random
attempt results positive to given value divided by the number of all random attempt results) or
e.g. according to Kolmogorov (by application of measure theory).
Pravidlo, které každé hodnotě náhodné veličiny nebo každému intervalu hodnot
přiřazuje pravděpodobnost, je nazýváno zákonem rozdělení náhodné veličiny nebo krátce
rozdělením náhodné veličiny nebo také teoretickým rozdělením. Z hlediska spolupráce teorie
pravděpodobnosti a statistiky odpovídá pojem „teoretické rozdělení“ statistickému pojmu
„empirické rozdělení četnosti“. Podle povahy náhodné veličiny NV lze teoretická rozdělení
dělit na diskrétní a spojitá. Teoretických rozdělení je používáno velké množství.
The rule that every value of random variable or every interval of values assigns
the probability is called the law of random variable distribution or shortly the random variable
distribution or also the “theoretical distribution”. From the point of view of cooperation
between probability theory and statistics the concept “theoretical distribution” is adequate to
statistical concept “empirical distribution of frequency”. According to an essence of random
variable RV the theoretical distributions can be divided into discrete and continuous ones.
Důležitou formou popisu teoretického rozdělení je distribuční funkce F. Distribuční
funkce F udává v případě diskrétní náhodné veličiny pravděpodobnost, že náhodná veličina
NV nabude hodnoty menší nebo rovné než právě zvolená hodnota xi a tato kumulativní
pravděpodobnost bude vyjádřena součtem dílčích pravděpodobností. V případě spojité
náhodné veličiny distribuční funkce F udává obdobně pravděpodobnost, že náhodná veličina
NV nabude hodnoty menší nebo rovné než právě zvolená hodnota x, ale tato kumulativní
pravděpodobnost bude vyjádřena místo součtu dílčích pravděpodobností integrálem, jehož
dolní mez je obvykle rovna 0 a horní mez odpovídá zvolené hodnotě x. Z hlediska spolupráce
teorie pravděpodobnosti a statistiky odpovídá pojem „distribuční funkce“ statistickému pojmu
„empirické rozdělení kumulativní četnosti“.
The distribution function F is the important form of theoretical distribution description.
The distribution function F in the case of discrete random variable quotes the probability that
a random variable RV obtains the values smaller or equal to just chosen value xi and this
cumulative probability will be expressed by a summation of partial probabilities. In the case
of continuous random variable the distribution function F quotes that a random variable RV
obtains values smaller or equal to just selected value x, but this cumulative probability instead
of a summation will be expressed by an integral the lower limit of which is usually equal to 0
and upper limit is corresponding with selected value x. From the point of view of cooperation
between probability theory and statistics the concept “distribution function” is adequate to
statistical concept “empirical distribution of cumulative frequency”.
a) Binomické rozdělení – příklad diskrétního teoretického rozdělení
a) Binomial distribution – the example of discrete theoretical distribution
Charakteristika hromadného náhodného jevu
Je prováděno n nezávislých náhodných pokusů, pravděpodobnost sledovaného náhodného
jevu je ve všech náhodných pokusech stejná a rovna p. Je hledána pravděpodobnost, že tento
náhodný jev nastane 0, 1, …, n-krát. Podle této definice jsou hodnoty x0, x1, …, xn příslušné
náhodné veličiny dány čísly 0, 1, …, n.
38
The characteristic of collective random phenomenon
The n independent random attempts are carried out, the probability of monitored random
phenomenon is the same in the all random attempts and it is equal to p. It is sought the
probability that this phenomenon occurs itself 0, 1, …, n-times. According to this definition
the values x0, x1, …, xn of relevant random variable are given by numbers 0, 1, …, n.
Teoretické rozdělení, distribuční funkce
Teoretické rozdělení je v diskrétním případě nazýváno pravděpodobnostní funkcí. Pro
popsaný náhodný jev je pravděpodobnostní funkce pravidlem, které hodnotám xi náhodné
veličiny přiřazuje pravděpodobnosti Pi pro i = 0, 1, …, n. Tvar pravděpodobnostní funkce je
n
n i
Pi    p i 1  p  .
i
Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) F(xj) = Fj je dán součtem
j
Fj   Pi ,
i 0
kde sčítací index i nabývá hodnot od 0 do j.
Binomické rozdělení závisí na dvou teoretických parametrech – p, n.
Theoretical distribution, distribution function
The theoretical distribution is called probability function in discrete case. For described
random phenomenon the probability function is a rule which assigns the probabilities Pi for
i = 0, 1, …, n to the values xi of random variable. The form of probability function is
n
n i
Pi    p i 1  p  .
i
The relevant form of distribution function (cumulative probability) F(xj) = Fj is given by
summation
j
Fj   Pi ,
i 0
where adding index i obtains the values from 0 to j.
The binomial distribution depends on two theoretical parameters – p, n.
Význam binomického rozdělení
Typickým příkladem nezávislých náhodných pokusů je náhodný výběr prvků z nějakého
souboru, jestliže každý vybraný prvek je vracen zpět, tzv. výběr s vracením. Lze ukázat, že
v případě, kdy rozsah výběrového souboru je malý ve srovnání s rozsahem základního
souboru, je rozdíl mezi výběrem s vracením a výběrem bez vracení zanedbatelný. Binomické
rozdělení proto může sloužit jako vhodné kritérium, zda výběrový statistický soubor vznikl na
základě náhodného výběru.
39
The significance of binomial distribution
A typical example of independent random attempts is a random selection of elements from
a set if the selected element is returned back, so called the selection with return. It can be
shown that, in the case where the extent of selective set is small in comparison with the extent
of basic set, the difference between the selection with return and the selection without return
is insignificant. The binomial distribution can therefore serve as a suitable criterion, whether
the selective statistical set was created on the basis of random selection.
b) Normální rozdělení – příklad spojitého teoretického rozdělení
b) Normal distribution – the example of continuous theoretical distribution
Charakteristika hromadného náhodného jevu
Spojitá náhodná veličina, jejíž hodnoty x(–,), může mít rozdělení normální. Graf funkce,
která přiřazuje těmto hodnotám náhodné veličiny pravděpodobnosti, je dán velmi známou
Gaussovou křivkou ve tvaru „zvonu“. Je tedy hledána pravděpodobnost, která bude přiřazena
jednotkovému intervalu hodnot spojité náhodné veličiny v tom smyslu, že tento interval bude
obsahovat hodnotu x.
The characteristic of collective random phenomenon
The continuous random variable whose values x(–,), can have a normal distribution. The
graph of function which assigns the probabilities to these values of random variable is given
by well-known Gauss curve in the shape of a “bell”. It is so sought a probability which will be
assigned to unit interval of continuous random variable values in the sense that this interval
will contain the value of x.
Teoretické rozdělení, distribuční funkce
Teoretické rozdělení je ve spojitém případě nazýváno hustotou pravděpodobnosti (hodnoty
náhodné veličiny na sebe spojitě „navazují“, je nutno přiřazovat pravděpodobnosti
jednotkovým intervalům hodnot, neboť nejbližší sousední hodnotu hodnotě x nelze nalézt).
Tvar hustoty pravděpodobnosti normálního rozdělení je
  x 
1
 2

e
 x   2
2 2
.
Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) F(t) je dán integrálem
F t  
t
   x  dx,

kde dolní integrační mez nabývá hodnoty 0, mez horní pak hodnoty t.
Theoretical distribution, distribution function
The theoretical distribution is called probability density in continuous case (the random
variable values continuously “follow” themselves, it is needful to assign the probabilities to
unit intervals of values because the nearest neighbouring value to value x isn´t possible to
find). The form of probability density is
40
  x 
1
 2

e
 x   2
2 2
.
The relevant form of distribution function (cumulative probability) F(x) is given by integral
F t  
t
   x  dx,

where lower integral limit acquires value 0, upper limit then value t.
Normální rozdělení závisí na dvou teoretických parametrech – μ, σ. Tato závislost je
obvykle zapisována N(μ,σ). Teoretický parametr μ je teoretickou analogií obecného momentu
1.řádu O1(x) a je tedy teoretickou obdobou empirického aritmetického průměru x . Teoretický
parametr σ je teoretickou analogií odmocniny centrálního momentu 2.řádu C2(x) a je tedy
teoretickou obdobou empirické směrodatné odchylky Sx.
The normal distribution depends on two theoretical parameters – μ, σ. This dependence
is usually recorded N(μ,σ). The theoretical parameter μ is a theoretical analogy of general
moment of 1.order O1(x) and so it is theoretical analogy of empirical arithmetic mean x . The
theoretical parameter σ is a theoretical analogy of the square root of central moment of 2.order
C2(x) and so it is theoretical analogy of empirical standard (determinative) deviation Sx.
Normální rozdělení lze normovat k hodnotám teoretických parametrů μ=0, σ=1
prostřednictvím normované náhodné veličiny
u
x

.
Tato závislost je obvykle zapisována N(0,1) a tímto zápisem je pak označováno tzv.
„normované normální rozdělení“ (viz obrázek Obr.4). Hustota pravděpodobnosti
normovaného normálního rozdělení bude vzhledem k zavedené proměnné u označena r(u),
distribuční funkce je často nazývána Laplaceovou funkcí a označována zápisem F(u). Pro
hodnoty Laplaceovy funkce jsou vypracovány velmi podrobné statistické tabulky. Grafické
znázornění hustoty pravděpodobnosti normovaného normálního rozdělení je na obrázku
Obr.4.
The normal distribution can be normalized to the values of theoretical parameters μ=0,
σ=1 by means of standardized random variable
u
x

.
This dependence is usually recorded N(0,1) and so called “standardized normal distribution”
(see figure Fig.4) is then marked by this record. The probability density of standardized
normal distribution will be marked   u  due to introduced variable u, the distribution
function is often called Laplace function and marked by record F(u). Very detailed statistical
tables are elaborated for the values of Laplace function. The graphical representation of
standardized normal distribution probability density is in the figure Fig.4.
41
Obr.4 Grafické znázornění hustoty pravděpodobnosti   u  normovaného normálního
rozdělení (na vodorovnou osu jsou nanášeny hodnoty u, na svislou osu hodnoty
hustoty pravděpodobnosti   u  )
Fig.4
Graphical representation of probability density   u  of standardized normal
distribution (the values u are applied in horizontal axis, the values of
probability density   u  are applied in vertical axis)
Význam normálního rozdělení
Význam normálního rozdělení je popsán centrální limitní větou. Její podstatou je tvrzení, že
náhodná veličina, která vznikla jako součet velkého počtu vzájemně nezávislých náhodných
veličin má za velmi obecných podmínek přibližně normální rozdělení. Přesnou formulaci
uvádí Ljapunovova věta, jejíž součástí je podmínka umožňující pracovat při dostatečně
velkém rozsahu výběrového souboru s normálním rozdělením. Užitečné jsou také speciální
tvary této věty – věta Linderbergova-Lévyova a věta Moivreova-Laplaceova (tato věta
ukazuje, že při dostatečně velkém počtu nezávislých pokusů konverguje binomické rozdělení
k rozdělení normálnímu).
The significance of normal distribution
The significance of normal distribution is described by central limit theorem. Its essence is the
statement that the random variable, being created as the summation of a large number of
mutually independent random variables, has approximately the normal distribution under very
general conditions. The exact formulation is presented by Ljapunov theorem the component
of which is the condition enabling to work with a normal distribution for sufficiently the big
extent of selective set. The special forms of that theorem – Lindberg-Lévy theorem and
Moivre-Laplace theorem (this theorem shows that for sufficiently the big number of
independent attempts the binomial distribution is converging to normal distribution) are
useful, too.
42
c) Parametry teoretických rozdělení
c) Parameters of theoretical distributions
Pro diskrétní teoretická rozdělení bude Pj označovat pravděpodobnostní funkci a xi
hodnoty diskrétní náhodné veličiny NV. Pro spojitá teoretická rozdělení bude   x 
označovat hustotu pravděpodobnosti a x hodnoty spojité náhodné veličiny.
For the discrete theoretical distributions the Pj will mark the distribution function and
the xi the values of random variable RV. For the continuous theoretical distributions the
  x  will mark the probability density and the x the values of continuous random variable.
Důležitými parametry všech teoretických rozdělení jsou teoretické obecné, centrální
a normované momenty Oj, Cj a Nj. Teoretické obecné, centrální a normované momenty Oj, Cj
a Nj lze vystihnout vzorci:
b
n
O j   x  ( x)dx, O j   i j Pi
j
i 1
a
b
n
C j    x  O1   ( x)dx, C j    i  O1  Pi
j
j
i 1
a
j
j
n 
 x  O1 
i  O1 
Nj  
  ( x)dx, N j   
P
 C 
 C  i
i 1 
a
2 
2 
b
The theoretical general, central and standardized moments Oj, Cj and Nj are important
parameters of all the theoretical distributions. The theoretical general, central and
standardized moments Oj, Cj and Nj can be expressed through the formulas:
b
n
a
i 1
O j   x j  ( x)dx, O j   i j Pi
b
n
C j    x  O1   ( x)dx, C j    i  O1  Pi
j
j
i 1
a
j
j
n 
 x  O1 
i  O1 
Nj  
  ( x)dx, N j   
P
 C 
 C  i
i 1 
a
2 
2 
b
Často jsou používány názvy a označení „střední hodnota E a rozptyl D”. Střední
hodnota E je parametr polohy, který měří úroveň náhodné veličiny NV. Rozptyl D je parametr
proměnlivosti, který měří „rozptýlenost” hodnot náhodné veličiny. Střední hodnota E je rovna
teoretickému obecnému momentu 1.řádu O1, rozptyl D je roven teoretickému centrálnímu
momentu 2.řádu C2.
Often the names and marks “mean value (expected value) E and dispersion
(variance) D” are used, too. The expected value E is a location parameter which measures the
level of random variable RV. The dispersion D is a variability parameter which measures the
“diffusion” of random variable values. The expected value E is equal to theoretical general
moment of 1.order O1, the dispersion D is equal to theoretical central moment of 2.order C2.
43
Teoretický obecný moment 1.řádu O1 je parametr polohy, teoretický centrální moment
2.řádu C2 je parametr variability, teoretický normovaný moment 3.řádu N3 je parametr
šikmosti a teoretický normovaný moment 4.řádu N4 je parametr špičatosti.
The theoretical general moment of 1.order O1 is the location parameter, the theoretical
central moment of 2.order C2 is the variability parameter, the theoretical standardized moment
of 3.order N3 is the skewness parameter and the theoretical standardized parameter of 4.order
N4 is the kurtosis parameter.
Vztah mezi empirickými a teoretickými parametry popisuje zákon velkých čísel. Při
dodržování jistých podmínek lze očekávat, že empirické rozdělení a s ním spojené empirické
parametry se bude blížit teoretickému rozdělení a s ním spojeným teoretickým parametrům.
A to tím více, čím větší bude rozsah výběrového statistického souboru (čím větší bude počet
realizovaných náhodných pokusů). Přibližování se empirických parametrů parametrům
teoretickým nemá charakter matematické konvergence, ale konvergence pravděpodobnostní.
The relation between empirical and theoretical parameters describes the law of large
numbers. Subject to compliance with certain conditions, it can be expected that the empirical
distribution and related empirical parameters will approximate the theoretical distribution and
associated with him theoretical parameters. And the more, the greater the extent of selective
statistical set (the larger the number of realized random attempts). Approaching the empirical
parameters to the theoretical parameters has not character of mathematical convergence but
probability convergence.
2.1.3. Popis vybraných pravděpodobnostních (teoretických) rozdělení
2.1.3. Description of selected probability (theoretical) distributions
a) Diskrétní teoretické rozdělení – Alternativní rozdělení
a) Discrete theoretical distribution – Alternative distribution
Alternativní rozdělení je diskrétní teoretické rozdělení A(p) s jedním teoretickým
parametrem p nula-jedničkové náhodné veličiny NV (náhodná veličina má hodnoty
xi = i = 0, 1).
Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní
a kumulativní četnosti a teoretické momenty Oj, Cj mají pro alternativní rozdělení A(p) tvary
i
Pi  p i 1  p  , kde i  0,1, Fi   Pi , kde i  1
1i
j 0
teoretické momenty O1 , C2 , C3 , C4
O1  Ei  p, C2  Di  p 1  p  , C3  p 1  p 1  2 p  ,
C4  p 1  p  1  3 p  3 p 2  .
The alternative distribution is discrete theoretical distribution A(p) with one theoretical
parameter of zero-one random variable RV (the random variable has values xi = i = 0, 1).
The probability and distribution functions Pi and Fi as analogies of empirical relative
and cumulative frequency and theoretical moments Oj, Cj have for alternative distribution the
forms
44
i
Pi  p i 1  p  , where i  0,1, Fi   Pi , where i  1
1i
j 0
theoretical moments O1 , C2 , C3 , C4
O1  Ei  p, C2  Di  p 1  p  , C3  p 1  p 1  2 p  ,
C4  p 1  p  1  3 p  3 p 2  .
b) Diskrétní teoretické rozdělení – Binomické rozdělení
b) Discrete theoretical distribution – Binomial distribution
Binomické rozdělení je diskrétní teoretické rozdělení Bi(n, p) s dvěma teoretickými
parametry n, p náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,n).
Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní
a kumulativní četnosti a teoretické momenty Oj, Cj mají pro binomické rozdělení Bi(n, p)
tvary
i
n
n i
Pi    p i 1  p  , kde i  0,1,...., n, Fi   Pi , kde i  n,
j 0
i
teoretické momenty O1 , C2 , C3 , C4
O1  Ei  np, C2  Di  np 1  p  , C3  np 1  p 1  2 p  ,
C4  3n 2 p 2 1  p   np 1  p  1  6 p  6 p 2  .
2
The binomial distribution is discrete theoretical distribution Bi(n, p) with two
theoretical parameters n, p of random variable RV (the random variable has values
xi = i = 0,1, ….,n).
The probability and distribution functions Pi and Fi as analogies of empirical relative
and cumulative frequency and theoretical moments Oj, Cj have for binomial distribution the
forms
i
n
n i
Pi    p i 1  p  , where i  0,1,...., n, Fi   Pi , where i  n,
j 0
i
theoretical moments O1 , C2 , C3 , C4
O1  Ei  np, C2  Di  np 1  p  , C3  np 1  p 1  2 p  ,
C4  3n 2 p 2 1  p   np 1  p  1  6 p  6 p 2  .
2
c) Diskrétní teoretické rozdělení – Poissonovo rozdělení
c) Discrete theoretical distribution – Poisson distribution
Poissonovo rozdělení je diskrétní teoretické rozdělení Po(λ) s jedním teoretickým
parametrem λ náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,  ).
Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní
a kumulativní četnosti a teoretické momenty Oj, Cj mají pro Poissonovo rozdělení Po(λ) tvary
45
Pi  e  
i
i!
i
, kde i  0,1,...., , Fi   Pi , kde i  ,
j 0
teoretické momenty O1 , C2 , C3 , C4
O1  Ei   , C2  Di   , C3   , C4  3 2  .
Binomické rozdělení Bi(n, p) lze aproximovat Poissonovým rozdělením Po(λ) pro
n > 30 a pro p → 0 (stačí p ≤ 0,1). Pak je teoretický parametr Poissonova rozdělení λ = np.
The Poisson distribution is discrete theoretical distribution Po(λ) with one theoretical
parameter λ of random variable RV (the random variable has values
xi = i = 0,1, ….,  ).
The probability and distribution functions Pi and Fi as analogies of empirical relative
and cumulative frequency and theoretical moments Oj, Cj have for Poisson distribution the
forms
Pi  e  
i
i!
i
, where i  0,1,...., , Fi   Pi , where i  ,
j 0
theoretical moments O1 , C2 , C3 , C4
O1  Ei   , C2  Di   , C3   , C4  3 2  .
The binomial distribution Bi(n, p) may be approximated by Poisson distribution Po(λ)
for n > 30 and for p → 0 (p ≤ 0.1 is sufficient).
d) Diskrétní teoretické rozdělení – Geometrické rozdělení
d) Discrete theoretical distribution – Geometric distribution
Geometrické rozdělení je diskrétní teoretické rozdělení Ge(p) s jedním teoretickým
parametrem p náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,  ).
S rostoucími hodnotami i pravděpodobnosti Pi geometricky klesají. Jsou prováděny
nezávislé pokusy a pravděpodobnost nastoupení sledovaného jevu (tj. pravděpodobnost
úspěchu p) je pro všechny pokusy stejná a rovna p. Pravděpodobnost, že k úspěchu dojde
teprve v pokusu i + 1, je dána pravděpodobnostní funkcí Pi.
Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní
a kumulativní četnosti a teoretické momenty Oj, Cj mají pro geometrické rozdělení Ge(p)
tvary
i
Pi  p 1  p  , kde i  0,1, 2,...., , Fi   Pi , kde i  ,
i
j 0
teoretické momenty O1 , C2
O1  Ei 
1 p
1 p
, C2  Di  2 .
p
p
The geometric distribution is discrete theoretical distribution Ge(p) with one theoretical
parameter p of random variable RV (the random variable has values
xi = i = 0,1, ….,  ).
46
The probabilities Pi geometrically decreases with increasing values i. The independent
attempts are carried out and a probability taking the observed phenomenon (i.e. the
probability of success) is for all the attempts the same and equal to p. The probability of
success only in attempt i + 1 is given by probability function Pi.
The probability and distribution functions Pi and Fi as analogies of empirical relative
and cumulative frequency and theoretical moments Oj, Cj have for geometric distribution
Ge(p) the forms
i
Pi  p 1  p  , where i  0,1, 2,...., , Fi   Pi , where i  ,
i
j 0
theoretical moments O1 , C2
O1  Ei 
1 p
1 p
, C2  Di  2 .
p
p
e) Diskrétní teoretické rozdělení – Hypergeometrické rozdělení
e) Discrete theoretical distribution – Hypergeometric distribution
Hypergeometrické rozdělení je diskrétní teoretické rozdělení HGe(N, M, n) s třemi
teoretickými parametry N, M, n náhodné veličiny NV (náhodná veličina má hodnoty
xi = i = max(0, M – N + n),…., min(M, n)).
The hypergeometric distribution is discrete theoretical distribution HGe(N, M, n) with
three theoretical parameters N, M, n of random variable RV (the random variable has values
xi = i = max(0, M – N + n),…., min(M, n)).
Hypergeometrické rozdělení má na rozdíl od předcházejících diskrétních rozdělení
závislé opakované náhodné pokusy (např. je pracováno s N prvky, z nich má M prvků
sledovaný znak a z těchto N prvků je vybráno n prvků bez vracení).
The hypergeometric distribution, unlike the previous discrete distributions, has the
dependent repeated random attempts (e.g. it is worked with N elements, M elements of which
has observed sign and n elements is selected from these N elements without return).
Pravděpodobnostní funkce Pi jako analogie empirické relativní četnosti a teoretické
momenty Oj, Cj mají pro hypergeometrické rozdělení HGe(N, M, n) tvary
 M  N  M 
 

i  n  i 

Pi 
, kde i  max  0, M  N  n  ,..., min( M , n),
N
 
n
teoretické parametry O1 , C2
O1  Ei  n
M
M
, C2  Di  n
N
N
 M  N n
.
1  
N  N 1

The probability function Pi as analogy of empirical relative frequency and theoretical
moments Oj, Cj have for hypergeometric distribution HGe(N, M, n) the forms
47
 M  N  M 
 

i
ni 
Pi   
, where i  max  0, M  N  n  ,..., min( M , n),
N
 
n
theoretical moments O1 , C2
O1  Ei  n
M
M
, C2  Di  n
N
N
 M  N n
.
1  
N  N 1

Tvary teoretických parametrů O1, C2 pro N dostatečně velké vůči n odpovídají tvarům
teoretických parametrů O1, C2 binomického rozdělení Bi(n, p) s pravděpodobností
p
M
.
N
The forms of the theoretical parameters O1, C2 for N sufficiently large against n
correspond to forms of theoretical parameters O1, C2 of binomial distribution Bi(n, p) with
probability
M
.
p
N
Hypergeometrické rozdělení HGe(N, M, n) lze pro
n
M
 0, 05 , p 
N
N
aproximovat binomickým rozdělením Bi(n, p).
The hypergeometric distribution HGe(N, M, n) may be approximated for
n
M
 0, 05 , p 
N
N
by binomial distribution Bi(n, p).
Hypergeometrické rozdělení HGe(N, M, n) lze pro malé zlomky
n M
a pro n velké
,
N N
n
M
M
 0, 05,
 0,1, n  31,   n
N
N
N
aproximovat Poissonovým rozdělením Po(λ).
The hypergeometric distribution HGe(N, M, n) may be approximated for small fractions
n M
and for n large
,
N N
n
M
M
 0, 05,
 0,1, n  31,   n
N
N
N
by Poisson distribution Po(λ).
48
f) Diskrétní teoretické rozdělení – Multinomické rozdělení
f) Discrete theoretical distribution – Multinomial distribution
S-násobné multinomické rozdělení je diskrétní teoretické rozdělení s-Multi(n,p1,….,ps-1)
s s teoretickými parametry n, p1,…, ps-1 (náhodné veličiny NV1,…, NVs mají hodnoty
označené i1,…, is = 0, 1,…., n).
The s-multiple multinomial distribution is discrete theoretical distribution
s-Multi(n,p1,….,ps-1) with s theoretical parameters n, p1,…, ps-1 (the random variables
RV1,…, RVs have values marked i1,…, is = 0, 1,…., n).
Rozdělení s-Multi(n, p1,…, ps-1) je spojeno s neslučitelnými náhodnými jevy A1,…., As,
které mohou nastat v n nezávislých pokusech s pravděpodobnostmi p1 ,…., ps (součet
pravděpodobností je roven 1, v s-násobném multinomickém rozdělení je proto nezávislých
jen s–1 pravděpodobností). Počty výskytu náhodných jevů Ai v n pokusech mají binomická
rozdělení Bi(n, pi).
Pravděpodobnostní funkce Pi jako analogie empirické relativní četnosti
má pro multinomické rozdělení s-Multi(n, p1,…,ps-1) tvar
Pi1 ,...,is 


p1i1 ... ps is 1   p j 
s


j 1


i1 !... is ! n   i j  !
j 1


n!
s
n
s
ij
j 1
.
The distribution s-Multi(n, p1,…, ps-1) is connected with incompatible random
phenomena A1,…., As which can come in n independent attempts with the probabilities
p1 ,…., ps (the summation of probabilities is equal to 1, s-multiple multinomial distribution is
therefore only with s–1 independent probabilities). The numbers of random phenomena Ai
occurrence in n attempts have the binomial distributions Bi(n, pi).
The probability function Pi for multinomial distribution s-Multi(n, p1,…,ps-1) has as
analogy of empirical relative frequency the form
Pi1 ,...,is 


p1i1 ... ps is 1   p j 
s


j 1


i1 !... is ! n   i j  !
j 1


n!
s
n
s
ij
j 1
.
Jednotlivá binomická rozdělení Bi  n, pi  mají teoretické parametry
O1  Ei  npi , C2  Di  npi 1  pi  .
Rozdělení jedné náhodné veličiny (s = 2) je binomické rozdělení Bi(n, pi). Rozdělení
dvojice náhodných veličin (s = 3) je trinomické rozdělení Tr(n,pi,pj). Pravděpodobnostní
funkce Pij má pro trinomické rozdělení Tr(n, p1, p2) tvar
Pij 
n!
n i  j
p1i p2j 1  p1  p2 
..
i ! j ! n  i  j !
49
Multinomické rozdělení pro n → ∞, pi → 0 (i=1,…,s) lze pro λi = npi (λi jsou konečná
čísla) aproximovat vícerozměrným Poissonovým rozdělením Po(λi).
The individual binomial distributions Bi  n, pi  have the theoretical parameters
O1  Ei  npi , C2  Di  npi 1  pi  .
The distribution of one random variable (s = 2) is binomial distribution Bi(n, pi). The
distribution of two random variables (s = 3) is trinomial distribution Tr(n,pi,pj). The
probability function Pij for trinomial distribution Tr(n,pi,pj) has the form
Pij 
n!
n i  j
p1i p2j 1  p1  p2 
.
i ! j ! n  i  j !
The multinomial distribution for n → ∞, pi → 0 (i=1,…,s) may be approximated for
λi = npi (λi are the finite numbers) by multi-dimensional Poisson distribution Po(λi).
g) Spojité teoretické rozdělení – Normální a normované normální rozdělení
g) Continuous theoretical distribution – Normal and standardized normal distribution
Normální rozdělení je spojité teoretické rozdělení N(μ, σ) náhodné veličiny NV
(náhodná veličina nabývá hodnot x   ;   ). Normální rozdělení má dva teoretické
parametry μ, σ. Normované normální rozdělení je spojité teoretické rozdělení
N(0,1) náhodné veličiny U (náhodná veličina nabývá hodnot u   ;   ).
U normovaného normálního rozdělení jsou parametry μ, σ normovány na hodnoty 0, 1
nahrazením náhodné veličiny NV novou náhodnou veličinou U
u
 x    E  x  
 x    D  x
, E
 0, D 
 1.




2
  
  
x
The normal distribution is continuous theoretical distribution N(μ,σ) of random variable
RV (the random variable acquires the values x   ;   ). The normal distribution has two
theoretical parameters μ, σ. The standardized normal distrinution is continuous theoretical
distribution N(0,1) of random variable U (the random variable acquires the values
u   ;   ). For standardized normal distribution the parameters μ, σ are standardized to
values 0, 1 by the substitution of the random variable RV by new random variable U
u
 x    E  x  
 x    D  x
, E
 0, D 
 1.




2
  
  
x
Hustoty pravděpodobnosti ρ(x), ρ(u) (odpovídající relativní četnosti), distribuční funkce
F(x), F(u) (odpovídající kumulativní četnosti) a normovací podmínky (odpovídající empirické
normovací podmínce) mají tvary
50

1
  x 
e
 2
F t  
 x   2
2
2
2
1  u2
,  u  
e
2
t
t
   x  dx, F  t      u  du

F  



  x  dx  1, F    


   u  du  1

The probability densities ρ(x), ρ(u) (corresponding with relative frequency), the
distribution functions F(x), F(u) (corresponding with cumulative frequency) and standardizing
conditions (corresponding with empirical standardizing condition) have the forms

1
  x 
e
 2
F t  
t

 x   2
2 2
2
1  u2
,  u  
e
2
  x  dx, F  t  

F  
t
   u  du





   x  dx  1, F        u  du  1
Teoretické parametry O1, C2 lze vypočítat ve tvaru
O1  E  x  


x   x dx   , O1  E  u  

C2  D  x  

 u  u du  0


 ( x  O )   x dx  
2
1
2
, C2  D  u  


 u  u du  1.
2

The theoretical parameters O1, C2 can be calculated in the form
O1  E  x  


x   x dx   , O1  E  u  

C2  D  x  
 u  u du  0


 ( x  O )   x dx  
2
1


2
, C2  D  u  

 u  u du  1.
2

h) Spojité teoretické rozdělení – Lognormální rozdělení
h) Continuous theoretical distribution – Lognormal distribution
Lognormální rozdělení je spojité teoretické rozdělení LN(μ, σ) náhodné veličiny NV,
která je rostoucí funkcí náhodné veličiny Y ve tvaru x = ey (náhodná veličina Y má normální
rozdělení N(μ, σ)). Lognormální rozdělení má dva teoretické parametry μ, σ.
Hustota pravděpodobnosti ρ(x) (odpovídající relativní četnosti) má tvar
51
  ln x   2 
  x 
exp  
 , kde 0  x  .
2


2

x 2


1
Teoretické parametry Ok, O1, C2 lze vypočítat ve tvaru


k 2 2 
Ok  E  x k    x k   x dx  exp  k  

2 

0

2 
2
O1  exp   
 , O2  exp  2   2  ,
2


C2  D  x   O2  O12  exp  2   2  exp  2  1 .
The lognormal distribution is continuous theoretical distribution LN(μ, σ) of random
variable RV which is increasing function of random variable Y in the form x = ey (the random
variable Y has normal distribution N(μ, σ)). The lognormal distribution has two theoretical
parameters μ, σ.
The probability density ρ(x) (corresponding with relative frequency) has the form
  ln x   2
  x 
exp  

2 2
x 2

1

 , where 0  x  .


The theoretical parameters Ok, O1, C2 can be calculated in the form


k 2 2 
Ok  E  x    x   x dx  exp  k  

2 

0

2 
2
O1  exp   
 , O2  exp  2   2  ,
2 

k
k
C2  D  x   O2  O12  exp  2   2  exp  2  1 .
2.1.4. Aparát neparametrického testování
2.1.4. Apparatus of non-parametric testing
Základem testování neparametrických (ale i parametrických) hypotéz je používání
aparátu nulových hypotéz H0 a alternativních hypotéz Ha.
The use of apparatus of the zero hypotheses H0 and the alternative hypotheses Ha is the
foundation of the testing non-parametric (but also parametric) hypotheses.
V případě neparametrických hypotéz nulová hypotéza předpokládá, že empirické
rozdělení lze nahradit zamýšleným teoretickým rozdělením (jde-li o nahrazení normálním
rozdělením, je hovořeno o testu normality). Alternativní hypotéza pak předpokládá, že tato
domněnka není správná. Podstatou testování neparametrických hypotéz je srovnávání
teoretických a empirických absolutních četností. Empirické absolutní četnosti jsou
vypočítávány prostřednictvím elementárního statistického zpracování ve vztahu
52
k empirickému rozdělení. Teoretické absolutní četnosti pak prostřednictvím
pravděpodobnostní funkce nebo hustoty pravděpodobnosti ve vztahu k zamýšlenému
teoretickému rozdělení.
In the case of non-parametric hypotheses the zero hypothesis supposes that empirical
distribution can be substituted by intended theoretical distribution (regarding the substitution
by normal distribution it had been a test of normality). An alternative hypothesis then
supposes that this presumption isn´t correct. A comparison between theoretical and empirical
absolute frequencies is the essence of testing non-parametric hypotheses. The empirical
absolute frequencies are calculated by means of elementary statistical processing in relation to
the empirical distribution. The theoretical absolute frequencies are then calculated through
probability function or probability density in relation to the intended theoretical distribution.
Parametrické hypotézy se týkají srovnávání empirických a teoretických parametrů
a nulové a alternativní hypotézy zde hrají obdobnou roli.
The parametric hypotheses relate to a comparison of empirical and theoretical
parameters and the zero and alternative hypotheses play the similar role here.
K ověřování neparametrických i parametrických hypotéz byla vyvinuta speciální
skupina teoretických rozdělení – tato rozdělení neslouží k nahrazování empirických rozdělení,
nýbrž fungují jako statistická kritéria. Jedinou výjimkou je normální rozdělení – ve své
normované podobě může hrát roli statistického kritéria, ve své nenormované podobě může
nahrazovat empirická rozdělení.
For the verification of non-parametric and parametric hypotheses the special group of
theoretical distributions was developed – these distributions are not intended to replace the
empirical distributions but they work as statistical criteria. The normal distribution is the only
exception – in its standardized shape it may play a role of statistical criterion, in its nonstandardized shape may substitute the empirical distributions.
Mezi nejpoužívanější statistická kritéria patří normované normální rozdělení (u-test),
Studentovo rozdělení (t-test), Pearsonovo χ2 rozdělení (χ2-test) a Fisherovo-Snedecorovo
rozdělení (F-test). Pro všechna uvedená statistická kritéria jsou vypracovány podrobné
statistické tabulky.
Standardized normal distribution (u-test), Student´ distribution (t-test), Pearson´
2
χ distribution (χ2-test, chi-square) and Fisher-Snedecor distribution (F-test) belong among the
most frequent statistical criteria. The detailed statistical tables are elaborated for all presented
statistical criteria.
K ověření hypotéz H0 a Ha je zapotřebí vybrat vhodné statistické kritérium. Pro
ověřování neparametrické hypotézy se nejčastěji používá χ2-test. Je-li podmínkou pro jeho
použití vytvoření intervalového rozdělení četností, pak je potřebné, aby každý dílčí interval
byl spojen s absolutní četností rovnou alespoň 5. Není-li tato podmínka splněna, je nutno
spojit dílčí intervaly. Obdobně je zapotřebí postupovat při intervalovém rozdělení četností.
For verification of hypotheses H0 and Ha the suitable statistical criterion is needful to
select. The χ2-test is used the most frequently for verification of a non-parametric hypothesis.
If the creation of interval division of frequencies is a condition for its application, it is then
needful to connect the each partial interval with the absolute frequency equal to at least 5. If
this condition isn´t fulfilled it is necessary to connect the partial intervals. Similarly, it is
necessary to proceed to the interval division of frequencies.
53
Po výběru statistického kritéria (např. χ2-testu) je zapotřebí přistoupit k určení
2
2
experimentální hodnoty tohoto kritéria (např.  exp
) a kritické teoretické hodnoty (např.  teor
).
Prostřednictvím kritické teoretické hodnoty bude zapsán tzv. kritický obor W příslušného
statistického kritéria.
After the selection of statistical criterion (e.g., χ2-test) it is needful to come up to the
2
determination of experimental value of this criterion (e.g.,  exp
) and critical theoretical value
2
(e.g.,  teor
). So called the critical domain W of relevant statistical criterion will be recorded
by means of the critical theoretical value.
Bude-li experimentální hodnota vybraného kritéria prvkem kritického oboru W, je
nezbytné přijmout alternativní hypotézu Ha – tzn. empirické rozdělení nelze nahradit
zamýšleným rozdělením teoretickým. V opačném případě (experimentální hodnota nebude
prvkem kritického oboru W) lze přijmout nulovou hypotézu H0 – tzn. empirické rozdělení lze
nahradit zamýšleným rozdělením teoretickým.
If the experimental value of selected criterion will be an element of the critical domain
W it is necessary to receive the alternative hypothesis Ha – i.e. the empirical distribution
cannot be substituted by intended theoretical distribution. In the contrary case (the
experimental value will not be an element of the critical domain W) the zero hypothesis H0
can be received – i.e. the empirical distribution can be substituted by intended theoretical
distribution.
Nezbytným prvkem testování neparametrických i parametrických hypotéz je stanovení
hladiny významnosti α. Tato hladina významnosti udává pravděpodobnost chybného
zamítnutí testované hypotézy (tj. pravděpodobnost tzv. chyby I. druhu). Nejčastějšími
hladinami významnosti jsou hodnoty α = 0,05 a α = 0,01. Např. hladina významnosti 0,05
umožňuje při příznivém testu normality (tj. je přijata hypotéza H0 o možnosti nahradit
empirické rozdělení rozdělením normálním a zamítnuta hypotéza Ha) učinit závěr, že bude-li
100 krát vybrán výběrový statistický soubor VSS ze základního statistického souboru ZSS,
v 95 případech se ukáže, že empirické rozdělení lze nahradit rozdělením normálním.
The determination of significance level α is an essential element of testing nonparametric and parametric hypotheses. This significance level quotes the probability of
erroneous rejection of tested hypothesis (i.e. the probability of the error of I. type). The most
frequent significance levels are the values α = 0.05 and α = 0.01. E.g., the significance level
0.05 enables for the positive test of normality (i.e. it is received the hypothesis H0 on the
possibility to substitute the empirical distribution by normal distribution and the hypothesis Ha
is refused) to determine the conclusion – if the selective statistical set SSS will be selected
100 times from basic statistical set BSS, in 95 cases it will be shown the empirical distribution
can be substituted by normal distribution.
Vlastní postup neparametrického testování si lze procvičit prostřednictvím řešení
zadaného příkladu.
The proper procedure of non-parametric testing can be exercised by means of the
solution of the assigned example.
54
2.1.5. Ilustrace neparametrického testování
2.1.5. Illustration of non-parametric testing
V rámci zadaného příkladu lze nyní sledovat postup při ověřování nulové hypotézy H0,
že empirické rozdělení na obrázku Obr.2 lze nahradit rozdělením normálním (viz Obr.4).
Within the assigned example it is now possible to monitor the procedure for the
verification of the zero hypotheses H0 that the empirical distribution in figure Fig.2 can be
substituted by a normal distribution (see Fig.4).
Při testování bude použit χ2-test, při jeho aplikaci bude písmeno k označovat počet
intervalů intervalového rozdělení četnosti, které odpovídají alespoň absolutní četnosti 5,
písmeno r pak počet teoretických parametrů normálního rozdělení (tj. r = 2). Výraz ν = k–r–1
vyjadřuje počet stupňů volnosti, který umožňuje společně se zvolenou hladinou významnosti
2
určovat pomocí statistických tabulek kritickou teoretickou hodnotu  teor =  k2-r -1 . Hladina
významnosti je volena α = 0,05.
In the course of testing the χ2-test will be applied, in the course of its application the
letter k will be to refer to the number of intervals of frequency interval division, the letter r
then to the number of normal distribution theoretical parameters (i.e. r = 2). The formulation
ν = k–r–1 expresses the number of freedom degrees which enables together with a selected
2
level of significance to determine the critical theoretical value  teor =  k2-r -1 using statistical
tables. The significance level is selected α = 0,05.
Písmeno F označuje Laplaceovu funkci závisející na normované náhodné veličině ui (ui
je normovaná hodnota odrážející horní mez xi příslušného intervalu intervalového rozdělení
četností). Pravděpodobnosti pi (vyjádřené integrálním počtem) jsou dány rozdílem
příslušných hodnot Laplaceovy funkce, součiny n.pi pak vyjadřují teoretické absolutní
četnosti, hodnoty ni označují empirické absolutní četnosti (viz tabulky Tab.1 a Tab.2).
The letter F marks the Laplace function depending on standardized random variable ui
(ui is standardized value reflecting the upper limit xi of relevant interval of frequency interval
division). The probabilities pi (expressed by integral calculus) are given by the difference of
Laplace function values, the products n.pi then express the theoretical absolute frequencies,
the values ni denote the empirical absolute frequencies (see tables Tab.1 and Tab.2).
Výpočet normovaných hodnot ui užitím vztahu (obecný moment 1. řádu O1 = 2,5,
směrodatná odchylka Sx = 1, horní meze xi jsou x1 = 1,5, x2 = 2,5, x3 = 3,5, x4 = 4,5, x5 = ∞)
ui 
xi  O1
Sx
vede k hodnotám u1 =  1, u2 = 0, u3 = 1, u4 = 2,5, u5 = ∞.
The calculation of standardized values ui using the relation (general moment of 1.order
O1 = 2,5, standard deviation Sx = 1, the upper limits xi are x1 = 1,5, x2 = 2,5, x3 = 3,5, x4 = 4,5,
x5 = ∞)
ui 
xi  O1
Sx
leads to the values u1 =  1, u2 = 0, u3 = 1, u4 = 2, u5 = ∞.
55
Výpočet pravděpodobností pi pomocí integrálního počtu a pomocí hodnot Laplaceovy
funkce F(u):
1,5
p1 

  x dx, p1 

2,5
p2 

1,5
p4 
p5 
   u du  F  1

0
  x dx, p2     u du  F  0   F  1
1
3,5
p3 
1
1
   x dx, p     u du  F 1  F  0 
3
2,5
0
4,5
2
   x dx, p     u du  F  2   F 1
4
3,5
1


   x dx, p     u du  F     F  2 
4
4,5
2
The calculation of probabilities pi using the integral calculus and using the Laplace
function values F(u):
1,5
p1 

  x dx, p1 
1
   u du  F  1


2,5
0
   x dx, p     u du  F  0   F  1
p2 
2
1,5
1
3,5
1
   x dx, p     u du  F 1  F  0 
p3 
3
2,5
4,5

p4 
3,5
0
2
  x dx, p4     u du  F  2   F 1
1


   x dx, p     u du  F     F  2 
p5 
4
4,5
2
Použití tvaru χ2-testu
k
 ni  npi 
i 1
npi
 exp  
2
2
,
pi  F  ui   F  ui 1 
již umožňuje provést potřebné dílčí výpočty (viz tabulka Tab.3).
The application of χ2-test form
k
 ni  npi 
i 1
npi
 exp  
2
2
,
pi  F  ui   F  ui 1 
already enables to realize the needful partial calculations (see table Tab.3).
56
xi
1
2
3
4
5
Interval
(– ∞; 1,5 
( 1,5; 2,5 
( 2,5; 3,5 
( 3,5; 4,5 
( 4,5; ∞ 
ni
9
15
20
4
2
ui
–1
0
1
2

F(ui)
0,1625
0,5000
0,8175
0,9754
1,0000
pi
0,1625
0,3375
0,3175
0,1579
0,0246
npi
8,125
16,875
15,875
7,895
1,230
Tabulka Tab.3: Výpočty ui, F(ui), pi a n.pi
Table Tab.3: The calculations of ui, F(ui), pi and n.pi
Tabulka Tab.4 reaguje na požadavek, že při testu normality musí být v každém intervalu
nejméně 5 výsledků měření. Při nesplnění této podmínky se sdruží sousední intervaly, aby
bylo dosaženo pěti a více výsledků měření. Současně jsou v této tabulce provedeny další
výpočty, umožňující stanovit experimentální hodnotu statistického kritéria:
The table Tab.4 reacts to the requirement at least 5 and more measurement results must
be in each interval in the course of normality test. The neighbouring intervals come together
to reach the 5 and more measurement results. At the same time the additional calculations,
enabling to establish the experimental value of statistical criterion, are carried out in this table.
xi
ni
npi
1
2
3
4+5
9
15
20
6
8,1
16,9
15,9
9,1
( ni - npi ) 2
npi
0,100
0,214
1,057
1,056
Σ = 2,427 =
Tabulka Tab.4: Úprava počtu intervalů, výpočet
2
 exp
2
 exp
2
Table Tab.4: The adjustment of intervals number, the calculation of  exp
V poslední části neparametrického testování bylo potřebné určit prostřednictvím
vypočítaného počtu stupňů volnosti ν = k – r – 1 = 4 – 2 – 1 = 1 a pomocí statistických
2
2
2
tabulek kritickou teoretickou hodnotu  teor =  =  k2-r -1 =  4-2-1
= 12 = 3,84 při hladině
významnosti α = 0,05. Prostřednictvím kritické teoretické hodnoty již bylo možno zapsat
pravostranný kritický obor W =  2   , )  3,84, ).
In the final part of non-parametric testing it was needful to determine the critical
2
2
2
theoretical value  teor =  =  k2-r -1 =  4-2-1
= 12 = 3.84 using the calculated number of
freedom degrees ν = k – r – 1 = 4 – 2 – 1 = 1 and using the statistical tables with significance
level α = 0.05. By means of the critical theoretical value already it was possible to record the
right-sided critical domain W =  2   , )  3.84, ).
57
Jelikož experimentální hodnota statistického kritéria
2
2
= 2,427 (tj.  exp  W) lze
 exp
učinit průkazný závěr týkající se testu neparametrické hypotézy:
2
Experimentální hodnota  exp nepatří do kritického oboru, lze proto přijmout nulovou
hypotézu H0 a lze empirické rozdělení (empirický polygon) nahradit na hladině významnosti
α = 0,05 teoretickým normálním rozdělením. Tento závěr má značný význam – lze nejen
používat jednoduchý matematický aparát spojený s normálním rozdělením při vyvozování
dalších informací, ale lze také při testování parametrických hypotéz používat testovacích
technik, jejichž použití je vázáno právě na normální rozdělení.
2
2
For the experimental value of statistical criterion  exp = 2.427 (i.e.  exp  W) it is
possible to do the conclusive verdict related to non-parametric hypothesis test:
2
The experimental value  exp doesn´t belong to critical domain, the zero hypothesis H0
can be received and the empirical distribution (empirical polygon) can be substituted by
theoretical normal distribution with the significance level α = 0.05. This conclusion is of
considerable importance – in the course of deducing the additional information it is possible
to use not only the simple mathematical apparatus connected with normal distribution but also
in the course of parametric hypotheses testing it is possible to apply the testing techniques
which are just bound to the normal distribution.
2.2. Srovnání empirických a teoretických parametrů – odhady teoretických parametrů,
testování parametrických hypotéz
2.2. Comparison of empirical and theoretical parameters – estimations of
theoretical parameters, testing parametric hypotheses
Cíle: Goals:
-
Pravděpodobnostní zkoumání výběrového statistického souboru: Kvantifikace
teoretických parametrů, srovnání teoretických a empirických parametrů
-
Probable investigation of selective statistical set: Quantification of theoretical
parameters, Comparison between theoretical and empirical parameters
-
Pravděpodobnostní obraz výběrového statistického souboru: Bodový a intervalový
odhad – např. interval spolehlivosti, Testování parametrických hypotéz
-
Probable picture of selective statistical set: Point & interval estimation – e.g.
confidence interval, Testing parametric hypotheses
58
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Bodový odhad Point estimation
Intervalový odhad Interval estimation
Interval spolehlivosti Confidence interval
Interval spolehlivosti pro střední hodnotu Confidence interval for mean value
Interval spolehlivosti pro standardní odchylku Confidence interval for standard deviation
Testování parametrických hypotéz Testing parametric hypotheses
Aplikace u-testu Computed u-statistic
Aplikace t-testu Computed t-statistic
Aplikace F-testu Computed F-statistic
Aplikace 2-testu Computed chi-square statistic
Kontrolní otázky: Check questions:
Proč
odhady
teoretických
parametrů
předcházejí
srovnávání
teoretických
a empirických parametrů
Why do the estimations of theoretical parameters come before the comparison of theoretical
and empirical parameters
Jaké podmínky musí splňovat dobré bodové odhady
What conditions must good point estimation fulfil
Jaké jsou metody bodových odhadů
What are the methods of point estimations
Jaké jsou přednosti intervalových odhadů
What are the advantages of interval estimations
Popište způsob konstrukce intervalů spolehlivosti
Describe the way of confidence intervals construction
Která statistická kritéria jsou používána pro konstrukci intervalů spolehlivosti
Which are the statistical criteria used for confidence intervals construction
Jaký je aparát parametrického testování
What is the apparatus of parametric testing
Jaký je rozdíl mezi jednovýběrovým a dvojvýběrovým testováním parametrických hypotéz
What is the difference between one-selective and two-selective testing parametric hypotheses
Jaký je postup při parametrickém testování
What is the procedure for parametric testing
Uveďte přehled nejobecnějších statistických kritérií
Present a survey of the most general statistical criteria
.
59
Další z hlavních metod statistiky „Srovnání empirických a teoretických parametrů“
navazuje na „Přiřazení teoretického rozdělení rozdělení empirickému“. Teoretické rozdělení
je identifikováno a neparametrickým testováním přiřazeno, obsahuje však dosud neznámé
hodnoty teoretických parametrů. Před provedením srovnání empirických a teoretických
parametrů je potřebné teoretické parametry odhadnout. Pak lze přistoupit ke srovnávání
empirických a teoretických parametrů s použitím aparátu parametrického testování.
Another of the main methods of statistics “Comparison of empirical and theoretical
parameters” builds on “Assignment of theoretical distribution to empirical distribution”. The
theoretical distribution is identified and assigned by non-parametric testing, but it contains
still the unknown values of theoretical parameters. Before an implementation of comparison
between empirical and theoretical parameters it is needful to estimate the theoretical
parameters. Then it is possible to approach to a comparison between empirical and theoretical
parameters with the application of parametric testing apparatus.
2.2.1. Základy teorie odhadů
2.2.1. Basics of estimation theory
Teoretické parametry (např. střední hodnotu E = μ a rozptyl D = σ2 u rozdělení
normálního) je zapotřebí odhadnout. Odhady teoretických parametrů mohou být dvojího
druhu: bodové a intervalové.
It is necessary to estimate the theoretical parameters (e.g. mean value E = μ and
dispersion D = σ2 for the normal distribution). Two kinds of the theoretical parameters
estimations can be: the point and the interval ones.
Dobré bodové odhady by měly splňovat podmínky konzistentnosti, nestrannosti,
vydatnosti a dostatečnosti. Zde jsou tyto podmínky jen připomenuty, podrobnější informace
lze získat v literatuře zabývající se teorií odhadů. Bodový odhad lze provést momentovou
metodou nebo metodou maximální věrohodnosti. Momentová metoda spočívá v tom, že se
empirické parametry považují za odhady odpovídajících teoretických parametrů. Metoda
matematické věrohodnosti je podstatně matematicky náročnější. Nevýhodou bodových
odhadů je především neznalost přesnosti, s kterou byl odhad učiněn.
The good point estimations should fulfil the conditions of consistency, impartiality,
abundance and sufficiency. Here these conditions are reminded only, more detailed
information can be obtained in a literature dealing with estimation theory. The point
estimation can be carried out by moment method or by method of maximum likelihood. The
moment method is based on the effect that the empirical parameters are considered the
estimations of corresponding theoretical parameters. The method of mathematical likelihood
is essentially mathematically more demanding. The disadvantage of point estimations consists
above all in the ignorance of exactness which the estimation was done with.
Intervalové odhady odstraňují problém neznalosti přesnosti odhadu. Snaží se sestrojit
interval, který by poskytoval rozumnou „záruku“ (dostatečně vysokou pravděpodobnost), že
skutečná hodnota teoretického parametru leží uvnitř intervalu. Tato pravděpodobnost souvisí
opět s volbou hladiny významnosti a sestrojený interval pak nese název „100 (1–α)% interval
spolehlivosti“ (např. pro α = 0,05 půjde o 95% interval spolehlivosti).
The interval estimations remove the problem of estimation exactness ignorance. They
are trying to construct an interval providing the reasonable “guarantee” (sufficiently high
probability) the real value of theoretical parameter is located inside interval. This probability
relates to the selection of significance level again and the constructed interval then bears the
60
name “100 (1–α)% confidence interval” (e.g., for α = 0,05 the point will be 95% confidence
interval).
a) Konstrukce intervalu spolehlivosti pro střední hodnotu μ normálního rozdělení pomocí
u-testu (podmínka konstrukce – rozptyl σ2 je předem zadán) vychází z tvaru testového kritéria
u
O1  

n.
Kritické hodnoty jsou –u(α/2), u(α/2), podmínky pro konstrukci intervalu spolehlivosti
lze zapsat ve tvaru nerovností –u(α/2)< u< u(α/2). Po vyřešení uvedených nerovností lze
získat interval spolehlivosti (intervalový odhad μ):
 
 

u  
u  
2
2 .

  O1 
; O1 

n
n 


a) The construction of confidence interval for mean value μ of normal distribution using u-test
(the condition of construction – the variance σ2 is assigned in advance) works on the form of
statistical criterion
u
O1  

n.
The critical values are –u(α/2), u(α/2), the conditions for construction of confidence
interval can be recorded in the form of inequalities –u(α/2)< u< u(α/2). After the solution of
presented inequalities it is possible to obtain the confidence interval (the interval estimation
of μ):
 
 

u  
u  
2
2 .

  O1 
; O1 

n
n 


b) Konstrukce intervalu spolehlivosti pro střední hodnotu μ normálního rozdělení pomocí
t-testu (podmínka konstrukce – rozptyl σ2 není předem znám) vychází z tvaru testového
kritéria
t
O1  
n.
Sx
Kritické hodnoty jsou –tn–1(α/2), tn–1(α/2), podmínky pro konstrukci intervalu
spolehlivosti lze zapsat ve tvaru nerovností –tn–1(α/2) < t < tn–1(α/2). Po vyřešení uvedených
nerovností lze získat interval spolehlivosti (intervalový odhad μ):

   O1 


 2 S
tn 1 
n
x
; O1 
 2 S
tn 1 
n
x




61
b) The construction of confidence interval for mean value μ of normal distribution using t-test
(the condition of construction – the variance σ2 isn´t assigned in advance) works on the form
of statistical criterion
t
O1  
n.
Sx
The critical values are –tn–1(α/2), tn–1(α/2), the conditions for construction of confidence
interval can be recorded in the form of inequalities –tn–1(α/2) < t < tn–1(α/2). After the solution
of presented inequalities it is possible to obtain the confidence interval (the interval estimation
of μ):
 
 

tn 1  S x
tn 1  S x 
2
2

,
  O1 
; O1 


n
n


c) Konstrukce intervalu spolehlivosti pro rozptyl σ2 normálního rozdělení pomocí
χ 2 -testu (podmínka konstrukce – nutno vypočítat empirický rozptyl Sx2) vychází z tvaru
testového kritéria
2 

 n  1 S x 2 .
2
 ,   2  , podmínky pro konstrukci intervalu
spolehlivosti lze zapsat ve tvaru nerovností  1    < <    . Po vyřešení
2
2
Kritické hodnoty jsou  n12 1  
2
n 1
2
2
n 1
2
2
n 1
uvedených nerovností lze získat interval spolehlivosti (intervalový odhad σ2):

n  1 S x 2
n  1 S x 2



 
;
  2 
 n 12 1   2
n 1
2

2
 



.


c) The construction of confidence interval for variance σ2 of normal distribution using
χ 2 -testu (the condition of construction – the empirical variance Sx2 is needful to calculate)
works on the form of statistical criterion
2 

The critical values are  n12 1  
confidence


interval
can
 
be
 n  1 S x 2
2

 
,  n12  , the conditions for construction of
2
2
recorded
in
the
form
of
inequalities
 n12 1   2 < 2 <  n12  2 . After the solution of presented inequalities it is possible to
obtain the confidence interval (the interval estimation of σ2):

n  1 S x 2
n  1 S x 2



 
;
  2 
 n 12 1   2
n 1
2

2
 



.


62
2.2.2. Ilustrace konstrukce intervalů spolehlivosti
2.2.2. Illustration of confidence intervals construction
a) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro střední
hodnotu μ pomocí t-testu.
Interval spolehlivosti je dán tvarem:
 
 

tn 1  S x
tn 1  S x 
2
2


  O1 
; O1 


n
n


Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti
α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce
Sx = 1 (přibližná hodnota) a při aritmetickém průměru O1 = 2,5 rovny  t49 (0,025) =  1,96
(pro počet stupňů volnosti n–1 > 33 lze použít statistické tabulky pro u-test).
Po dosazení do 95% intervalu spolehlivosti lze obdržet    2,221; 2,779 .
a) Within the assigned example the construction of confidence interval will be carried out for
mean value μ using t-test.
The confidence interval is given by form:
 
 

tn 1  S x
tn 1  S x 
2
2


  O1 
; O1 


n
n


For the significance level α = 0.05, for the extent n = 50 of selective statistical set SSS,
for standard deviation Sx = 1 (approximative value) and for the arithmetic mean O1 = 2.5 the
critical values are, according to the statistical tables, equal to  t49 (0.025) =  1.96 (for
freedom degrees number n–1 > 33 it is possible to apply the statistical table for u-test).
After implementation into 95% confidence interval it is possible to obtain
   2.221; 2.779 .
b) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro rozptyl
σ2 pomocí χ 2 -testu
Interval spolehlivosti je dán tvarem:

 2 
 n  1 S x 2
 
  2 
2
 n 1
;

.


1
2 
 n  1 S x 2
 n 12


Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti
α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce
Sx = 1 (přibližná hodnota)
 49 2 (1  ( / 2) )   49 2 (0,975)  30, 60
 49 2 ( / 2)   49 2 (0, 025)  70, 22
63
Po dosazení do 95% intervalu spolehlivosti lze obdržet
 2   0,705; 1,617  ,    0,839; 1, 272 .
b) Within the assigned example the construction of confidence interval will be carried out for
variance σ2 using χ 2 -test.
The confidence interval is given by form:

 2 
 n  1 S x 2
 
  2 
2
 n 1
;

.


1
2 
 n  1 S x 2
 n 12


For the significance level α = 0.05, for the extent n = 50 of selective statistical set SSS,
for standard deviation Sx = 1 (approximative value) the critical values are according to the
statistical tables
 49 2 (1  ( / 2) )   49 2 (0.975)  30.60
 49 2 ( / 2)   49 2 (0.025)  70.22
After implementation into 95% confidence interval it is possible to obtain
 2   0.705; 1.617  ,    0.839; 1.272 .
2.2.3. Základy testování parametrických hypotéz
2.2.3. Basics of parametric hypotheses testing
Testování parametrických hypotéz opět vychází z aparátu nulové hypotézy H0
a alternativní hypotézy Ha. Tento aparát je doplněn obvyklým aparátem kritického oboru W.
Vzhledem k centrální limitní větě je přirozeným předpokladem, že empirickému rozdělení lze
přiřadit jako nejvhodnější teoretické rozdělení rozdělení normální.
The parametric hypotheses testing again works on the apparatus of zero hypothesis H0
and alternative hypotheses Ha. This apparatus shall be accompanied by usual apparatus of
critical domain W. Due to the central limit theorem it is the natural assumption that the
normal distribution, as the most suitable theoretical distribution, may be assigned to empirical
distribution.
Parametrické testování lze rozčlenit na jednovýběrové testování hypotézy o střední
hodnotě nebo o rozptylu (pak jsou požívány jednovýběrové testy u-test a t-test pro střední
hodnotu a jednovýběrový χ2-test pro rozptyl) a na dvojvýběrové testování hypotézy o rovnosti
středních hodnot nebo rozptylů (pak jsou používány dvojvýběrové testy u-test a t-test pro
rovnost středních hodnot a dvojvýběrový F-test pro rovnost rozptylů).
The parametric testing can be divided into one-selective testing hypotheses of the mean
value or of the variance (then the one-selective tests u-test and t-test are used for mean value
and one-selective χ2-test for variance) and into two-selective testing hypotheses of an equality
of the mean values or of the variances (then the two-selective tests u-test and t-test are used
for an equality of the mean values and two-selective F-test for an equality of the variances).
V případě jednovýběrového testování lze hypotézy H0 a Ha psát ve tvaru
H0: μ = μ0 nebo H0: σ = σ0,
Ha: μ  μ0 nebo Ha: σ  σ0.
64
In the case of one-selective testing the hypothesis H0 and Ha can be written in the form
H0: μ = μ0 or H0: σ = σ0,
Ha: μ  μ0 or Ha: σ  σ0.
Jednovýběrové parametrické testování vychází ze srovnávání empirického parametru μ
nebo empirického parametru σ (těmito symboly jsou označeny výsledky elementárního
statistického zpracování výběrového statistického souboru VSS, prostřednictvím těchto
výsledků byly odhadnuty příslušné teoretické parametry μ, σ odpovídajícího normálního
rozdělení) s nějakými vnějšími teoretickými údaji μ0, σ0, jejichž původ může být rozmanitý
(studium literatury, výzkumné zprávy, komerční ukazatele apod.). Společným jmenovatelem
těchto vnějších údajů může být zjištění, že zřejmě charakterizují určitý významný základní
statistický soubor ZSS. Jednovýběrové parametrické testování pak z pohledu matematické
statistiky odpovídá na otázku, zda zkoumaný výběrový statistický soubor VSS mohl být
vybrán z popsaného významného základního statistického souboru ZSS. Při potvrzení
hypotézy H0 lze na výsledky zkoumání výběrového souboru VSS nahlížet v kontextu
vytvořeném základním souborem ZSS. Při přijetí hypotézy Ha nelze z tohoto kontextu
vycházet.
The one-selective parametric testing works on the comparison between an empirical
parameter μ or an empirical parameter σ (by these symbols the results of elementary statistical
processing of selective statistical set SSS are marked, by means of these results the relevant
theoretical parameters μ, σ of corresponding normal distribution were estimated) and some
external theoretical data μ0, σ0, origin of which can be various (study of literature, research
reports, commercial indicators and the like). By the collective denominator of these external
data it can be the determination that they probably characterize the certain significant basic
statistical set BSS. The one-selective parametric testing, then from the point of view of the
mathematical statistics, answers the question whether the investigated selective statistical set
SSS could be chosen from the described significant basic statistical set BSS. In the case of
hypotheses H0 verification it is possible to look at the results of selective statistical set SSS
investigation in the context created by basic statistical set BSS. In the case of hypothesis Ha
acceptance it is not possible to work on this context.
V případě dvojvýběrového testování lze hypotézu H0 a Ha psát ve tvaru
H0: μ1 = μ2 nebo H0: σ1 = σ2,
Ha: μ1  μ2 nebo Ha: σ1  σ2.
In the case of two-selective testing the hypothesis H0 and Ha can be written in the form
H0: μ1 = μ2 or H0: σ1 = σ2,
Ha: μ1  μ2 or Ha: σ1  σ2.
Dvojvýběrové parametrické testování vychází ze srovnávání empirického parametru μ1
nebo empirického parametru σ1 (těmito symboly jsou označeny výsledky elementárního
statistického zpracování výběrového statistického souboru VSS1, jejichž prostřednictvím byly
odhadnuty příslušné teoretické parametry μ1, σ1 odpovídajícího normálního rozdělení)
s nějakými vnějšími teoretickými údaji μ2, σ2, jejichž původ lze obvykle nalézt ve výsledcích
zkoumání jiného výběrového statistického souboru VSS2. Dvojvýběrové parametrické
testování pak z pohledu matematické statistiky odpovídá na otázku, zda oba výběrové
statistické soubory VSS1 a VSS2 zkoumaly obdobný problem a zda tyto soubory mohou
spolupracovat. Při potvrzení hypotézy H0 lze výběrové soubory VSS1 a VSS2 považovat za
výběrové soubory vybrané z téhož základního souboru ZSS a obvykle se vyplatí snaha soubor
65
ZSS identifikovat. Při přijetí hypotézy Ha je nutno z pohledu matematické statistiky vyslovit
pochybnosti o kompatibilitě souborů VSS1 a VSS2.
The two-selective parametric testing works on the comparison between an empirical
parameter μ1 or an empirical parameter σ1 (by these symbols the results of elementary
statistical processing of selective statistical set SSS1 are marked, by means of these results the
relevant theoretical parameters μ1, σ1 of corresponding normal distribution were estimated)
and some external theoretical data μ0, σ0, origin of which can be usually found in the
investigation results of another selective statistical set SSS2. The two-selective parametric
testing, then from mathematical statistics point of view, answers the question whether both of
selective statistical sets SSS1 and SSS2 have investigated an analogous problem and whether
these sets can co-operate. In the case of confirmation of the hypotheses H0 it is possible to
consider the selective sets SSS1 and SSS2 the selective sets chosen from the same basic
statistical set BSS and usually the endeavour to identify the set BSS is worth. In the case of
acceptance of the hypotheses Ha it is necessary, from mathematical statistics point of view, to
articulate the doubts as to the compatibility of the sets SSS1 and SSS2.
Postup při parametrickém testování je obdobný jako při testování neparametrickém.
Nejdříve je potřebné naformulovat nulovou a alternativní hypotézu a zvolit hladinu
významnosti α. Pak je potřebné vybrat vhodné statistické kritérium (u-test, t-test, χ2-test, Ftest), nalézt jeho kritickou hodnotu a zapsat odpovídající kritický obor W. Posléze je zapotřebí
přikročit k výpočtu empirické hodnoty statistického kritéria a zjistit, zda je či není prvkem
kritického oboru W. Je-li empirická hodnota prvkem oboru W, je zapotřebí přijmout
alternativní hypotézu Ha, v opačném případě pak nulovou hypotézu H0.
The procedure for parametric testing is similar to the procedure for non-parametric
testing. First, it is needful to formulate a zero and an alternative hypothesis and to select the
significance level α. Then it is needful to select a suitable statistical criterion (u-test, t-test,
χ2-test, F-test), to discover its critical value and to record a corresponding critical domain W.
Finally it is necessary to approach to the calculation of statistical criterion empirical value and
to determine if it is or it isn´t the element of critical domain W. If the empirical value is an
element of domain W it is necessary to accept the alternative hypothesis Ha, in the opposite
case then the zero hypothesis H0.
Přehled některých jednovýběrových statistických kritérií (n – rozsah souboru VSS):
Survey of some one-selective statistical criteria (n – the extent of set SSS):
a) Jednovýběrový u-test (testování hypotézy o střední hodnotě při známém rozptylu σ2)
a) One-selective u-test (the testing hypothesis about the mean value of the known variance σ2)
uexp 
  0
n , W  (; u  2   u  2  ; ) .

b) Jednovýběrový t-test (testování hypotézy o střední hodnotě při neznámém rozptylu σ2)
b) One-selective t-test (the testing hypothesis about the mean value of the unknown
variance σ2)
texp 
  0
Sx
n , W  (; tn1  2   tn1  2  ; ) .
66
c) Jednovýběrový χ 2 -test (testování hypotézy o rozptylu při neznámých parametrech μ, σ2)
c) One-selective χ 2 -test (the testing hypothesis about the variance of the unknown
parameters μ, σ2)
 exp
2
n  1  2


,
0
2
W  0;  n 12 1   2     n 12  2  ; ) .
Přehled některých dvojvýběrových statistických kritérií:
Survey of some two-selective statistical criteria:
a) Dvojvýběrový u-test (testování hypotézy o rovnosti středních hodnot při známých
rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2
a) Two-selective u-test (the testing hypothesis about the equality of mean values of the known
variances σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2
uexp 
1  2
 12
n1

 22
, W  (; u  2   u  2  ; ) .
n2
b) Dvojvýběrový t-test (testování hypotézy o rovnosti středních hodnot při neznámých
rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2
jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2
b) Two-selective t-test (the testing hypothesis about the equality of mean values of the
unknown variances σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2,
Sx1, Sx2 are the empirical standard deviations of selective statistical sets SSS1, SSS2
texp 
1  2
 n1  1 S
2
x1
  n2  1 S x 2
2
n1n2  n1  n2  2 
,
n1  n2
W  (; tn1  n2  2  2   tn1  n2  2  2  ; )
c) Dvojvýběrový F-test (testování hypotézy o rovnosti rozptylů při neznámých parametrech
μ1, μ2, σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2
jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2
c) Two-selective F-test (the testing hypothesis about the equality of variances of the unknown
parameters μ1, μ2, σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2,
Sx1, Sx2 are the empirical standard deviations of selective statistical sets SSS1, SSS2
Fexp
S x12

Sx 22
W  0; Fn1 1,n2 1 1   2    Fn1 1,n2 1  2  ; )
.
67
Poznámka: Do čitatele statistického kritéria
Fexp 
S x12
S x 22
se obvykle vkládá větší druhá mocnina z druhých mocnin empirických směrodatných
odchylek Sx12, Sx22. Z tohoto pohledu se obvykle používá pravostranný kritický obor
W =  Fn1 1,n2 1   ; ) s hodnotou α místo hodnoty α/2.
The remark: The larger square power of square powers of the standard deviations Sx12, Sx22 is
usually put into the numerator of statistical criterion
Fexp 
S x12
.
S x 22
From this point of view the right-sided critical domain W =  Fn1 1,n2 1   ; ) with the value α
instead of value α/2 is usually used.
d) Párový t-test (převod dvojvýběrového t-testu na t-test jednovýběrový na základě nulové
hypotézy H0: 1  2 = , kde nejčastěji  = 0)
d) The paired t-test (the transformation of two-selective t-test on one-selective t-test on the
basis of the zero hypothesis H0: 1  2 =  where the most frequent  = 0)
2.2.4. Ilustrace parametrického testování
2.2.4. Illustration of parametric testing
a) Zadaný příklad – testování hypotézy o střední hodnotě
a) Assigned example – testing hypotheses about mean value
Zjistěte, zda zkoumaný výběrový statistický soubor VSS (μ = 2,5, n = 50) mohl být
při hladině statistické významnosti α = 0,05 vybrán ze základního statistického souboru ZSS,
který je charakterizován střední hodnotou a1) μ0 = 2,6, a2) μ0 = 2,9.
Determine if the investigated selective statistical set SSS (μ = 2.5, n = 50) could be, for
the significance level α = 0.05, selected from the basic statistical set BSS which is
characterized by the mean value a1) μ0 = 2.6, a2) μ0 = 2.9.
Informace o rozptylu chybí – je nutno použít jednovýběrový t-test:
The information about variance is missing – it is needful to use the one-selective t-test:
  0
texp 
n , W  (; tn1  2   tn1  2  ; )
Sx
Formulace nulové a alternativní hypotézy: H0: μ = μ0,
Ha: μ ≠ μ0
The formulation of zero and alternative hypothesis: H0: μ = μ0,
Ha: μ ≠ μ0
Určení kritických hodnot a kritického oboru:
t49(0,025) = u(0,025) = 1,96,
W = (  ∞;  1,96    1,96; ∞)
The determination of critical values and and critical domain:
t49(0.025) = u(0.025) = 1.96,
W = (  ∞;  1.96    1.96; ∞)
68
Výpočet experimentální hodnoty statistického kritéria pro případ a1)
The calculation of statistical criterion experimental value for the case a1)
texp =  0,704,
texp  W
texp =  0.704,
texp  W
Interpretace výsledku:
Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické
významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický
soubor VSS mohl být vybrán z vnějšího souboru ZSS. Rozdíl   0 je na hladině
významnosti α = 0,05 statisticky nevýznamný (lze si povšimnout, že hodnota 0 je v případě
a1) prvkem 95% intervalu spolehlivosti)
The result interpretation:
The experimental value texp doesn´t belong to the critical domain, on the significance
level α = 0.05 it is possible to accept the zero hypothesis H0. The investigated selective
statistical set could be selected from an external set BSS. The difference   0 is statistically
unimportant for the significance level α = 0.05 (it can be noted that the value 0 is the
element of the 95% confidence interval in the case a1))
Výpočet experimentální hodnoty statistického kritéria pro případ a2):
The calculation of statistical criterion experimental value for the case a2):
texp =  2,814,
texp  W
texp =  2.814,
texp  W
Interpretace výsledku:
Experimentální hodnota texp je prvkem kritického oboru, na hladině statistické
významnosti α = 0,05 lze zamítnout nulovou hypotézu H0 . Zkoumaný výběrový soubor VSS
nemohl být vybrán z vnějšího souboru ZSS. Rozdíl   0 je na hladině významnosti
α = 0,05 statisticky významný (lze si povšimnout, že hodnota 0 není v případě a2) prvkem
95% intervalu spolehlivosti)
The result interpretation:
The experimental value texp is the element of the critical domain, on the significance
level α = 0.05 it is possible to refuse the zero hypothesis H0. The investigated selective
statistical set SSS couldn´t be selected from an external set BSS. The difference   0 is, on
the significance level α = 0.05, statistically important (it can be noted that the value 0 isn´t
the element of the 95% confidence interval in the case a2))
b) Zadaný příklad – testování hypotézy o rozptylu
b) Assigned example – testing hypothesis about variance
Zjistěte, zda zkoumaný výběrový statistický soubor VSS (μ = 2,5, Sx = σ = 1,005,
n = 50) mohl být při hladině statistické významnosti α = 0,05 vybrán ze základního
statistického souboru ZSS, který je charakterizován směrodatnou odchylkou b1) σ0 = 1,
b2) σ0 = 0,5.
Determine if the investigated selective statistical set SSS (μ = 2.5, Sx = σ = 1.005,
n = 50) could be, for the significance level α = 0.05, selected from the basic statistical set BSS
which is characterized by the standard deviation b1) σ0 = 1, b2) σ0 = 0.5.
69
Bude použit jednovýběrový χ 2 -test:
The one selective χ 2 -test will be used:
 n  1  2
2
 exp 
, W  0;  n 12 1   2     n 12  2  ; ) .
2
0
Formulace nulové a alternativní hypotézy: H0: σ = σ0,
Ha: σ  σ0.
The formulation of zero and alternative hypothesis: H0: σ = σ0,
Ha: σ  σ0.
Určení kritických hodnot a kritického oboru:
492  0,975  30,60 , 492  0,025  70, 22 ,
W  0; 30,60  70, 22; ) .
The determination of critical values and and critical domain:
492  0.975  30.60 , 492  0.025  70.22 ,
W  0; 30.60  70.22; ) .
Výpočet experimentální hodnoty statistického kritéria pro případ b1):
The calculation of statistical criterion experimental value for the case b1):
exp 2  49, 49, exp 2  W
exp 2  49.49, exp 2  W
Interpretace výsledku:
Experimentální hodnota  exp 2 nepatří do kritického oboru, na hladině statistické
významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický
soubor VSS mohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině
významnosti α = 0,05 statisticky nevýznamný ((lze si povšimnout, že hodnota σ0 je v případě
b1) prvkem 95% intervalu spolehlivosti).
The result interpretation:
The experimental value  exp 2 doesn´t belong to the critical domain, on the significance
level α = 0.05 it is possible to accept the zero hypothesis H0. The investigated selective
statistical set SSS could be selected from an external set BSS. The quotient between σ and σ0
is statistically unimportant for the significance level α = 0,05 (it can be noted that the value σ0
is the element of the 95% confidence interval in the case b1))
Výpočet experimentální hodnoty statistického kritéria pro případ b2):
The calculation of statistical criterion experimental value for the case b2):
exp 2  197,96, exp 2  W
exp 2  197.96, exp 2  W
Interpretace výsledku:
Experimentální hodnota  exp 2 patří do kritického oboru, na hladině statistické
významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický
soubor VSS nemohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině
významnosti α = 0,05 statisticky významný ((lze si povšimnout, že hodnota σ0 není v případě
b2) prvkem 95% intervalu spolehlivosti).
The result interpretation:
The experimental value  exp 2 belongs to the critical domain, on the significance level
α = 0.05 it isn´t possible to accept the zero hypothesis H0. The investigated selective statistical
70
set SSS couldn´t be selected from an external set BSS. The quotient between σ and σ0 is, on
the significance level α = 0,05, statistically important (it can be noted that the value σ0 isn´t
the element of the 95% confidence interval in the case b2))
c) Zadaný příklad – testování hypotézy o rovnosti středních hodnot
c) Assigned example – testing hypotheses about equality of mean values
Obdobné sledování exportní schopnosti jako u zadaného příkladu (zde byl zkoumán
výběrový statistický soubor VSS1 n1 = 50 podniků s výsledkem μ1 = 2,5) vedlo u n2 = 100
podniků k průměrné exportní schopnosti c1) μ2 = 2,6, c2) μ2 = 2,9 (rozptyly byly srovnatelné,
informace o velikosti rozptylů však chybí – je nutno použít dvojvýběrový t-test). Zjistěte, zda
tento výběrový statistický soubor VSS2 mohl být na hladině statistické významnosti α = 0,05
vybrán z téhož základního statistického souboru ZSS jako soubor VSS1.
An analogous observation of the export ability as within the assign example (here it
was investigated the selective statistical set SSS1 n1 = 50 enterprises with the result μ1 = 2.5)
has led to the average export ability c1) μ2 = 2.6, c2) μ2 = 2.9 for n2 = 100 enterprises (the
variances were comparable, but the information about variance size is missing – it is needful
to use two-selective t-test). Determine if this selective statistical set SSS2 could be, for the
statistical significance level α = 0.05, selected from the same basic statistical set BSS as the
set SSS1.
Bude použit dvojvýběrový t-test:
The two-selective t-test will be used:
texp 
1  2
n1 n2  n1  n2  2 
 n1  1 S x12   n2  1 S x 2 2
n1  n2
 2   t
W  (; tn1  n2  2 
n1  n2  2
,
 2  ;  )
Formulace nulové a alternativní hypotézy: H0: μ1 = μ2, Ha: μ1 ≠ μ2
The formulation of zero and alternative hypothesis: H0: μ1 = μ2, Ha: μ1 ≠ μ2
Určení kritických hodnot a kritického oboru:
The determination of critical values and and critical domain:
t148(0,025) = 1,96,
W = (  ∞;  1,96    1,96; ∞)
t148(0.025) = 1.96,
W = (  ∞;  1.96    1.96; ∞)
Výpočet experimentální hodnoty statistického kritéria pro případ c1):
The calculation of statistical criterion experimental value for the case c1):
texp =  0,574,
texp  W
texp =  0.574,
texp  W
Interpretace výsledku:
Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické
významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1
a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS.
Rozdíl mezi μ1 a μ2 je na hladině významnosti α = 0,05 statisticky nevýznamný.
The result interpretation:
The experimental value texp doesn´t belong to the critical domain, it is possible to accept
the zero hypotheses H0 for the significance level α = 0.05. The investigated selective
71
statistical set SSS1 and the additional selective set SSS2 could be selected from one and the
same external set BSS. The difference between μ1 and μ2 is statistically unimportant with the
significance level α = 0.05.
Výpočet experimentální hodnoty statistického kritéria pro případ c2):
The calculation of statistical criterion experimental value for the case c2):
texp =  2,298,
texp  W
texp =  2.298,
texp  W
Interpretace výsledku:
Experimentální hodnota texp patří do kritického oboru, na hladině statistické
významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1
a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS.
Rozdíl mezi μ1 a μ2 je na hladině významnosti α = 0,05 statisticky významný.
The result interpretation:
The experimental value texp belongs to the critical domain, on the significance level
α = 0.05 it isn´t possible to accept the zero hypothesis H0. The investigated selective set SSS1
and the additional selective set SSS2 couldn´t be selected from one and the same external set
BSS. The difference between μ1 and μ2 is statistically important with the significance level
α = 0.05.
d) Zadaný příklad - testování hypotézy o rovnosti rozptylů
d) Assigned example – testing hypotheses about equality of variances
Obdobné sledování exportní schopnosti jako u zadaného příkladu (zde byl zkoumán
výběrový statistický soubor VSS1 n1 = 50 pacientů s výsledkem Sx12 = σ12 =1,01) vedlo
u n2 = 100 pacientů k průměrné exportní schopnosti, která umožnila výpočet rozptylu
d1) Sx22 = σ22 = 1, d2) Sx22 = σ22 = 1,631. Zjistěte, zda tento výběrový statistický soubor VSS2
mohl být na hladině významnosti α = 0,05 vybrán z téhož základního statistického souboru
ZSS jako soubor VSS1.
An analogous observation of the export ability as within the assign example (here it
was investigated the selective statistical set SSS1 n1 = 50 enterprises with the result
Sx12 = σ12 =1.01) has led to the average export ability for n2 = 100 enterprises which enabled
the calculation of variance d1) Sx22 = σ22 = 1, d2) Sx22 = σ22 = 1.631. Determine if this selective
statistical set SSS2 could be, for the statistical significance level α = 0.05, selected from the
same basic statistical set BSS as the set SSS1.
Bude použit dvojvýběrový F-test (s pravostranným kritickým oborem W):
The two-selective F-test (with the right-sided critical domain W) will be used:
Fexp 
S x12
, W   Fn1 1,n2 1   ; ) pro případ d1),
Sx 22
Fexp 
Sx 22
, W   Fn1 1,n2 1   ; ) pro případ d2).
S x12
Fexp 
S x12
, W   Fn1 1,n2 1   ; ) for the case d1),
Sx 22
Fexp 
Sx 22
, W   Fn1 1,n2 1   ; ) for the case d2).
S x12
72
Formulace nulové a pravostranné alternativní hypotézy:
The formulation of the zero and right-sided alternative hypothesis:
H0: σ1 = σ2, tj. Sx1 = Sx2
Ha: σ1 > σ2, tj. Sx1 > Sx2 (případ d1))
H0: σ2 = σ1, tj. Sx2 = Sx1
Ha: σ2 > σ1, tj. Sx2 > Sx1 (případ d2))
H0: σ1 = σ2, i.e. Sx1 = Sx2
Ha: σ1 > σ2, tj. Sx1 > Sx2 (the case d1))
H0: σ2 = σ1, i.e.. Sx2 = Sx1
Ha: σ2 > σ1, tj. Sx2 > Sx1 (the case d2))
Určení kritické hodnoty a pravostranného kritického oboru:
The determination of critical value and right-sided critical domain:
F49,99(0,05) = 1,545, W =  1,545; ∞)
F49,99(0.05) = 1.545, W =  1.545; ∞)
Výpočet experimentální hodnoty statistického kritéria pro případ d1):
The calculation of statistical criterion experimental value for the case d1):
Fexp = 1,01, Fexp  W
Fexp = 1.01, Fexp  W
Interpretace výsledku:
Experimentální hodnota Fexp nepatří do kritického oboru, na hladině statistické
významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1
a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS.
Rozdíl mezi Sx12 = 1,01 a Sx22 = 1 je na hladině významnosti α = 0,05 statisticky nevýznamný.
The result interpretation:
The experimental value Fexp doesn´t belong to the critical domain, it is possible to
accept the zero hypothesis H0 for the significance level α = 0.05. The investigated selective
statistical set SSS1 and the additional selective set SSS2 could be selected from one and the
same external set BSS. The difference between Sx12 = 1.01 and Sx22 = 1 is statistically
unimportant with the significance level α = 0.05.
Výpočet experimentální hodnoty statistického kritéria pro případ d2):
The calculation of statistical criterion experimental value for the case d2):
Fexp = 1,615, Fexp  W
Fexp = 1.615, Fexp  W
Interpretace výsledku:
Experimentální hodnota Fexp patří do kritického oboru, na hladině statistické
významnosti α = 0,05 lze odmítnout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1
a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS.
Rozdíl mezi Sx12 = 1,01 a Sx22 = 1,631 je na hladině významnosti α = 0,05 statisticky
významný.
The experimental value Fexp belongs to the critical domain, on the significance level
α = 0.05 it is possible to refuse the zero hypothesis H0. The investigated selective set SSS1 and
the additional selective set SSS2 couldn´t be selected from one and the same external set BSS.
The difference between Sx12 = 1.01 and Sx22 = 1.631 is statistically important with the
significance level α = 0.05.
73
2.3. Měření statistických závislostí – některé základy regresní a korelační analýzy
2.3. Measurement of statistical dependences – some fundaments of regression
and correlation analysis
Cíle: Goals:
Zkoumání asociací: Statistická závislost - kauzální, nekauzální
Association investigation: Statistical dependence – causal, non-causal
Asociační obraz výběrového statistického souboru: Regresní analýza, Korelační analýza
Association picture of selective statistical set: Regression analysis, Correlation analysis
Osvojované pojmy a poznatky:
Acquired concepts and knowledge pieces:
Jednorozměrný a vícerozměrný výběrový statistický soubor
Simple and multiple selective statistical set
Statistická závislost
Statistical dependence
Jednoduchá a vícenásobná regresní závislost
Simple and multiple regression dependence
Lineární a nelineární regeresní závislost
Linear and nonlinear regression dependence
Regresní analýza
Regression analysis
Jednoduchá a vícenásobná korelace
Simple and multiple correlation
Korelační analýza
Correlation analysis
Pearsonův korelační koeficient
Pearson´ correlation coefficient
74
Kontrolní otázky: Check questions:
Jaký je rozdíl mezi jednorozměrným a vícerozměrným statistickým souborem
What is the difference between simple and multiple statistical set
Co je to statistická závislost
What is the statistical dependence
Jaký je rozdíl mezi jednoduchou a vícenásobnou regresní a korelační analýzou
What is the difference between simple and multiple regression and correlation analysis
V čem spočívají základní úkoly regresní analýzy
Wherein do the regression analysis basic tasks lie
V čem spočívají základní úkoly korelační analýzy
Wherein do the correlation analysis basic tasks lie
Co je to metoda nejmenších čtverců
What is the method of the least squares
Jaká je soustava normálních rovnic pro jednoduchou lineární a kvadratickou regresi
What is the normal equations system for simple linear and quadratic regression
Jaký je rozdíl mezi Pearsonovým korelačním koeficientem a indexem korelace
What is the difference between Pearson´ correlation coefficient and correlation index
2.3.1. Vymezení problému
2.3.1. Delimitation of problem
Dosud byl zkoumán jednorozměrný výběrový soubor VSS, u statistických jednotek
tohoto souboru byl šetřen jen jeden statistický znak SZ. Měření statistických závislostí je
spojeno s vícerozměrným výběrovým souborem VSS, u statistických jednotek bude souběžně
zkoumáno více statistických znaků.
The simple selective set SSS was investigated hitherto, only one statistical sign was
explored for the statistical units of this set. The statistical dependences measurement is
connected with a multiple selective set SSS, it will be simultaneously explored more
statistical signs for the statistical units.
Statistická závislost mezi znaky x, s je dána předpisem, který naměřeným nebo
zadaným hodnotám znaku x (hodnoty znaku x nemusí mít charakter náhodné veličiny)
přiřazuje právě jedno empirické rozdělení četností statistického znaku s (hodnoty znaku s
naopak musí vykazovat charakter náhodné veličiny).
The statistical dependence between the signs x, s is given by an instruction which
assigns exactly one empirical distribution of the frequencies of statistical sign s (the values of
sign s have to show the character of a random variable) to measured or entered values of sign
x (the values of sign x contrarily not has to have the character of a random variable).
75
Jednoduchou (párovou) regresní závislostí se pak obecně rozumí jednostranná závislost
dané náhodné veličiny s na jiné veličině x (nikoliv nutně náhodné) - jde o zkoumání
dvojrozměrného výběrového statistického souboru VSS. Vícenásobnou (mnohonásobnou)
regresní závislostí je závislost dané náhodné veličiny s na větším počtu jiných veličin
x, y, z, … (nikoliv nutně náhodných) - jde o zkoumání vícerozměrného souboru VSS.
The simple (paired) regression dependence then generally is one-sided dependence of
the given random variable s on another variable x (not necessarily random) – the point is an
inestigation of two-dimensional selective statistical set SSS. The multi-dimensional
(multiple) regression dependence is the dependence of given random variable s on the larger
number of another variable x, y, z, … (not necessarily random) – the point is an investigation
of multiple set SSS.
Užším pojmem než "regresní závislost" je pojem "korelační závislost". Jednoduchou
(párovou) korelací lze chápat jako vzájemnou závislost dvou náhodných veličin (dvou
statistických znaků x, s), která je spojena při změně hodnot jednoho statistického znaku (buď
x nebo s) se změnou aritmetického průměru vyplývajícího ze šetření druhého statistického
znaku (buď s nebo x). Ve vazbě na závislost většího počtu náhodných veličin (statistických
znaků) by bylo možné obdobně definovat vícenásobnou (mnohonásobnou) korelaci.
The concept “correlation dependence” is the narrower concept than “regression
dependence”. The simple (paired) correlation can be understood as the mutual dependence of
two random variables (two statistical signs x, s) which is associated, for a change of values of
one statistical sign (either x or s), with a change of the arithmetic mean deduced from the
exploration of the second statistical sign (either s or x). In the continuity with the dependence
of larger number of random variables (statistical signs) it would be possible analogously to
define the multiple correlation.
Definice regresní a korelační závislosti se odlišují od definic funkcí o jedné nebo více
proměnných, tedy od definic funkčních závislostí.
The definitions of regression and corretation dependence are different from the
definitions of the functions of one or more variables, and so from the functional dependences.
Část matematické statistiky, která se zabývá studiem regresních a korelačních závislostí
se nazývá regresní a korelační analýza.
The part of mathematical statistics, which deals with the study of regression and
correlation dependences, is called regeression and correlation analysis.
Základní úkoly regresní analýzy spočívají v nalezení vhodné teoretické regresní funkce
k vystižení sledované závislosti, v bodových a intervalových odhadech parametrů a hodnot
teoretické regresní funkce a v ověřování souladu regresní funkce s experimentálními údaji.
Podle typu hledané vhodné teoretické regresní funkce lze hovořit také o typech regresní
analýzy – např. o polynomické regresi, exponenciální regresi, logaritmické regresi,
hyperbolické regresi apod. Další výklad bude zaměřen jen na hledání vhodných teoretických
regresních funkcí.
The basic tasks of regression analysis consist in the detection of suitable regression
function for the expression of observed dependence, in the point and interval estimation of
the parameters and the values of theoretical regression function and in the verification of
harmony of regression function with experimental data. According to the type of the
appropriate theoretical regression function it can be spoken also about the types of regression
analysis – e.g. on polynomial regression, exponential regression, logarithmic regression,
76
hyperbolic regression and the like. The following explanation will be aimed at the seeking of
the suitable theoretical regression functions
Základní úkoly korelační analýzy spočívají v měření těsnosti (síly, intenzity) korelace.
Problematika jednoduché lineární a nelineární korelace je obvykle zkoumána za předpokladu,
že změny náhodných veličin x, s (statistických znaků x, s) jsou dobře vystiženy lineární nebo
nelineární regresní funkcí. Rovněž při zkoumání vícenásobné (mnohonásobné) korelace se
vychází z popisu závislosti, který je dán regresní funkcí. Úkoly korelační analýzy lze pak
převést na hledání vhodných korelačních koeficientů jako základních měr těsnosti daného
typu korelace. Vedle korelačních koeficientů spojených s metrickými škálami je rovněž
podstatné zkoumání koeficientů pořadové korelace – ty vycházejí z ordinálních škál. Další
výklad bude zaměřen jen na používání jednoduchého vztahu pro koeficient lineární korelace.
The basic tasks of correlation analysis consist in the measurement of correlation
tightness (strength, intensity). The problems of simple linear and non-linear correlation is
usually investigated, provided that the changes of random variables x, s (statistical signs x, s)
are correctly expressed by linear or non-linear regression function. Also for an investigation
of multiple correlation it is worked on the dependence description which is given by
regression function. The tasks of correlation analysis can be then transferred to the seeking of
correlation coefficients as the basic measures of tightness of the given correlation type. In
addition to using the correlation coefficients associated with the metric scales it is also
essential to explore the coefficients of ordinal correlation – these are worked on the ordinal
scales. The following explanation will be aimed only at the use of a simple relation for the
linear correlation coefficient.
Při redukci počtu zkoumaných statistických znaků na dva lze problém měření
regresních závislostí popsat ve zjednodušené podobě. Dvojrozměrný výběrový statistický
soubor VSS je spojen se šetřením dvou statistických znaků SZ-x a SZ-s. Se znakem x je
spojena metrická škála s prvky x1, x2, …, xn (prvky škály byly měřeny a výsledky těchto
měření jsou dány absolutními četnostmi jednotlivých prvků), se znakem s pak výsledky
měření s1, s2, …, sn (v těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené
u znaku x). Tím jsou k dispozici výsledky měření ve formě n uspořádaných dvojic xi, si.
On the basis of the reduction of the number of investigated statistical signs of the two
the problem of regression dependences measurement can be described in a simplified form.
Two-dimensional selective statistical set SSS is connected with the exploration of two
statistical signs SS-x and SS-s. The metric scale with elements x1, x2, …, xn is associated with
the sign x (the elements of scale were measured and the results of these measurements are
given by the absolute frequencies of individual elements), the measurement results
s1, s2, …, sn are then connected with the sign s (the absolute frequencies measured for the
sign x are included in these results). By this way the measurement results are at disposal in
the form of n ordered pairs xi, si.
Při popsaném zjednodušení lze při měření závislostí mezi znaky SZ-x a SZ-s použít
metodu nejmenších čtverců (podmínkou je, aby chyby měření znaku SZ-s, jehož hodnoty
vykazují charakter speciální náhodné veličiny, měly nulovou střední hodnotu a stejný, sice
neznámý, ale konečný rozptyl). Nechť je v rámci jednoduché regrese teoretická regresní
funkce popsána obecně rovnicí y = f(x). Pak lze součet nejmenších čtverců vyjádřit vztahem
S = Σ(si - yi)2, kde yi jsou hodnoty funkce y = f(x) odpovídající hodnotám
x = xi. Metoda nejmenších čtverců pak spočívá v hledání regresní funkce y = f(x)
prostřednictvím minimální hodnoty součtu S.
77
On the basis of described simplification it is possible to use the method of least squares
in measuring the dependence between the signs SZ-x and SZ-s (the condition is that the
measurement errors of sign SZ-s, whose the values show the character of special random
variable, have the zero mean value and the same, although unknown, but the final variance).
Let the theoretical regression function generally described within the simple regression by an
equation y = f(x). The summation of least squares can be then expressed by relation
S = Σ(si - yi)2 where yi are the values of function y = f(x) corresponding to the values x = xi.
The method of least squares then consists in the seeking of regression function y = f(x) by
means of the minimum value of summation S.
2.3.2. Jednoduchá lineární a kvadratická regresní analýza
2.3.2. Simple linear and quadratic regression analysis
Způsob hledání regresní funkce bude popsán prostřednictvím grafického vymezení
problému na obrázku Obr.5 „Jednoduchá lineární regresní analýza“. Na tomto obrázku se
vychází z n = 5 uspořádaných dvojic xi, si, které charakterizují statistickou závislost mezi
statistickými znaky SZ-x a SZ-s. Na vodorovnou osu jsou nanášeny prvky škály x1, x2, …, x5
spojené se znakem x. Na svislou osu jsou nanášeny výsledky měření s1, s2, …, s5 znaku s (v
těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené u znaku x). Uspořádané
dvojice xi, si jsou souřadnicemi pěti bodů A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4,
A5 x5, s5. Těchto 5 bodů graficky vystihuje závislost mezi znaky SZ-x a SZ-s. Cílem
jednoduché lineární regresní analýzy je tuto statistickou závislost vystihnout přímkou, jejíž
analytické vyjádření y = f(x) je dáno obvyklým tvarem pro polynomickou funkci 1. řádu
y = b0 + b1.x.
The way of the regression function seeking will be described by means of the graphical
delimitation of problem in the figure Fig.5 “Simple linear regression analysis”. In this figure it
is work on n = 5 of the ordered pairs xi, si, which characterize the statistical dependence
between statistical signs SS-x and SS-s. The scale elements x1, x2, …, x5, connected with the
statistical sign x, are deposited on the horizontal axis. The measurement results s1, s2, …, s5 of
the sign s (the absolute frequencies, measured for the sign x, are already included in these
results) are deposited on the vertical axis. The ordered pairs xi, si are the coordinates of five
points A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5. These 5 points graphically
express the dependence between the signs SS-x and SS-s. The goal of simple linear regression
analysis is to express this statistical dependence by the straight line the analytical expression
of which is given by the usual form y = b0 + b1.x for polynomial function of the 1.order.
78
Obr.5 Jednoduchá lineární regresní analýza
Fig.5 Simple linear regression analysis
Metoda nejmenších čtverců směřuje k hledání minimální hodnoty výrazu S = Σ(si – yi)2,
v němž sčítací index i nabývá hodnot i = 1, 2, …, 5. Za yi bude dosazeno yi = b0 + b1.xi
a bude hledáno minimum funkce S, která je funkcí dvou proměnných b0 a b1,
tj. S = g(b0, b1).
The least squares method is aimed at the seeking of minimum value of expression
S = Σ(si – yi)2 in which the adding index i acquires the values i = 1, 2, …, 5. Through yi it will
be installed yi = b0 + b1.xi and it will be looked for the minimum of function S which is the
function of two variables b0 a b1, i.e. S = g(b0, b1).
Podmínky pro hledání minima jsou dány provedením parciálních derivací funkce
S podle obou proměnných a jejich anulováním (pro zájemce o přesné hledání extrémů funkcí
o více proměnných lze doporučit, aby se seznámili se Sylvestrovou větou z oblasti
matematické analýzy).
The conditions for the seeking of minimum are given by the realization of partial
derivatives of function S according to both variables and by their annulment (for the persons
interested in the exact seeking of function extremes with more variables it is possible to
recommend to acquaint themselves with Sylvestr´ theorem from the area of mathematical
analysis).
79
Podmínky pro hledání minima funkce S lze tedy zapsat ve tvaru
The conditions for the seeking of minimum of function S can be recorded in the form
S
S
= 0,
= 0.
b1
b 0
Získaná soustava rovnic se nazývá soustava normálních rovnic pro jednoduchou lineární
regresi a po provedení derivací nabývá známého tvaru
Obtained system of the equations is called the system of normal equations for simple
linear regression and after the realization of derivatives it acquires the known form
si = nb0 + b1xi
sixi = b0xi + b1xi2.
Sčítací index i obecně nabývá hodnot i = 1, 2, …, n. Vyřešením soustavy normálních
rovnic lze získat hodnoty parametrů b0, b1, zapsat rovnici přímky y = b0 + b1.x.
Prostřednictvím získané regresní funkce lze pak činit podle obrázku Obr.5 předpovědi
hodnot si odpovídající příslušným hodnotám xi pro i  5. Předpovědi těchto časových nebo
i srovnávacích trendů by nebyly možné bez provedení lineární regresní analýzy.
The adding index i generally acquires the values i = 1, 2, …, n. The values of
parameters b0, b1 can be obtained through the solution of normal equations system and then it
is possible to record the straight line equation y = b0 + b1.x. The predictions of values si
corresponding with the relevant values xi for i  5 can be then done according to the figure
Fig.5 through the obtained regression function. The predictions of the time or also the
comparative trends would not be possible without the realization of linear regression analysis.
Obdobným způsobem lze vyložit základy jednoduché kvadratické regrese. V tomto
případě by zkoumaná statistická závislost byla vystihována polynomickou funkcí 2.řádu,
jejímž grafem je parabola. Analytické vyjádření y = f(x) paraboly je dáno rovnicí
y = b0 + b1x + b2x2, metoda nejmenších čtverců vede opět k hledání minima funkce
S = Σ (si – yi)2. Tato funkce je funkcí již tří proměnných S = h(b0,b1,b2), k nalezení minima
jsou již potřebné tři parciální derivace a jejich anulování vede k soustavě normálních rovnic
By the analogous way it is possible to explain the fundaments of simple quadratic
regression. In this case the investigated statistical dependence would be expressed by
polynomial function of 2.order the graph of which is a parabola. The analytical expression
y = f(x) of a parabola is given by the equation y = b0 + b1x + b2x2, the method of least squares
leads again to the seeking of minimum of function S = Σ (si – yi)2. This function
S = h(b0,b1,b2) is function of three variables, for the discovery of minimum the three partial
derivatives are already needful and their annulment leads to the normal equations system
S
S
S
=0 
=0 
= 0.
 b0
 b1
 b2
Po provedení derivací nabývá soustava normálních rovnic pro jednoduchou
kvadratickou regresi tvaru
After the realization of derivatives the normal equations system for simple quadratic
regression acquires the form
80
si = nb0 + b1xi + b2xi2
sixi = b0xi + b1xi2 + b2xi3
sixi2 = b0xi2 + b1xi3 + b2xi4.
Sčítací index i nabývá pro obrázek Obr.5 (v případě kvadratické regrese by ovšem
skupina bodů A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5 měla tvarově místo
přímky mapovat průběh paraboly) hodnot i = 1, 2, …,5, v obecném případě pak hodnot
i = 1, 2, …, n. Vyřešením soustavy normálních rovnic lze získat hodnoty parametrů b0, b1, b2,
zapsat rovnici paraboly y = b0 + b1.x + b2.x2. Prostřednictvím získané regresní funkce lze pak
činit podle obrázku Obr.5 předpovědi hodnot si odpovídající příslušným hodnotám xi pro
i  5. Předpovědi těchto časových nebo i srovnávacích trendů by nebyly možné bez provedení
kvadratické regresní analýzy.
The adding index i acquires the values i = 1, 2, …,5 in the figure Fig.5, in the general
case then the values i = 1, 2, …, n (in the case of quadratic regression the group of points
A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5 should naturally map the progress of
the parabola instead of the straight line). The values of parameters b0, b1, b2 can be obtained
by the solution of normal equations system and then it is possible to record the parabola
equation y = b0 + b1.x + b2.x2. The predictions of values si corresponding with the relevant
values xi for i  5 can be then done according to the figure Fig.5 by means of obtained
regression function. The predictions of the time or also the comparative trends would not be
possible without the realization of quadratic regression analysis.
2.3.3. Jednoduchá lineární a kvadratická korelační analýza
2.3.3. Simple linear and quadratic correlation analysis
K vymezení problému je opět možné použít grafické cesty naznačené prostřednictvím
obrázku Obr.5. Po provedení jednoduché lineární regresní analýzy (výsledek naznačen na
Obr. 5 zakreslenou přímkou) je možné přistoupit k zjišťování těsnosti statistické závislosti
mezi statistickými znaky SZ-x a SZ-s zkoumaného výběrového statistického souboru VSS.
For the delimitation of problem it is again possible to use the graphical way indicated
by means of the figure Fig.5. After the realization of simple linear regression analysis (the
result is indicated by the drawn straight line in Fig.5) it is possible to approach to the
determination of statistical dependence tightness between the statistical signs SS-x and SS-s
of investigated selected statistical set SSS.
Nejužívanější měrou těsnosti jednoduché lineární korelace je Pearsonův korelační
koeficient kxs. Tento koeficient je dán vztahem
kxs =
Sxs
,
Sx.Ss
nabývá hodnot z intervalu k xs  1, 1 (tento závěr lze snadno odvodit z tzv. Schwarzovy
nerovnosti). Hodnoty blížící se hodnotě 1 zprava odpovídají případu pozitivní korelace
(hodnoty obou statistických znaků SZ-x a SZ-s současně rostou nebo klesají, tomuto případu
odpovídá obrázek Obr.5). Hodnoty blížící se hodnotě –1 zleva popisují korelaci negativní
(zatímco hodnoty jednoho statistického znaku rostou, hodnoty druhého znaku klesají).
Hodnoty kolem 0 naznačují, že znaky nekorelují (nelze vysledovat žádné společné trendy
81
v nárůstech či poklesech hodnot znaků). Pearsonův korelační koeficient jako empirický
parametr má charakter náhodné veličiny a může být používán jako bodový odhad
teoretického korelačního koeficientu.
The most used measure of simple linear correlation tightness is Pearson´correlation
coefficient kxs. This coefficient is given by relation
kxs =
Sxs
,
Sx.Ss
it acquires the values from interval k xs  1, 1 (this conclusion can be easily deduced
from so called Schwarz´ inequality). The values approaching to 1 from the right correspond
with the case of positive correlation (the values of both statistical signs SS-x and SS-s
increase or decrease at the same time, the figure Fig.5 is connected with this case). The
values approaching to –1 from the left describe the negative correlation (while the values of
one statistical sign are increasing the values of the second sign are decreasing). The values
around 0 indicate the signs don´t correlate (it is possible to express no collective trends in the
increases or the decreases of the signs values). The Pearson´ correlation coefficient as the
empirical parameter has the character of a random variable and it can be used as a point
estimation of theoretical correlation coefficient.
Ve vztahu pro Pearsonův korelační koeficient se vyskytuje vedle obvyklých
směrodatných odchylek Sx a Ss (tj. odmocnin centrálních momentů C2(x) a C2(s)) spojených
se zkoumáním znaků SZ-x a SZ-s také smíšený centrální moment 2.řádu C2(x,s) = Sxs.
Smíšený centrální moment 2.řádu je definován vztahem (k je počet prvků škály pro oba
statistické znaky)
S xs  
ni
 xi  O1x  si  O1s  , kde sčítací index i nabývá obecně hodnot i = 1, 2, …, k.
n
In the relation for Pearson´ correlation coefficient the mixed central moment
C2(x,s) = Sxs of 2.order also occurs in addition to the usual standard deviations Sx and Ss (i.e.
the square roots of central moments C2(x) and C2(s)) connected with the investigation of
statistical signs SS-x and SS-s. The mixed central moment of 2.order is defined by relation
(k is number of scale elements for both statistical signs)
ni
 xi  O1x  si  O1s  , where the adding index i acquires commonly values
n
i = 1, 2, …, k.
S xs  
Vedle Pearsonova korelačního koeficientu jsou k měření těsnosti jednoduché lineární
korelace používány i jiné veličiny (např. velikost menšího z úhlu sevřeného sdruženými
regresními přímkami nebo koeficient determinace). Pro měření jednoduché kvadratické
korelace (statistická závislost je vystižena kvadratickou regresní funkcí) je používán „index
korelace“. Vztahu pro „index korelace“ lze použít i pro zkoumání jiných jednoduchých
nelineárních korelací – do tohoto vztahu je pouze zapotřebí dosadit místo kvadratické
regresní funkce použitou regresní funkci.
Apart from the Pearson´ correlation coefficient the other quantities are also used for the
measurement of simple linear correlation tightness (e.g. the size of the smaller of the angles
82
included by the associated regression straight lines or the determination coefficient). The
“index of correlation” is used for the measurement of simple quadratic correlation (the
statistical dependence is expressed by quadratic regression function). The relation for
correlation index can be used also for the investigation of other simple non-linear correlations
– within this relation it is only necessary to install the used regression function instead of
quadratic regression function.
2.3.4. Ilustrace měření závislostí
2.3.4. Illustration of dependence measurement
a) Jednoduchá lineární regrese
a) Simple linear regression
Sledování ekonomického stavu u zadaného příkladu (byl zkoumán výběrový statistický
soubor VSS o rozsahu n = 50 podniků, u podniků byl šetřen statistický znak SZ-x „stupeň
exportní schopnosti“) bylo spojeno se sledováním druhého statistického znaku SZ-s
s použitím obdobné metrické škály (prvek škály 1 odpovídá nejlepší hodnotě, bylo provedeno
elementární statistické zpracování). Zjištěné hodnoty xi (stupně rozvinutosti) a si (ohodnocení
vhodného parametru ekonomického stavu) jsou uvedeny v tabulce. Cílem je odhadnout typ
regresní závislosti obou řad statistických údajů, vyjádřit ji vhodnou regresní funkcí a zjistit
těsnost korelace pomocí vhodného koeficientu.
The observation of economical state within the assigned example (it was investigated
the selective statistical set SSS with the extent n = 50 enterprises, the statistical sign SS-x
“export ability” was explored for the enterprises) was connected with the observation of the
second statistical sign SS-s on the basis of use of the analogous metric scale (the scale
element 1 corresponds with the best value, it was realized the elementary statistical
processing). The determined values xi (the development degrees) and si (the evaluation of
suitable parameter of the economical state) are presented in the table. The goal is to estimate
the type of regression dependence of both statistical data, to express it by suitable regression
function and to determine the tightness of correlation by means of suitable coefficient.
Znak SZ-x: hodnoty xi
The sign SS-x: values xi
1
2
3
4
5
Znak SZ-s: hodnoty si
The sign SS-s: values si
1,8
2,2
3,8
4,2
4,6
Odhadnutý typ regresní závislosti:
Jednoduchá lineární regrese vyjádřená regresní přímkou y = b0 + b1.x
The estimated type of regression dependence:
The simple linear regression expressed by regression straight line y = b0 + b1.x
Soustava normálních rovnic pro lineární regresi:
Thy system of normal equations for the linear regression:
si = nb0 + b1xi
sixi = b0xi + b1xi2
83
Soustava normálních rovnic po konkrétní případ:
The system of normal equations for the concrete case:
5b0 + 15b1 = 16,6 (5b0 + 15b1 = 16.6)
15b0 + 55b1 = 57,4 (15b0 + 55b1 = 57.4)
Nalezení regresní funkce:
The discovery of regression function:
y = 1,48 + 0,64.x (y = 1.48 + 0.64.x)
Zkoumání trendů:
Pro hodnotu xi = 6 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 5,32 znaku
SZ-s (z vyššího stupně rozvinutosti lze vypočítat zvýšenou hodnotu příslušného parametru
ekonomického stavu)
The investigation of trends:
After the installment of sign SS-x value xi = 6 it is possible to calculate the corresponding
value si = 5,32 of sign SS-s (on the basis of the greater degree of development it is possible to
calculate the increased value of relevant parameter of the economical state)
Výpočet koeficientu korelace:
- Hodnoty dané elementárním statistickým zpracováním obou statistických znaků vycházejí
Ss = 1,166, O1s  3,02 , Sx = 1,015, O1x  2,5
- Výpočet smíšeného centrálního momentu 2. řádů dává hodnotu Sxs = 0,763
- Dosazení do vztahu pro Pearsonův koeficient umožňuje získat těsnost korelace
Sxs
kxs =
= 0,645
Sx.Ss
- Interpretace výsledku – těsná pozitivní korelace
The calculation of correlation coefficient:
- The values given by the elementary statistical processing of both statistical signs are equal
to Ss = 1.166, O1s  3.02 , Sx = 1.015, O1x  2.5
- The calculation of mixed central moment of 2.order gives the value Sxs = 0.763
- The installment into the relation for Pearson´ coefficient enables to determine the
Sxs
correlation tightness kxs =
= 0.645
Sx.Ss
- The interepretation of result – tight positive correlation
b) Jednoduchá kvadratická regrese
b) Simple quadratic regression
Sledování ekonomického stavu u zadaného příkladu (byl zkoumán výběrový statistický
soubor VSS o rozsahu n = 50 podniků, u podniků byl šetřen statistický znak SZ-x „stupeň
exportní schopnosti“) bylo spojeno se sledováním druhého statistického znaku SZ-s. Tento
znak byl popsán procentovým vyjádřením ve spojení s obdobnou metrickou škálu. Zjištěné
hodnoty xi (stupně rozvinutosti) a si (procentové ohodnocení vhodného parametru
ekonomického stavu) jsou uvedeny v tabulce. Cílem je odhadnout typ regresní závislosti obou
řad statistických údajů a vyjádřit ji vhodnou regresní funkcí.
84
The observation of economical state within the assigned example (it was investigated
the selective statistical set SSS with the extent n = 50 enterprises, the statistical sign SS-x
“export ability” was explored for the enterprises) was connected with the observation of the
second statistical sign SS-s. This sign was described by the percentage expression in
association with analogous metric scale. The determined values xi (the development degrees)
and si (the percentage evaluation of suitable parameter of the economical state) are presented
in the table. The goal is to estimate the type of regression dependence of both statistical data
and to express it by suitable regression function.
Znak SZ-x: hodnoty xi
The sign SS-x: values xi
Znak SZ-s: hodnoty si
The sign SS-s: values si
1
2
3
4
5
20 %
10 %
6%
2%
2%
Odhadnutý typ regresní závislosti:
Jednoduchá kvadratická regrese vyjádřená regresní parabolou y = b0 + b1x + b2x2
The estimated type of regression dependence:
The simple quadratic regression expressed by regression parabola y = b0 + b1x + b2x2
Soustava normálních rovnic pro kvadratickou regresi:
The system of normal equations for the quadratic regression:
si = nb0 + b1xi + b2xi2
sixi = b0xi + b1xi2 + b2xi3
sixi2 = b0xi2 + b1xi3 + b2xi4
Soustava normálních rovnic po konkrétní případ:
The system of normal equations for the concrete case:
xi
1
2
3
4
5
 15
xi2
1
4
9
16
25
55
xi3
1
8
27
64
125
225
5b0 + 15b1 + 55b2 = 40
15b0 + 55b1 + 225b2 = 76
55b0 + 225b1 + 980b2 = 196
xi4
1
16
81
256
625
979
si
20
10
6
2
2
40
sixi
20
20
18
8
10
76
sixi2
20
40
54
32
50
196
85
Nalezení regresní funkce:
The discovery of regression function:
- Nejdříve bude provedena úprava příslušných matic (dosažením nulových prvků pod hlavní
diagonálou)
- First, the adjustment of relevant matrices (through the achievement of zero elements under
the main diagonal) will be carried out
5
15
55
15 55
/ 40
55 225 / 76
225 980 / 196
5
0
0
15
10
60
55 / 40
60 / – 44
375 / – 244
5
0
0
15
10
0
55
60
15
/
40
/ – 44
/
20
- Na základě upravených matic lze provést výpočet hodnot koeficientů b0, b1, b2
b2 = 1,33, b1 = – 12,4, b0 = 30,54
- On the basis of adjusted matrices it is possible to carry out the calculation of coefficients
values b0, b1, b2
b2 = 1.33, b1 = – 12.4, b0 = 30.54
- Dosazením do obecné rovnice paraboly lze získat analytické vyjádření regresní paraboly
y = 1,33x2 – 12,4x + 30,54 a po úpravě obdržet tvar y = 1,33 (x – 4,7)2 + 1,21. Odtud jsou
zřejmé souřadnice vrcholu paraboly V [4,7; 1,21]
- By the installment into general equation of parabola it is possible to obtain the analytical
expression of regression parabola y = 1.33x2 – 12.4x + 30.54 and after the adjustment to
obtain the form y = 1.33 (x – 4.7)2 + 1.21. From here the coordinates V [4.7; 1.21] of the top
of the parabola are evident
- Nyní již může být sestrojen graf regresní paraboly jako výsledek provedené jednoduché
kvadratické regresní analýzy
- Now the graph of regression parabola can be already constructed as a result of realized
simple quadratic regression analysis
30
25
20
15
10
5
0
1
2
3
4
5
Zkoumání trendů:
Pro hodnotu xi = 0,5 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 24,67%
znaku SZ-s (z velmi vysokého stupně exportní schopnosti lze vypočítat vysokou hodnotu
příslušného parametru ekonomického stavu)
The investigation of trends:
The corresponding value si = 24.67% of sign SS-s can be calculated on the basis of
installment of sign SS-x value xi = 0.5 (from a very high degree of export ability it is possible
to calculate a high value of the relevant parameter of the economical state)
86
Část 3. Aplikace
Part 3. Applications
3.1. Description of statistical and probability base of financial options
3.1.1. Introduction
An imperative of data mining and a need of cooperation of the human with today´s computers
are emphasized by D.A.Keim (Keim, 2002):
“The progress made in hardware technology allows today´s computer systems to store very
large amounts of data. Researchers from the University of Berkeley estimate that every year 1 Exabyte
(= 1 Million Terabyte) of data are generated, of which a large portion is available in digital form. This
means that in the next three years more data will be generated than in all of human history before”.
“If the data is presented textually, the amount of data which can be displayed is in range one
hundred data items, but this is like a drop in the ocean when dealing with data sets containing millions
of data items”.
“For data mining to be effective, it is important to include the human in the data exploration
process and combine the flexibility, creativity, and general knowledge of the human with the
enormous storage capacity and the computational power of today´s computers.”
The financial derivatives are such derivative contracts in which the underlying securities
are financial instruments such as stocks, bonds or an interest rate. The important constituent
of financial derivatives is created by financial options. The statistical and probability base of
financial options is exactly processed.
The Black-Scholes model observes the evolution of the option´s key underlying
variables in continuous-time. The Binomial and Trinomial model (the simplest variants of
the Mulltinomial model) observe the evolution of the option's key underlying variables in
discrete-time.
The statistical and probability base of financial options is connected, above all, with the
Black-Scholes model and the Multinomial model. These statistical and probability
applications will be described by means of data mining approach.
3.1.2. Financial options
(quoted according to www.economywatch.com)
Financial options are those derivative contracts in which the underlying assets are
financial instruments such as stocks, bonds or an interest rate. The options on financial
instruments provide a buyer with the right to either buy or sell the underlying financial
instruments at a specified price on a specified future date. Although the buyer gets the rights
to buy or sell the underlying options, there is no obligation to use this option. However, the
seller of the contract is under an obligation to buy or sell the underlying instruments if the
option is used.
Two types of financial options exist, namely call options and put options. Under a call
option, the buyer of the contract gets the right to buy the financial instrument at the specified
price at a future date, whereas a put option gives the buyer the right to sell the same at the
specified price at the specified future date. The price that is paid by the buyer to the seller for
using this level of flexibility is called the premium (the fair price). The prescribed future price
is called the strike price.
87
The theoretical calculation of premium is connected namely with both the BlackScholes model (continuous statistical model based on normal distribution) and the Binomial
or Trinomial model (discrete statistical models based on binomial or trinomial distribution).
Financial options are either traded in an organized stock exchange or over-the-counter.
The exchange traded options are known as standardized options. The options exchange is
responsible for this standardization. This is done by specifying the quantity of the underlying
financial instrument, its price and the future date of expiration. The details of these
specifications may very vary from exchange to exchange. However, the broad outlines are
similar.
Financial options are used either to hedge against risks by buying contracts that will pay
out if something with negative financial consequences happens, or it allows the traders to
magnify the profits while the risks are limiting disadvantage.
Financial options involve the risk of losing some or all of the contract prices, if the market
moves against the trend expected, and counterpart risk, such as broker insolvency or contractors who
do not fulfil their contractual obligations.
3.1.3. Statistical and probability base of Black-Scholes model
(quoted according to “mars.wiwi.hu-berlin.de/ebooks/html/sfe/sfenode41.html.” and
“Zaskodny,P., Pavlat,V., Budik,J. (2007). Financial Derivates and Their Evaluation, Prague,
Czech Republic: University of Finance and Administration”)
The Black-Scholes model observes the evolution of the option´s key underlying
variables in continuous-time. This is done by means of both the standard normal probability
densities ρ(d1), ρ(d2) and the standard normal distribution functions N(d1), N(d2).
The variables d1, d2 are connected with Spot price S, Strike price X, Risk-Free Rate r,
Annual Dividend d, Time to Maturity τ, and Volatility σ.
The basic formulas for Black-Scholes model (Value Function – Fair Price for call option
is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”):
C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N   d 2   Se  d N  d1 
d1 
ln S
N  d1  
X

 r  d 
 
d1

2
2
 , d
2
 d1   
  d1  d  d1 , N  d 2  

d2
  d  d d 
2
2

2
2
1  d21
1  d22
  d1  
e ,   d2  
e
2
2
3.1.4. Statistical and probability base of Binomial and Trinomial model
(quoted according to “mars.wiwi.hu-berlin.de/ebooks/html/sfe/sfenode41.html.” and
“Zaskodny,P., Pavlat,V., Budik,J. (2007). Financial Derivates and Their Evaluation, Prague,
Czech Republic: University of Finance and Administration”)
The Binomial model observes the evolution of the option's key underlying variables in
discrete-time. This is done by means of a binomial tree, for a number of time steps between
88
the valuation and expiration dates (the number of time steps is marked “n”). Each node, in the
tree, represents a possible price of the underlying at a given point in time.
At each step, it is assumed that the underlying instrument will move up or down by
a specific factor (u or d) per step of the tree (where, by definition, u≥1 and 0<d≤1). So, if S is
the spot price, then in the next period the price will be either Sup = S.u or Sdown = S.d.
The number of up factors is marked “j”, the number of down factors is “n–j”.
X is the Strike price and S is the Spot price of the underlying security.
Under the risk neutrality assumption, today's fair price of a derivative is equal to the
expected value of its future payoff discounted by the risk-free rate. Therefore, expected value
is calculated using the option values from the later two nodes (Option up and Option down)
weighted by their respective probabilities – "probability" p of an up move in the underlying,
and "probability" (1-p) of a down move. The expected value is then discounted at q, the riskqd
free rate corresponding with the life of the option ( p 
).
ud
The basic formulas for Binomial model (Value Function – Fair Price for call option is
marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”):
C  
1
qn
n
 C
j 0
j
j
, Cj = max (0, Sj – X)
1 n
  j Pj , Pj = max (0, X – Sj)
q n j 0
n
n j
 j    p j 1  p 
j
 
 P 
S j  u j d n j S , S kj  u j d k  j S
n
n!
  
, m! 1.2.......m
 k  n  k !k!
qd
uq
.
p
,1  p 
ud
ud
The Trinomial model observes the evolution of the option's key underlying variables in
discrete-time. This is done by means of a trinomial tree, for a number of time steps between
the valuation and expiration dates (the number of time steps is marked “n”). Each node, in the
tree, represents a possible price of the underlying at a given point in time.
The fair price can be determined numerically. The Binomial model after Cox-RossRubinstein can be used. In this section it will be introduced a less complex but numerically
efficient approach based on trinomial trees. It is related to the classical numerical procedures
for solving partial differential equations, which are also used to solve the Black-Scholes
differential equations.
The Trinomial model follows the procedure of the binomial model whereby the price at
each time step can change to three instead of two directions.
At each step, it is assumed that the underlying instrument will move up or down by
a specific factor (e.g. two up factors u1, u2 and one down factor d) per step of the tree (where,
by definition, u1,u2≥1 and 0<d≤1). So, if S is the Spot price, then in the next period the price
will either be Su1 = S.u1, Su2 = S.u2 or Sd = S.d. The probability with which the price moves
from S to Su1, Su2, Sd is represented as p1, p2, p3 (p1+ p2+ p3 = 1).
The number of u1 factors is marked “j”, the number of u2 factors is marked “i”, and the
number of d factors is “n–j–i”.
89
The basic formulas for Trinomial model (Value Function – Fair Price for call option is
marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”):
1 n n
C   n   ij Cij , i  j  nmax
q i 0 j 0
Cij  max  0, Sij  X 
Sij  u1j u2i d n i  j S
n
n
S    ij Sij , i  j  nmax
i 0 j 0
n
n i  j
 ij    p1i p2j 1  p1  p2 
 ij 
n
n
 
i 0 j 0
ij
 1, i  j  nmax
n
n!
 
 ij  i ! j ! n  i  j !
3.1.5. Statistical and probability data mining tools – Normal, Binomial and Trinomial
distribution
a) Standard normal probability density ρ(x) and standard normal distribution
function N(x)
N  x 
x
   x  dx

2
1  x2
  x 
e
2
b) Binomial and Trinomial probability function
n
n j
 j    p j 1  p 
 j
n
n i  j
 ij    p1i p2j 1  p1  p2 
 ij 
3.1.6. Conclusion
The statistical and probability base of financial options as a part of statistical data mining
tools is created by
- Normal distribution,
- Binomial distribution,
- Trinomial distribution.
90
3.2. Description of statistical and probability base of Greeks
3.2.1. Introduction
In mathematical finance, the Greeks are the quantities representing the sensitivities of
derivatives such as options to a change in underlying parameters on which the value function
of an instrument or portfolio of financial instruments is dependent. The name is used because
the most common of these sensitivities are often denoted by Greek letters.
The Greeks in the Black-Scholes model are relatively easy to calculate, a desirable
property of financial models, and are very useful for derivatives traders, especially those who
seek to hedge their portfolios from unfavourable changes in market conditions. For this
reason, those Greeks which are particularly for Hedging Delta, Gamma and Vega are welldefined for measuring changes in Price, Time and Volatility.
The statistical and probability base of financial options is also connected with the
Greeks. These statistical applications will be described by means of data mining approach.
3.2.2. Greeks
(quoted according to http://en.wikipedia.org/wiki/Greeks_(finance) )
The Greeks are the quantities describing the sensitivities of financial options to
a change in underlying parameters on which the fair price (the value function) of an
instrument or portfolio of financial instruments is dependent. Collectively these have also
been called the Risk Sensitivities, Risk Measures or Hedge Parameters.
The Greeks are vital tools in Risk Management. Each Greek measures the sensitivity
of the fair price (the value function) of a financial instrument or portfolio to a small change in
a given underlying parameter, so that component risks may be treated in isolation, and the
portfolio rebalanced accordingly to achieve a desired state (see for example Delta Hedging).
According to 3.2.1. the Greeks in the Black-Scholes model are relatively easy to
calculate, a desirable property of financial models, and are very useful for derivatives traders,
especially those who seek to hedge their portfolios from adverse changes in market
conditions. For this reason, those Greeks which are particularly for Hedging Delta, Gamma
and Vega are well-defined for measuring changes in Price, Time and Volatility.
The most common of the Greeks are the first order derivates: Delta, Dual Delta, Vega,
Theta and Rho as well as Gamma, a second-order derivate of fair price (value function).
Although Rho is a primary input into the Black-Scholes model, the overall impact on the fair
price (the value function) of an option corresponding with changes in the risk-free rate is
generally insignificant and therefore higher-order derivates involving the risk-free interest rate
are not common.
The most used of the Greeks are some second order derivates: Gamma, Dual Gamma,
Vomma, Vanna, Charm, DvegaDtime. Also the most used of the Greeks are some third order
derivates: Speed, Zomma, Color, Ultima.
The Greeks in the Binomial model observe the evolution of the option's key
underlying variables in discrete-time. The most used of the Greeks are the Delta and Gamma.
Those Greeks are well-defined for Hedging Delta and Gamma.
The most common of the Greeks in the Black-Scholes and Binomial models are the
Delta, Vega, Theta and Gamma. The most used of the Option Hedging are the Hedging Delta
and Gamma. The remaining sensitivities (and hedging connected with them) in this list are
common enough that they have common names, but this list is by no means exhaustive.
91
3.2.3. Value function
(quoted according to Záškodný,P., Havlíček,I., Budinský,P. (2010-2011), Partial Data
Mining Tools in Statistics Education – in Greeks and Option Hedging (In: Tarábek,P.,
Záškodný,P. (2010-2011), Educational and Didactic Communication 2010, Bratislava,
Slovak Republic: Didaktis, www.didaktis.sk.)
According to 3.1.2. the financial options are those derivative contracts in which the
underlying assets are financial instruments such as stocks, bonds or an interest rate. The
options on financial instruments provide a buyer with the right to either buy or sell the
underlying financial instruments at a specified price on a specified future date. Although the
buyer gets the rights to buy or sell the underlying options, there is no obligation to exercise
this option. However, the seller of the contract is under an obligation to buy or sell the
underlying instruments if the option is exercised.
According to 3.1.2. two types of financial options exist, namely call options and put
options. Under a call option, the buyer of the contract gets the right to buy the financial
instrument at the specified price at a future date, whereas a put option gives the buyer the
right to sell the same at the specified price at the specified future date. The price that is paid
by the buyer to the seller for exercising this level of flexibility is called the premium (the fair
price, the value function). The prescribed future price is called the strike price.
The theoretical calculation of premium is connected namely with both the BlackScholes Model (continuous statistical model based on normal distribution) and the Binomial
or Trinomial Model (discrete statistical models based on binomial or trinomial distribution).
In this explanation the priority will be given to Black-Scholes Model.
The Black-Scholes model traces the evolution of the option´s key underlying variables
in continuous-time. This is done by means of both the standard normal probability densities
ρ(d1), ρ(d2) and the standard normal distribution functions N(d1), N(d2).
The variables d1, d2 are connected with Spot price S, Strike price X, Risk-Free Rate r,
Annual Dividend d, Time to Maturity τ, Volatility σ, and Annual Dividend Yield d.
Value Function V (as Fair Price or as Premium) can be expressed as a function of five
quantities V = f (S, X, r, τ, σ)
The basic formulas for Black-Scholes model (Value Function V – Fair Price for call
option is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”):
C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N   d 2   Se  d N  d1 
d1 
ln S
N  d1  
X

 r  d 
 
2
2
 , d
d1
2
 d1   
d2
   d  d  d , N  d      d  d  d 
1
1

2
2

2
2
1  d21
1  d22
  d1  
e ,   d2  
e
2
2
2
92
3.2.4. Segmentation and definitions of Greeks
a) Greeks of first order
The speeds of value function change:

V
S
V
X
V
  vega  

V


V

r
Dual  
b) Greeks of individual second order
The accelerations of value function change & the speeds of first order greeks change:
 2V
 2
S
 2V
X 2
 2V
Vomma 
 2
 2V
Out of Use  2

 2V
Out of Use  2
r
Dual  
c) Greeks of combined second order
The speeds of first order greeks change:
Vanna 
 2V
S 
Charm 
 2V
S 
 2V
DvegaDtime 
 
93
d) Greeks of third order
The speeds of second order greeks change:
 3V
S 3
 3V
Zomma  2
S 
 3V
Color  2
S 
 3V
Ultima 
 3
Speed 
3.2.5. Indications of Greeks
a) Greeks of First Order
V
 DvalueDspot
S
V
Dual  
 DvalueDstrike
X
V
  Vega  
 DvalueDvol

V

  DvalueDtime

V

 DvalueDrate
r

b) Greeks of Second Order
 2V 

 DdeltaDspot
S 2 S
 2V Dual
Dual  

 DdualdeltaDstrike
X 2
X
 2V 
Vomma 

 DvegaDvol
 2 
 2V
 
Vanna 


 DdeltaDvol  DvegaDspot
S   S

 2V
    
Charm 


 DdeltaDtime  D   theta  Dspot
S  
S
DvegaDtime 
    
 2V


 D   theta  Dvol  DvegaDtime
 


94
c) Greeks of Third Order
 3V   2 


 DgammaDspot
S 3 S S 2
 3V

 2
 2
Zomma  2



 DgammaDvol
S   S  S 2
Speed 
Color 
 2   
 3V

 2



 DgammaDtime
S 2   S 
S 2
Ultima 
 3V vomma  2


 DvommaDvol
 3

 2
3.2.6. Formulas for Greeks (CO – Call Option, PO – Put Option)
a) Formulas for Delta Greek 
CO  e d N  d1 
 PO  e d N  d1 
b) Formulas for Dual Delta Greek Dual 
Dual CO  e r N  d2 
Dual  PO  e r N  d2 
c) Formulas for Vega Greek 
 CO, PO  e d S   d1    Xe r   d2  
d) Formulas for Theta Greek 
S   d1  
CO  e d
 rXe r N  d 2 
2 
S   d1  
 PO  e d
 rXe r N  d 2 
2 
e) Formulas for Rho Greek 
CO   Xe r N  d2 
PO   Xe r N  d2 
f) Formula for Gamma Greek 
  d1 
CO , PO  e d
S 
g) Formula for Dual Gamma Greek Dual 
  d2 
Dual CO , PO  e r
X 
95
i) Formulas for Vomma Greek Vomma
dd
dd
Vomma CO , PO  Se d   d1   1 2   1 2


j) Formulas for Vanna Greek Vanna
d
d 
 d2

Vanna CO , PO  e d   d1  2  
 1  1 

S  S   
k) Formulas for Charm Greek Charm
2  r  d   d 2 
CharmCO  de d N  d1   e  d   d1 
2 
Charm PO  de d N  d1   e  d   d1 
2  r  d   d 2 
2 
l) Formulas for DvegaDtime Greek DvegaDtime

 r  d  d1  1  d1d 2 
DvegaDtimeCO , PO  e  d S   d1    d 

2 
 


 r  d  d1  1  d1d 2 
DvegaDtimeCO , PO    d 

2 
 

m) Formulas for Speed Greek Speed
 d   d
 d


SpeedCO , PO  e d 2 1  1  1    1  1
S  
S    


n) Formulas for Zomma Greek Zomma
  d1 
d d 1
Zomma CO , PO  e d
 d1d2  1    1 2 
2
S 
  
o) Formulas for Color Greek Color
  d1  
2  r  d   d 2  
ColorCO , PO  e d
d1 
 2d  1 

2S  
 

2  r  d   d 2  

ColorCO , PO    2d  1 
d1 

2 
 

p) Formulas for Ultima Greek Ultima
S   d1  
Ultima CO , PO  e d
d1d 2 d1d 2   2  1     d 2  d1 
2

Ultima CO , PO 
 
 


d d d d   2  1     d 2  d1 
2 1 2 1 2



96
3.2.7. Needful statistical and probability relations for deduction of Greeks formulas
a) Value Function
C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N  d 2   Se  d N  d1 
ln S
d1 
X

 r  d 
2
 

2
,d
2
ln S

X

 r  d 
2
2
 
d 2  d1   
b) Standard Normal Probability Densities
1
  d1  
2
e

d12
2
,   d2  
  d1     d 2  e  d   e
2
e d1


1

2
2
2
e

d 22
2
,   d 2     d1  e d1  e
S  r  2 2  d  d2
e
e ,e
X



S  r  2 2 d
e
e
X
c) Standard Normal Distribution Functions
N  d1  
d1

  d1  d  d1 , N  d 2  

d2
  d  d d 
2
2

N  d1   N  d1   1, N  d 2   N  d 2   1
N  d1 
d1
   d1  ,
N  d 2 
d 2
   d2 
3.2.8. Conclusion, References
The results of explanation:
- Description of Value Function as Fair Price
- Description of Greeks of First Order
- Description of Greeks of Second Order
- Description of Greeks of Third Order
- Names and Indications of Greeks
- Survey of Formulas for Greeks Calculation
- Survey of Needful Relations for Greeks Calculation
2
2

97
References
- Keim,D.A. (2002)
Information Visualization and Visual Data Mining.
IEEE Transactions on Visualization and Computer Graphics. Vol.7, No.1, January-March 2002
- Záškodný,P., Tarábek,P. (2010-2011)
Data Mining Tools in Statistics Education
In: Tarábek,P., Záškodný,P. (2010-2011), Educational and Didactic Communication 2010
Bratislava, Slovak Republic: Didaktis, ISBN 978-80-89160-78-5
www.didaktis.sk.
- Záškodný,P., Havlíček,I., Budinský,P. (2010-2011)
Partial Data Mining Tools in Statistics Education – in Greeks and Option Hedging
In: Tarábek,P., Záškodný,P. (2010-2011), Educational and Didactic Communication 2010
Bratislava, Slovak Republic: Didaktis, ISBN 978-80-89160-78-5
www.didaktis.sk.
98
3.3. Data mining tools in statistics education
3.3.1. Introduction
In the introduction of chapter 3.3. the quotations showing the importance of educational
data mining are presented. These quotations from i) to vi) are selected according to
C.Romero, S.Ventura (2006) (In: Tarábek,P., Záškodný,P. (2009) Educational and Didactic
Communication 2009, Bratislava, Slovak Republic: Didaktis, www.didaktis.sk,
ISBN 978-80-89160-69-3).
i) Currently there is an increasing interest in data mining and educational systems (well-known
learning content management systems, adaptive and intelligent web-based educational systems),
making educational data mining as a new growing research community
ii) After preprocessing the available data in each case, data mining techniques can be applied in
educational systems – statistics and visualization, clustering, classification and detection, association
rule mining and pattern mining, text mining
iii) Data mining oriented towards students – to show recommendations and to use, interact,
participate and communicate by students within educational systems
iv) Data mining oriented towards educators (and academic responsible-administrators) – to
show discovered knowledge and to design, plan, build and maintenance by educators (administrators)
within educational systems
v) Data mining tools provide mining algorithms, filtering and visualization techniques. The examples
of Data Mining tool:
- Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns
- Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification
- Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization
vi) Future research lines in educational data mining
- Mining tools more facilitate the application of data mining by educators or not expert users
- Standardization of data and methods (preprocessing, discovering, postprocessing)
- Integration with the e-learning system
- Specific data mining techniques
The main principle of chapter 3.3.:
Data Mining in Statistics Education (DMSTE) as Problem Solving
The main goal of chapter 3.3.:
Delimitation of Complex Tool and Partial Tool of DMSTE
The procedure of chapter 3.3.:
- Data Preprocessing in Statistics Education
- Data Processing in Statistics Education
- Complex Tool of DMSTE – Curricular Process (CP-DMSTE)
- Partial Tool of DMSTE – Analytical Synthetic Modelling (ASM-DMSTE)
- Application of CP-DMSTE and ASM-DMSTE
- Supplement describing the principles of data mining approach
99
The results of chapter 3.3.:
1. Educational Communication of Statistics as Result of Data Preprocessing
2. Educational Communication of Statistics as Five Transformations T1-T5 of Knowledge
from Statistics to Mind of Educant
3. Curricular Process of Statistics as Result of Data Processing
4. Curricular Process of Statistics as Structuring, Algorithm Development and Formalization
of Educational Communication of Statistics
5. Curricular Process as Succession of Five Transformations T1-T5 of Curriculum Variant
Forms
6. Curriculum Variant Forms as Forms of Education Content Existence
7. Formalization of Curriculum Variant Form (Four of Universal Structural Elements: Sense
and Interpretation, Set of Objectives, Conceptual Knowledge System, Factor of Following
Transformation)
8. Variant Forms of Curriculum – Conceptual Curriculum (Communicable Scientific System
of Statistics), Intended Curriculum (Educational System of Statistics), Projected
Curriculum (Instructional Project of Statistics and Its Textbook), Implemented
Curriculum-1 (Preparedness of Educator to Education), Implemented Curriculum-2
(Results of Education in Mind of Educant), Attained Curriculum (Applicable Results of
Education)
9. Curricular Process as CP-DMSTE (Structuring, Algorithm Development and
Formalization of Five Transformations Succession T1-T5)
10. Analytical Synthetic Modeling as ASM-DMSTE (Modeling Inputs and Outputs of
Transformations T1-T5)
11. Analytical Synthetic Models as Results of Problems Solving (Real or Mediated Problems)
12. Application of CP-DMSTE and ASM-DMSTE (Visualia of Conceptual Curriculum in
Area of Statistics with Concrete Basic Statistical Set, Need of Visualiae of All Curriculum
Variant Forms as Application of CP-DMSTE)
3.3.2. Data mining (see also Supplement of chapter 3.3.)
Data Mining – analytical synthetic way of extraction of hidden and potencially useful information
from large data files (continuum data-information-knowledge, knowledge discovery)
Data Mining Techniques – the system functions of structure of formerly hidden relations and patterns
(e.g. classification, association, clustering, prediction)
Data Mining Tool – a concrete procedure how to reach the intended system functions
Complex Tool – a resolution of complex problem of relevant science branch
Partial Tool – a resolution of partial problem of relevant science branch (e.g. analytical synthetic
modeling, needful mathematical or statistical procedures)
Result of Data Mining – a result of data mining tool application
Representation of Data Mining Result – a description of this what is expressed
Visualization of Data Mining Result – optical retrieval of data mining result
Data Mining Cycle – Data Definition, Data Gathering, Data Preprocessing, Data Processing,
Discovering Knowledge or Patterns, Representation and Visualization of Results
See P.Tarabek, P.Zaskodny, V.Pavlat, P.Prochazka, V.Novak, J.Skrabankova (2009-2010,
2009-2010abcde and quoted sources).
Quoted sources in 2009-2010abcde:
E.g. American Library Association, M.C.Borba, E.M.Villarreal, G.M.Bowen, W-M Roth, C.Brunk,
J.Kelly, R.Kohavi, Mineset, B.V.Carolan, G.Natriello, N.Delavari, M.R.Beikzadeh, S.PhonAmnuaisuk, U-D Ehlers, J.M.Pawlowski, U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth, J.Fox, D.Gabel,
J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.Van Driel, M.Reiner, M.Nakhleh, W.Hämäläinen,
T.H.Laine, E.Sutinen, M.Hesse, A.H.Johnstone, M.J.Kearns, U.V.Vazivani, D.A.Keim, R.Kwan,
100
R.Fox, FT Chan, P.Tsang, Le Jun, J.Luan, J.Manak, National research Council-NRC, R.Newburgh,
I.Nonaka, H.Takeuchi, C.J.Petroselli, E.F.Redish, D.Reisberg, C.Romero, S.Ventura, N.Rubenking,
R.E.Scherr, M.Sabella, D.A.Simovici, C.Djeraba, V.Spousta, L.Talavera, E.Gaudioso, E.R.Tufte,
J.Tuminaro, R.Vilalta, C.Giraud-Carrier, P.Brazdil, C.Soares, D.M.Wolpert.
3.3.3. Data preprocessing in statistics education
Result of Data Preprocessing – Educational Communication of Statistics
a succession of transformations of education content forms (taken over from physics education):
as
- The transformation T1 is transformation of scientific system of statistics to communicable
scientific system of statistics (the first form of education content existence),
- The transformation T2 is transformation of communicable scientific system of statistics to
educational system of statistics (the second form of education content existence),
- The transformation T3 is transformation of educational system of statistics to both instructional
project of statistics and preparedness of educator to education (the third and fourth forms of education
content existence),
- The transformation T4 is transformation of both instructional project of statistics and preparedness
of educator to results of education (the fifth form of education content existence),
- The transformation T5 is transformation of results of statistics education to applicable results of
statistics education (the sixth form of education content existence)
See J.Brockmeyer (1982), P.Zaskodny a kol. (2004, 2007), P.Tarabek, P.Zaskodny (2001, 20072008abc, 2008-2009, 2009-2010), P.Zaskodny (2001, 2006, 2009).
3.3.4. Data processing in statistics education
Result of Data Processing – Curricular Process of Statistics as a succession of transformations
of algorithmized and formalized education content forms (taken over from physics education):
i. The form of education content existence - “variant form of curriculum”
ii. The curriculum - “education content” (see Prucha, 2005)
iii. The variant forms of curriculum have got the universal structure (four structural elements sense and interpretation, set of objectives, conceptual knowledge system, factor of following
transformation)
iv. The variant forms of curriculum were selected on the basis of fusion of Anglo-American
curricular tradition and European didactic tradition
v. The curricular process is defined as the succession of transformations T1-T5 of curriculum
variant forms:
“conceptual curriculum” (output of T1, the first variant form of curriculum) - the communicable
scientific system
“intended curriculum” (output of T2, the second variant form of curriculum) - the educational
system of statistics
101
“projected curriculum” (output of T3, the third variant form of curriculum) - the instructional project
of statistics
“implemented curriculum-1” (output of T3, the fourth variant form of curriculum) - the preparedness
of educator to education
“implemented curriculum-2” (output of T4, the fifth variant form of curriculum) – the results of
education
“attained curriculum” (output of T5, the sixth variant form of curriculum) - applicable results of
education
See P.Prochazka, P.Zaskodny (2009-2010c).
Quoted sources in 2009-2010c:
E.g. A.V.Kelly, M.K.Smith, W.Doyle, M.Pasch, A.M.Sochor, V.V.Krajevskij, I.J.Lerner, J.McVittie,
K.Carter, G.M.Blenkin, L.Stenhouse, E.Newman, G.Ingram, F.Bobitt, R.W.Tyler, H.Taba,
C.Cornblet, S.Grundy, D.Lawton, P.Gordon, M.Certon, M.Gayle, G.J.Posner.
3.3.5. Complex and partial tool of DMSTE – CP-DMSTE, ASM-DMSTE
Complex tool of DMSTE is given by curricular process of statistics (CP-DMSTE). CPDMSTE delimits the correct education content via succession of transformations T1-T5.
Partial tool of DMSTE is given by analytical synthetic modeling (ASM-DMSTE).
ASM-DMSTE describes the mediated or real problem solving within the inputs and outputs of
individual transformations T1-T5. In this paper, the description of ASM-DMSTE is realized
by means of both visualia Vis.1 and Legend to Vis.1.
Legend to Vis.1
a (Identified Complex Problem) – Investigated area of reality, investigated phenomenon
Bk (Analysis) – Analytical segmentation of complex problem to partial problems
bk (Partial problems PP-k) – Result of analysis: essential attributes and features
of investigated phenomenon
Ck (Abstraction) – Delimitation of partial problems essences by abstraction with goal
to acquire the partial solutions
ck (Partial solutions PS-k) – Result of abstraction: partial concepts, partial pieces of
knowledge, various relations, etc.
Dk (Synthesis) – Synthetic finding dependences among results of abstraction
dk (Partial conclusions PC-k) – Result of synthesis: principle, law, dependence, continuity
Ek (Intellectual reconstruction) – Intellectual reconstruction of investigated phenomenon /
investigated area of reality
e (Total solution of complex problem “a”) – Result of intellectual reconstruction:
analytical synthetic structure of final knowledge (conceptual knowledge system)
102
Vis.1 General Analytical Synthetic Model of Problem Solving
a - Identified Complex Problem
ANALYSIS
b1 - Partial Problem
No. 1 (PP-1)
C1
C2
c1-Partial
Solution
No.1(PS-1)
c2-Partial
Solution
No.2(PS-2)
D1
b2 - Partial Problem
No. 2 (PP-2)
bk - Partial Problem
No. k (PP-k)
C3
C4 ABSTRACTION
c3-Partial
Solution
No.3(PS-3)
c4-Partial
Solution
No.4(PS-4)
D2
d1 - Partial Conclusion
No. 1 (PC-1)
E1
Bk
ck-Partial
Solution
No.k(PS-k)
SYNTHESIS
d2 - Partial Conclusion
No. 2 (PC-2)
E2
Ck
Dk
dk - Partial Conclusion
No. k (PC-k)
RECONSTRUCTION
Ek
e - Total Solution
Complex
Problem
"a" formed by means of PC-1, PC-2, .., PC-k
5. Application
of of
Partial
Tool
ASM-DMSTE
The application of ASM-DMSTE is the visualia Vis.2 from the area of statistics education.
The visualia Vis.2 is analytical synthetic model of statistics with concrete basic statistical set. This
visualia constitutes a part of statistics conceptual curriculum as a part of communicable scientific
system of statistics (a part of output of transformation T1).
The visualized result Vis.2 of data mining in statistics education constitutes the paramorphic
model and hypertextual representation, represents the external conceptual knowledge systems as
external representation of general social experience. The visualized result also represents the concrete
type of data file – the representation of statistics with concrete basic statistical set.
103
Vis.2: Analytical synthetic model of statistics formed by four partial models
a1-e1, a2-e2, a3-e3, a4-e4
(a part of conceptual curriculum of statistics – a part of communicable scientific system
of statistics – output of transformation T1)
Collective random phenomenon and reason of its investigation a-1
Statistical unit
Variants (values) of
statistical sign
Statistical sign
Choice of statistical
units
Selective statistical set (SSS) as a part of basic statistical set, Goals of statistical examination e-1=a-2
Creating of scale
Measurement
Frequencies tables
(Empirical distribution)
Empirical picture of selective statistical set,
Choice of acceptable
theoretical distribution
Testing of non-parametric
hypotheses
Graphical expression
Necessity of probable investigation e-2=a-3
Quantification
theoretical parameters
of
Point & interval estimation
(e.g. confidence interval)
Empirical & probable picture of selective statistical set,
Statistical dependence
(causal, non-causal)
Empirical parameters
Comparison of theoretical and
empirical parameters
Testing of parametric hypotheses
Necessity of association investigation e-3=a-4
Regression analysis
Correlation analysis
Empirical & probable & association picture of selective statistical set
Interpretation and conclusions as the statistical & probable dimension e-4
of investigation collective random phenomenon
Applied statistics
(e.g. financial options and their mathematical and statistical elaboration by means of greeks calculation and
option hedging models)
104
LEGEND to whole visualia Vis.2
a-1
e-1
,
a-2
e-2
,
a-3
e-3
,
a-4
e-4
One – Sample Analysis, Two / Multiple – Sample Analysis
LEGEND to partial models of visualia Vis.2
a-1
e-1
Formulation of statistical examination
a-2
e-2
Relative & Cumulative Frequencies
(Empirical distribution)
Plotting functions: e.g. Plot Frequency Polygon (Graphical expression)
Average-Means, Variance-Standard Deviation, Obliqueness (Skewness), Pointedness
(Kurtosis)
(Empirical parameters)
a-3
e-3
Theoretical Distribution (partial survey in alphabetical order):
Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma,
Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular,
Trinomial, Uniform, Weibull
Testing of Non-parametric Hypotheses (Hypothesis test for H0 – receive or reject H0):
e.g. computed Wilcoxon´s test, Kolmogorov-Smirnov test, Chi-square test
e.g. at alpha = 0,05
Point & Interval Estimation:
e.g. confidence interval for Mean, confidence interval for Standard Deviation
Testing of Parametric Hypotheses (Hypothesis test for H0 – receive or reject H0):
e.g. computed u-statistic, t-statistic, F-statistic, Chi-square statistic, Cochran´s test, Barlett´s
test, Hartley´s test
e.g. at alpha = 0,05
a-4
e-4
Statistical dependence:
e.g. confidence interval for difference in Means (Equal variances, Unequal variances)
e.g. confidence interval for Ratio of Variances
Regression analysis:
simple – multiple, linear – non-linear
Correlation analysis:
e.g. Rank correlation coefficient, Pearson´ correlation coefficient
105
3.3.6. Conclusion, References
Modeling as a partial tool of data mining – quotation acoording to J.K.Gilbert (2008)
(In: Tarábek,P., Záškodný,P. (2009) Educational and Didactic Communication 2009,
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3).:
“In a nightmare world, we would perceive the world around us being continuous and
without structure. However, our survival as a species has been possible because we have
evolved the ability do “cut up” that world mentally into chunks about which we can think and
hence give meaning to”.
“This process of chunking, a part of all cognition, is modelling and the products of the
mental actions that have taken place are models. Science, being concerned with the provision
of explanations about the natural world, places an especial reliance on the generation and
testing of models”.
References
1. Used Publications
i. Brockmeyerová,J. (1982) Introduction into Theory and Methodology of Physics Education. Prague, Czech
Republic: SPN
ii. CSRG (2009). Curriculum Studies Research Group.
České Budějovice: University of South Bohemia, Czech Republic, http://sites.google.com/site/csrggroup/
iii. Gilbert,J.K. (2008) Visualization: An Emergent Field of Practice and Enquiry. In: Visualization: Theory and Practice
in Science (Models and Modeling in Science Education). New York: Springer Science + Business Media
iv. Keim,D.A. (2002) Information Visualization and Visual Data Mining. IEEE Transactions on Visualization
and Computer Graphics. Vol.7, No.1, January-March 2002
v. Průcha,J (2005) Moderní pedagogika (Modern Educational Science), Prague, Czech Republic: Portál
2. Used Papers, Monographs, and Books of Author (2001-2010)
i. Tarábek,P., Záškodný,P. (2001)
Structural Textbook and Its Creation.
Bratislava, Slovak Republic: Didaktis, ISBN 80-85456-76-1
ii. Záškodný,P. (2001)
Statistical Dimension of Scientific Research.
KONTAKT, 2, 5, 2001 ISSN 1212-4117
iii. Tarábek,P., Záškodný,P. (2007-2008a)
Educational and Didactic Communication 2007, Vol.1 – Theory.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3
iv. Tarábek,P., Záškodný,P. (2007-2008b)
Educational and Didactic Communication 2007, Vol.2 – Methods.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3
v. Tarábek,P., Záškodný,P. (2007-2008c)
Educational and Didactic Communication 2007, Vol.3 – Applications.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3
106
vi. Tarábek,P., Záškodný,P. (2008-2009)
Educational and Didactic Communication 2008.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-62-4
vii. Tarábek,P., Záškodný,P. (2009-2010)
Educational and Didactic Communication 2009.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3
viii. Záškodný,P. a kol. (2004)
Základy zdravotnické statistiky.
České Budějovice, Czech Republic: South Bohemia University ISBN 80-7040-663-1
ix. Záškodný,P. (2006)
Survey of Principles of Theoretical Physics (with Application to Radiology)
(in English). Lucerne, Switzerland, Ostrava, Czech Republic: Avenira, Algoritmus, ISBN 80-902491-9-1
x. Záškodný,P. a kol. (2007)
Základy ekonomické statistiky.
Prague, Czech Republic: Institute of Finance and Administration ISBN 80-86754-00-6
xi. Záškodný,P. (2009)
Curicular Process of Physics (with Survey of Principles of Theoretical Physics)
(in Czech). Lucerne, Switzerland, Ostrava, Czech Republic: Avenira, Algoritmus, ISBN 978-80-902491-0-3
xii. Záškodný,P. (2009-2010)
Data Mining Tools in Science Education (in: vii.)
xiii. Záškodný,P., Pavlát,V. (2009-2010a)
Data Mining – A Brief Recherche (in: vii.)
xiv. Záškodný,P., Novák,V. (2009-2010b)
Data Mining – A Brief Summary (in: vii.)
xv. Záškodný,P., Procházka,P. (2009-2010c)
Collective Scheme of Both Educational Communication and Curricular Process (in: vii.)
xvi. Záškodný,P. , Škrabánková,J.(2009-2010d)
Modelling and Visualization of Problem Solving (in: vii.)
xvii. Záškodný,P. (2009-2010e)
Representation of Results of Data Mining (in: vii.)
107
3.3.7. Supplement of chapter 3.3. – The principles of data mining approach
3.3.7.1. Quotations from sources
i) Definitions of Data Mining
J.Luan (2002)
Definition of Data Mining
a) Data Mining is the process of discovering meaningful new correlations, patterns, and trends by
sifting through large amounts of data stored in repositories and by using pattern recognition
technologies as well as statistical and mathematical techniques
b) The notion of Data Mining for higher education: Data Mining is a process of uncovering hidden
trends and patterns that lend them to predicative modeling using a combination of explicit knowledge
base, sophisticated analytical skills and academic domain knowledge
N.Rubenking (2001)
Definition of Data Mining
Data Mining is the process of automatically extracting useful information and relationships from
immense quantities of data. In its purest form, Data Mining doesn´t involve looking for specific
information. Rather than starting from a question or a hypothesis, Data Mining simply finds patterns
that are already present in the data.
R.Kohavi (2000)
Definition of Data Mining as Knowledge Discovery
Data Mining (or Knowledge Discovery) is the process of identifying new patterns and insights in data
Interpretation of Data Mining
As the volume of data collected and stored in databases grows, there is a growing need to provide data
summarization, identify important patterns and trends, and act upon findings
Le Jun (2008)
Definition of Data Mining as New Technology
Data Mining is extraction of hidden predictive information from large database. Data Mining is
a powerful new technology with great potential to help an scientific area focus on the most important
information in its data
N.Delavari, M.R.Beikzadeh, S.Phon-Amnuaisuk (2005)
Definition of Data Mining
Searched knowledge (meaningful knowledge, previously unknown and potentially useful information
discovered) is hidden among the raw educational data set and it is extractable through Data Mining
R.Kwan, R.Fox, FT Chan, P.Tsang (2008), Le Jun (2008)
Data, Information, Knowledge
Data, Information, Knowledge are different terms, which differentiate in means and values.
a) Data is a collection of facts and quantitative measures, which exists outside of any context from
which conclusions can be drawn.
b) Information is data that people interpret and place in meaningful context, highlighting patterns,
causes of relationships in data.
108
c) Knowledge is the understanding human development as reaction to and use of information, either
individually or as an organization.
Data-Information-Knowledge Continuum
a) Data, information and knowledge are separated but linked concepts which can form a datainformation-knowledge continuum.
b) Data becomes information when people place it in context through interpretation that might seek to
highlighting.
c) Knowledge can be described as a belief that is justified through discussion, experience and perhaps
action. It can be shared with others by exchanging information in appropriate contexts.
ii) Data Mining and Problem Solving
L.Talavera, E.Gaudioso (2002)
Data Mining as Analysis Problem
In this paper we propose to shape the analysis problem as a data mining.
J.Tuminaro, E.F.Redish (2005), E.F.Redish (2005)
Problem solving
Problem solving and the use of math in physics courses
Student Use of Math in the Context of Physics Problem Solving: A Cognitive Model
M.C.Borba, E.M.Villarreal (2005)
Problem solving
Problem solving as context
Problem solving as skill
Problem solving as art
Process of modeling, process of problem solving
The process of modeling or model building is a part of the process of problem solving
Steps of problem solving process (process of problem solving as entailing several steps):
The starting point is a real problematic situation
The first step is to create a real model, making simplifications, idealizations, establishing conditions
and assumptions, but respecting original situation
In the second step, the real model is mathematized, to get a mathematical model
The third step implies the selection of suitable mathematical methods and working within
mathematics in order to get some mathematical results
In the fourth step, these results are interpreted for and translated into the real situation
iii) Forms of Data Mining, Data Mining System, Goals of Data Mining, Scope of
Data Mining
R.Kohavi (2000)
Forms of Data Mining (Structured mining etc.)
Structured mining, Text mining, Information retrieval
109
W.Hämäläinen, T.H.Laine, E.Sutinen (2003)
Data Mining system, educational system
Data Mining system in educational system: the educational system should be served by Data Mining
system to monitor, intervene in, and counsel the teaching-studying-learning process
R.Kohavi (2000)
Goals of Data Mining
Data Mining serves two goals:
-Insight: Identified patterns and trends are comprehensible
-Prediction: A model is built that predicts (scores) based on input data. Prediction as classification
(discrete variable) or as regression (continuous variable)
Scope of Data Mining
The majority of research in DM has concentrated on building the best models for prediction.
A learning algorithm is given the training set and produces a model that can map new unseen data into
the prediction.
iv) Results of Data Mining, Applications of Data Minings, Interdisciplinarity of Data
Mining
R.Kohavi (2000), D.M.Wolpert (1994), M.J.Kearns, U.V.Vazivani (1994)
Some theoretical results in Data Mining
- No free lunch (All concepts are equally likely, then learning is impossible)
- Consistency (non-parametric models - target concept given enough data, parametric models as linear
regression are known to be of limited power) - enough data = consistency
- PAC learning (probably approximately correct learning) is a concept introduced to provide
guarantees about learning
- Bias-Variance decomposition
U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth (1996)
Interdisciplinarity of Data Mining
Data Mining, sometimes referred to as knowledge Discovery, is at the intersection of multiple
research area, including machine learning, statistics, pattern recognition, databases and visualization
J.Luan (2002)
Potential applications of Data Mining
“There are several ways to examine the potential applications of Data Mining
a) One is to start with the functions of the algorithms to reason what can be utilized for
b) Another is to examine the attributes of a specific area where data are rich, but mining activities are
scare
c) And another is to examine the different functions of a specific area to identify the needs that can
translate themselves into Data Mining project”
Notes: a) - See Curricular Process as Data Mining Algorithm
b) - See Curriculum: Theory and Practice as scientific area in which mining activities are
scare
c) - Some of the most likely places where data miners (educational researchers who wear
this hat) may initiate Data Mining projects are: Variant Forms of Curriculum
110
v) Data Mining techniques
.
N.Delavari, M.R.Beikzadeh, S.Phon-Amnuaisuk (2005)
Data Mining techniques
“DM techniques can be used to extract unknown pattern from the set of data and discover useful
knowledge. It results in extracting greater value from the raw data set, and making use of strategic
resources efficiently and effectively.”
J.Luan (2001)
Data Mining techniques as Data Mining functions
“Prediction, clustering, classification, association”
Le Jun (2008)
Data Mining techniques – application of Data Mining tools
“Application of DM tools: To solve the task of prediction, classification, explicit modeling and
clustering. The application can help understand learners´ learning behaviors”
C.Romero, S.Ventura (2006)
Data Mining techniques in educational systems
“After preprocessing the available data in each case, Data Mining techniques can be applied in
educational systems – statistics and visualization, clustering, classification and outlier detection,
association rule mining and pattern mining, text mining”
J.Luan (2002)
Clustering and prediction – the most striking aspects of Data Mining techniques
- “The clustering aspect of Data Mining offers comprehensive characteristics analysis of investigated
area”
- “The predicting function estimates the likelihood for a variety of outcomes”
B.V.Carolan, G.Natriello (2001)
Clustering
“Data-Mining Resources to identify structural attributes of educational research community-e.g.
clustering as collaboration of physicists and biologists”
D.A.Simovici, C.Djeraba (2008)
Clustering, Taxonomy of clustering
a) “Clustering is the process of grouping together objects that are similar. The groups formed by
clustering are referred to as clusters.”
b) “Clustering can be regarded as a special type of classification, where the clusters serve as
classes of objects”
c) “It is widely used data mining activity with multiple applications in a variety of scientific activities
from biology and astronomy to economics and sociology”
d) “Taxonomy of clustering (we follow here the taxonomy of clustering)
- Exclusive or nonexclusive: Clustering may be exclusive or may not be exclusive. It is exclusive,
where an exclusive clustering technique yields clusters that are disjoint. It is nonexclusive, where
a nonexclusive technique produces overlapping clusters.
111
- Intrinsic or extrinsic: Clustering may be intrinsic or extrinsic. Intrinsic - based only on
dissimilarities between the objects to be clustered. Extrinsic - which objects should be clustered
together and which should not, such information is provided by an external source.
- Hierarchical or partitional: Clustering may be hierarchical or partitional. Hierarchical - in
hierachical clustering algorithms, a sequence of partitions) is constructed. Partitional - partitional
clusterings creates a partition of the set of objects whose blocks are the clusters such that objects in
a cluster are more similar to each other than to objects that belong to different clusters”
vi) Data Mining tools
C.Brunk, J.Kelly, R.Kohavi (1997)
Data Mining tool
““Mineset” is a Data Mining tool that integrates Data Mining and visualization very tightly. Models
built can viewed and interacted with.”
C.Romero, S.Ventura (2006)
Data Mining tools
“Data Mining tools provide mining algorithms, filtering and visualization techniques. The examples
of Data Mining tool:
- Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns
- Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification
- Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization”
D.A.Simovici, C.Djeraba (2008)
Mathematical tools for Data Mining
a) “This book was born from experience of the authors as researches and educators, which suggests
that many students of Data Mining are handicapped in their research by the lack of formal,
systematic education in its mathematics. The book is intended as a reference for the working data
miner.”
b) “In our opinion, three areas of math are vital for DM:
- set theory, including partially ordered sets and combinatorics,
- linear algebra, with its many applications in principal component analysis and neural networks,
- and probability theory, which plays a foundational role in statistics, machine learning and DM”
vii) Modeling, Model
J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008), J.K.Gilbert, R.Justi ( 2002)
Definition of Modelling, Model
“We have evolved the ability do “cut up” that world mentally into chunks about which we can think
and hence give meaning to. This process of chunking (Data Mining clustering),
a part of all cognition, is modelling and the products of the mental actions that have taken place are
models”
Significance of Modelling, Model
“Modelling as an element in scientific methodology and models at the outcome of modelling are both
important aspects of the conduct of science and hence of science education”
“Categorization of models
a) Historical models (Curriculum models) - learning specific consensus (the P-N junction model of
transistor). Curriculum models can be used to provide an acceptable explanation of
112
a wide range of phenomena and specific facts, that´s why, it is useful way of reducing, by chunking,
the ever-growing factual load of science curriculum
b) New qualitative models - developed by following the sequence of learning: To revise an
established model, To construct a model de novo (to reconstruct an established model)
c) New quantitative models - developed by following the sequence of learning: quantitative version
of a useable qualitative model of phenomenon
d) Progress in the scientific enquiry is indicated by the value of particular combination of
qualitative and quantitative models in making successful predictions about it properties”
C.M.Borba, E.M.Villarreal (2005)
Definition of modeling
“Modeling can be understood as a pedagogical approach that emphasizes students´ choice of
a problem to be investigated in the classroom. Students, therefore, play an active role in curriculum
development instead of being just the recipients of tasks designed by others.”
“Problem solving
- problem solving as context
- problem solving as skill
- problem solving as art”
Process of modeling, process of problem solving
“The process of modeling or model building is a part of the process of problem solving.”
“Steps of problem solving process
Process of problem solving as entailing several steps:
a) The starting point is a real problematic situation
b) The first step is to create a real model, making simplifications, idealizations, establishing
conditions and assumptions, but respecting original situation
c) In the second step, the real model is mathematized, to get a mathematical model
d) The third step implies the selection of suitable mathematical methods and working within
mathematics in order to get some mathematical results
e) In the fourth step, these results are interpreted for and translated into the real situation”
J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002)
“Model as a major learning and teaching tool
Models are one of the main products of science, modelling is an element in scientific methodology,
(and) models are a major learning and teaching tool in science education”
“Model of Modeling Framework
1. Decide on purpose - Select source for model and Have experience - Produce mental model
2. Produce mental model - Express in mode(s) of representation
3. Express in mode(s) of representation - Conduct thought experiments
4a. Conduct thought experiments (pass) - Design and perform empirical tests
4b. Conduct thought experiments (fail) - Reject mental model (Modify mental model) and back to
Select source for model (negative result)
5a. Design and perform empirical tests (pass) - Fulfill purpose and Consider scope and limitations of
model and back to Decide on purpose (positive result)
5b. Design and perform empirical tests (fail) - Reject mental model (Modify mental model) and back
to Select source for model (negative result)”
113
R.Justi, J.K.Gilbert (2002)
“Role of chemistry textbooks in the teaching and learning of models and modelling
This role may be discussed from two main angles:
- the way that chemical models are introduced in textbooks
(note: projected curriculum, a learning model)
- and the teaching models that they present
(note: Implemented curriculum-1, a teaching model)”
“Teaching model, Learning model, Analogies
A teaching model is a representation produced with the specific aim of helping students to
understand some aspect of content. Assuming the abstract nature of chemical knowledge, they
(learning models) are used very frequently in chemical textbooks mainly in the form of overt
analogies, as drawings and as diagrams (specifically to “the atom”, “chemical bonding” and “chemical
equilibrium”)”
“Some future research directions
a) How can teachers´pedagogical content knowledge about models and modelling be improved?
b) The role of models and modelling in the development of chemical knowledge?
c) How can it be made evident to teachers that the introduction of model-based teaching and learning
approach can be way to shift the emphasis in chemical education from transmission of existing
knowledge to a more contemporary perspective in which students will really understand the
nature of chemistry and be able to deal critically with chemistry-related situations?”
viii) Representation (Creativity)
J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008)
“Levels of Representation
The “Representation in Science Education” is concerned with challenges that students face in
understanding the three “levels” at which models can be represented - “macro”, “sub-micro”,
“symbolic” - and the relationships between them.”
A.H.Johnstone (1993), D.Gabel (1999)
“Representations as distinct representational levels
a) The models produced by science are expressed in three distinct representational levels
b) The macroscopic level - this consists of what is seen in that which is studied
c) The sub-microscopic level - this consists of representations of those entities that are inferred to
underlie the macroscopic level, giving rise to the properties that it displays - molecules and ions are
used to explain the properties of pure solutions, of radiotherapy)
d) The symbolic level (this consists of any qualitative abstractions used to represent each item at the
sub-microscopic level - chemical equations, mathematical equations)”
J.K.Gilbert (2008), M.Hesse (1966), G.M.Bowen, W.-M.Roth (2005))
“The ontological categorization of representations
a) Two approaches to the ontological categorization of representations are put forward, one based on
the purpose which the representation is intended to serve, the other on the dimensionality 1D,2D,3D - of the representation.
b) The purpose for which a Model is Produced
- All models are produced by the use analogy. The target (which is the subject of the model) is
depicted by a partial comparison with a source. The classification is binary: The target and the source
114
are the same things (they are homomorphs - an aeroplane, a virus), They are not (they are paramorphs
- paramorphs are used to model process rather than objects)
c) The dimensionality of the Representation
The idea that modelling involves the progressive reduction of the experienced world to a set of
abstract signs can be set out in terms of dimensions are follows:
- Macro level - Perception of the world-as-experienced - 3D, 2D
- Sub-micro level - Gestures, concrete representations (structural representations) - 3D
- Photographs, virtual representations, diagrams, graphs, data arrays - 2D
- Symbolic level - Symbols and equations - 1D”
E.R.Tufte (1983), J.K.Gilbert (2008), D.Reisberg (1997)
“External and internal representations, Series of internal representations and creativity
a) Visualization is concerned with External Representation, the systematic and focused public
display of information in the form of pictures, diagrams, tables, and the like
b) Visualization is also concerned with Internal Representation, the mental production, storage and
use of an image that often (but not always) is the result of external representation
c) External and internal representations are linked in that their perception uses similar mental
processes
d) Visualization is thus concerned with the formation of an internal representation from an
external representation. An internal representation must be capable of mental use in the making of
predictions about the behaviour of a phenomenon under specific conditions
e) It is entirely possible that once a series of internal representations have been visualized, that they
are amalgamated/recombined to form a novel internal representation that is capable of external
representation - this is creativity”
ix) Visualization
J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008)
Definition of Visualization
“The making of meaning for any such representation is “visualization”. Visualization is central
the production of representations of these models (curriculum models, qualitative and quantitative
models and their combinations).”
J.K.Gilbert (2008)
Visualization and Internal Representation
“Visualization is also concerned with Internal Representation, the mental production, storage and
use of an image that often (but not always) is the result of external representation.”
R.Kohavi (2000)
“Essence of Visualization - Data Summarization
As the volume of data collected and stored in databases grows, there is a growing need to provide data
summarization (e.g. through visualization), identify important patterns and trends, and act upon
findings.”
C.Brunk, J.Kelly, R.Kohavi (1997)
“Serviceability of Visualization
One way to did users in understanding the models is to visualize them.”
115
D.A.Keim (2002)
“Serviceability of Visualization
a) Information Visualization techniques may help to solve the problem
b) Data Mining will use Information Visualization technology for an improved data analysis”
Application of Visualization
“Application of Visualization is Visual Data Exploration”
“Benefits of Visual Data Exploration
- University of Berkeley - every year 1 Exabyte of data (1018 bytes, Gigabyte = 109 bytes)
- Finding the valuable information hidden in them, however, is a difficult task
- The data presented textually - The range of some one hundred data items can be displayed
(a drop in the ocean)
- The basic idea of visual data exploration is to present the data in some visual form, allowing the
human to get insight into the data, draw conclusions, and directly interact with the data (to combine
the flexibility, creativity and general knowledge of the human with the enormous storage capacity and
the computational power of today´s computers)
- The visual data exploration process can be seen a hypothesis generative process (coming up with
new hypotheses and the verification of the hypotheses can be done via visual data exploration)
- The main advantages of visual data exploration: Visual data exploration can easily deal with
inhomogenous and noisy data, visual data exploration is intuitive and requires no understanding of
mathematical and statistical algorithms, visual data exploration techniques are indispensable in
conjuction with automatic exploration techniques
- Visual data exploration paradigm: overview first, zoom and filter, details-on-demand”
x) Metavisualization
N.R.C. (2006)
“Metavisualization - spatial thinking
The associated visualization which can be called “spatial thinking””
J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008),
“Metavisualization - learning from representations
It is of such importance in science and hence in science education that the acquisition of fluency in
visualization is highly desirable and may be called “metavisual capability” or “metavisualization”. A
fluent performance in visualization has been described as requiring metavisualization and involving
the ability to acquire, monitor, integrate, and extend learning from representations. Metavisualization
- learning from representations.”
“Criteria for Metavisualisation
Four criteria are suggested for attainment of metavisual status. The person concerned must be able to:
a) demonstrate an understanding of the “convention of representation” for all the modes and submodes of 3D,2D,1D representations (what they can and cannot represent)
b) demonstrate a capacity to translate a given model between the modes and sub-modes in which it can
be depicted
c) demonstrate the capacity to be able to construct a representation within any mode and sub-mode of
dimensionality for a given purpose
d) demonstrate the ability to solve novel problems using a model-based approach”
“Developing the Skills of Metavisualization
level 1 - representation as depiction
level 2 - early symbolic skills
116
level 3 - syntactic use of formal representations
level 4 - semantic use of formal representations
level 5 - reflective, rhetorical use of representations”
xi) Visual DM techniques
D.A.Keim (2002)
“Classification of Visual Data Mining Techniques (abstraction criterium)
- Techniques as x-y plots, line plots, and histogram, but they are limited to relatively and lowdimensional data sets
- Novel information visualization techniques allowing visualization of multidimensional data without
inherent 2D or 3D semantics.”
D.A.Keim (2002)
“Classification of Visual DM Techniques based on three criteria a), b), c)
a) The data to be visualized (one or two- dimensional data, multidimensional data, text and
hypertext, hierarchies and graphs, algorithms and software):
Dimensionality of date set = the number of variables of data set.
Text and hypertext = in the age of the world wide web one important data type is text and hypertext
Hierarchies and graphs = data records often have some relationship to other pieces of information,
i.e. a graph consists of set objects, called nodes, and connections between these objects, called edges.
Algorithms and software = the goal of V is to support software development by helping to understand
algorithms, e.g. by showing the flow of information in a program, to enhance the understading of
written code, e.g. by representing the structure of thousands of source code lines as graphs
b) The visualization techniques (Standard 2D/3D displays, Geometrically-transformed displays,
Icon-based displays, Dense pixel displays, Stacked displays-treemaps, dimensional stacking)
Geometrically-transformed displays = these techniques aim at finding “interesting” transformations of
multidimensional data sets. The class of geometric display techniques includes also the well-known
Parallel Coordinate Technique (PCT). The PCT maps the k-dimensional space onto the two display
dimensions by using k equidistant axes which are parallel to one of display axes
Icon-based displays = the idea is to map the attribute values of a multidimensional data item to the
features of an icon
c) The interaction (IT) and distortion (DT) techniques used (interactive projection, interactive
filtering, interactive zooming, interactive distortion, interactive linking and brushing)
Interaction techniques allow the data analyst to directly interact with visualizations and dynamically
change the visualizations according to exploration objectives
Distortion techniques help in the data exploration process by providing means for focusing on details
while preserving an overview of the data
Interactive filtering, Interactive zooming - in exploring large data sets it is important to interactively
partition the data into segments and focus on interesting subsets. This can be done by a direct selection
of the desired subset (BROWSING) or by a specification of properties of the desired subset
(QUERYING).”
117
xii) Educational Data Mining
C.Romero, S.Ventura (2006)
Educational Data Mining
a) Currently there is an increasing interest in data mining and educational systems (well-known
learning content management systems, adaptive and intelligent web-based educational systems),
making educational data mining as a new growing research community
b) After preprocessing the available data in each case, data mining techniques can be applied in
educational systems – statistics and visualization, clustering, classification and detection, association
rule mining and pattern mining, text mining
c) Data Mining oriented towards students – to show recommendations and to use, interact,
participate and communicate by students within educational systems
d) Data Mining oriented towards educators (and academic responsible-administrators) – to show
discovered knowledge and to design, plan, build and maintenance by educators (administrators) within
educational systems
e) Data Mining tools provide mining algorithms, filtering and visualization techniques. The examples
of Data Mining tool:
- Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns
- Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification
- Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization
f) Future research lines in educational Data Mining
- Mining tools more facilitate the application of data mining by educators or not expert users
- Standardization of data and methods (preprocessing, discovering, postprocessing)
- Integration with the e-learning system
- Specific data mining techniques
W.Hämäläinen, T.H.Laine, E.Sutinen (2003)
Data Mining system, educational system
“Data Mining system in educational system: the educational system should be served by Data Mining
system to monitor, intervene in, and counsel the teaching-studying-learning process”
R.E.Scherr, M.Sabella, E.F.Redish (2007)
Curriculum development
“Conceptual knowledge is only one aspect of good knowledge structure: how and when knowledge is
activated and used are also important.”
Representation of knowledge structure
“The nodes represent knowledge. The lines represent relations between different nodes.”
R.Newburgh (2008)
“Linear and lateral (structural) thought process (in physics)
Why do we lose physics students?
a) There is a wide spectrum in thought process. Of the two major types one is linear (i.e. sequential)
and the other lateral (i.e. seeking horizontal connections).
b) Those who developed physics - from Galileo to Newton to Einstein to Heisenberg - were almost
exclusively linear thinkers. Paradigm for linear thought is Eucledian thinking, Eucledian logic
(many physicists chose physics for their career as a result of their exposure to geometry - a
consequence of this is that textbooks are usually written in a Eucledian format). The sense of
discovery is lost. Many students do not recognize that the Eucledian format is not a valid description
how we do physics. Their way of approaching problems is different but just as valid. Too many
118
physics teachers refuse to recognize the limitations of this approach (thereby causing would-be
students who do not think in a Eucledian fashion to leave).
c) The format of our textbooks is Eucledian. Newton´s laws, Hamilton-Jacobi theory, and
Maxwell´s equations are often presented as quasi-axioms in advanced texts. The laboratories become
fixed exercises in which the student must confirm some principle already established. He knows the
answer before he does the experiment.
d) Now I yield to no one in my admiration for Euclid. He has been an inspiration to many of us. We
understand his genius but also see his limitations. Unfortunately there are many who do not follow
his way of thinking.
e) By presenting alternate approaches to students (specifically uses of lateral thinking), false starts
that must be corrected, and lessons that are discoveries not memorization, we can retain more
students in physics.
f) We should remember that lateral thinking is essential to the formation of analogies, an activity
that one cannot describe as Euclidean. Doing science without analogies seems to me an impossibility.”
J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002), R.Justi, J.K.Gilbert (2002)
Model as a major learning and teaching tool
“Models are one of the main products of scince, modelling is an element in scientific methodology,
(and) models are a major learning and teaching tool in science education.”
Role of chemistry textbooks in the teaching and learning of models and modelling
“This role may be discussed from two main angles:
- the way that chemical models are introduced in textbooks
- and the teaching models that they present.”
Teaching model, Learning model, Analogies
“A teaching model is a representation produced with the specific aim of helping students to
understand some aspect of content. Assuming the abstract nature of chemical knowledge, they
(learning models) are used very frequently in chemical textbooks mainly in the form of overt
analogies, as drawings and as diagrams (specifically to “the atom”, “chemical bonding” and “chemical
equilibrium”)”
Some future research directions
a) “How can teachers´pedagogical content knowledge about models and modelling be improved?”
b) “The role of models and modelling in the development of chemical knowledge?”
c) “How can it be made evident to teachers that the introduction of model-based teaching and learning
approach can be way to shift the emphasis in chemical education from transmission of existing
knowledge to a more contemporary perspective in which students will really understand the
nature of chemistry and be able to deal critically with chemistry-related situations?”
J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002), J.H.van Driel (2002)
“Curriculum for Chemical Eduaction
a) The central question is concerns the design of curricula for chemical education (note: curricular
process) which make chemistry interesting and relevant for various groups of learners (professional
chemists, general educational purposes-it is useful for all citizens in the future)
b) In recent decades, curricula have been changed, on the one hand for general educational
purposes, this has led to context-based approaches to teaching chemistry, on the other hand for
professional chemists specific chemistry courses have been developed in the context of vocational
training, aimed at developing the specific chemical competencies that are needed for various
professions.
c) Finally, chemistry is nowadays also presented in informal ways, for instance, in science centres and
through chemistry “shows”.”
119
U-D.Ehlers, J.M.Pawlowski (2006)
“Quality and Standardization in E-learning
- Quality development: Methods and approaches
Methods, models, concepts and approaches for the development, management and assurance of quality
in e-learning are introduced
- E-learning standards
The main goal of e-learning standards is to provide solutions to enable and ensure interoperability and
stability of systems, components and objects.”
R.Kwan, R.Fox, FT Chan, P.Tsang (2008), Le Jun (2008)
Knowledge management, Data Mining
“We set up a few objects and value propositions of the initiative which was set up to improve teaching
and learning, to enhance the quality of curriculum, and to extent learning support. We apply Data
Mining tools to discover behavioral characteristics. A few strategies for knowledge management in the
curriculum development in distance education will be discussed.”
Le Jun (2008), I.Nonaka, H.Takeuchi (1995), I.Nonaka, H.Takeuchi (2005)
Types of knowledge, Interaction of types
“Many knowledge management experts agree that there are two general types of knowledge:
a) Tacit knowledge is linked to personal perspective intuition, emotion, belief, experience and value. It
is intangible, not easy to articulate, and difficult to share with others.
b) Explicit knowledge has a tangible dimension that can be more easily captured, codified and
communicated
Based on I.Nonaka, H.Takeuchi these two versions of knowledge can interact when the
“knowledge conversion” occurs:
- socialization: from tacit to tacit
- externalization: from tacit to explicit
- combination: from explicit to explicit
- internalization: from explicit to tacit”
Le Jun (2008), I.Nonaka, H.Takeuchi (2005)
“Research methods for knowledge management
a) Data Mining techniques
b) Web text mining is discovery knowledge from based non-structural text (text representation,
feature extraction, text categorization, text clustering, text summarization, semantic analysis, and
information extraction)
c) Learning theory
Learning theories are classified into four paradigms: behavioral theory, cognitive theory,
constructive theory, social learning theory.
We emphasize: Learning is continuous process that was indistinguishable from ongoing work practice
- by discovering the problems, recognizing their types, and by solving problems in routine work and
learning. Learners can continuously refine their cognitive, information, social and learning
competencies.
d) Knowledge management
Knowledge sharing and application of the SECI model (see I.Nonaka, H.Takeuchi)”
120
xiii) Metadata Mining Process
R.Vilalta, C.Giraud-Carrier, P.Brazdil, C.Soares (2004)
Meta-learning – Support Data Mining
„Current data mining tools are characterized by a plethora of algorithms but a lack of guidelines to
select the right method according to the nature of the problem under analysis. Producing such
guidelines is a primary goal by the field of meta-learning; the research objective is to understand the
interaction between the mechanism of learning and the concrete contexts in which that mechanism is
applicable. The field of meta-learning has seen continuous growth in the past years with interesting
new developments in the construction of practical model-selection assistants, task-adaptive learners,
and a solid conceptual framework. In this paper, we give an overview of different techniques
necessary to build meta-learning systems. We begin by describing an idealized meta-learning
architecture comprising a variety of relevant component techniques. We then look at how each
technique has been studied and implemented by previous research. In addition, we show how
metalearning has already been identified as an important component in real-world applications.“
J.Fox (2007)
Definition Metadata Mining process
“Since metadata is just another type of data, applying data mining to metadata is technically
straightforward. XML - eXtensible Markup Language”
American Library Association (1999)
“Definition of Metadata
a) As for most people the difference between data and information is merely a philosophical
one of no relevance in practical use, other definitions are:
Metadata is information about data.
Metadata is information about information.
Metadata contains information about that data or other data
b) There are more sophisticated definitions, such as:
Metadata is structured, encoded data that describe characteristics of information-bearing
entities to aid in the identification, discovery, assessment, and management of the described
entities.”
3.3.7.2. Brief summary
Data Mining – an analytical synthetic way of extraction of hidden and potencially useful information
from the large data files (continuum data-information-knowledge, knowledge discovery)
Data Mining Techniques – system functions of the structure of formerly hidden relations and patterns
(e.g. classification, association, clustering, prediction)
Data Mining Tool – a concrete procedure how to reach the intended system functions
Complex Tool – a resolution of the complex problem of relevant science branch
Partial Tool – a resolution of the partial problem of relevant science branch
Result of Data Mining – a result of the data mining tool application
Representation of Data Mining Result – a description of this what is expressed
Visualization of Data Mining Result – an optical retrieval of the data mining result
121
3.3.7.3. Data mining cycle, References
i) Quotations from Sources
U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth (1996)
“Cycle of Data mining
Data Mining can be viewed as a cycle that consists of several steps:
- Identify a problem where analyzing data can provide value
- Collect the data
- Preprocess the data obtain a clean, mineable table
- Build a model that summarizes patterns of interest in a particular representational form
- Interpret/Evaluate the model
- Deploy the results incorporating the model into another system for further action.”
J.Luan (2002)
“Steps for Data Mining preparation (algorithm, building, visualization)
a) Investigate the possibility of overlaying Data Mining algorithms directly on a data warehouse
b) Select a solid querying tool to build Data Mining files. These files closely resemble
multidimensional cubes
c) Data Visualization and Validation. This means both examining frequency counts as well as
generating scatter plots, histograms, and other graphics, including clustering models
d) Mine your data”
Le Jun (2008)
“Main processes of Data Mining
- The main processes include data definition, data gathering, preprocessing, data processing and
discovering knowledge or patterns (Data Mining techniques can be implemented rapidly on existing
software and hardware)
- Application of Data Mining tools: To solve the task of prediction, classification, explicit modeling
and clustering. The application can help understand learners´learning behaviors.”
ii) Brief Summary of Data Mining Cycle
- Data Definition, Data Gathering
- Data Preprocessing, Data Processing
- Data Mining Techniques and Data Mining Tools,
- Discovering Knowledge or Patterns,
- Representation and Visualization of Data Mining Results,
- Application.
References
i. Tarábek,P., Záškodný,P. (2009-2010)
Educational and Didactic Communication 2009.
Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3
ii. Záškodný,P., Pavlát,V. (2009-2010a)
Data Mining – A Brief Recherche (in: i.)
iii. Záškodný,P., Novák,V. (2009-2010b)
Data Mining – A Brief Summary (in: i.)
122
Část 4. STATISTICKÉ TABULKY Part 4. STATISTICAL TABLES
Tabulka I.: Hodnoty distribuční funkce normovaného normálního rozdělení
Table I.: Values of distribution function of standardized normal distribution
u
F(u)
u
F(u)
u
F(u)
u
F(u)
0,00
0,01
0,02
0,03
0,04
0,500 00
0,503 99
0,507 98
0,511 97
0,515 95
0,35
0,36
0,37
0,38
0,39
0,636 83
0,640 58
0,644 31
0,648 03
0,651 73
0,70
0,71
0,72
0,73
0,74
0,758 04
0,761 15
0,764 24
0,767 30
0,770 35
1,05
1,06
1,07
1,08
1,09
0,853 14
0,855 43
0,857 69
0,859 93
0,862 14
0,05
0,06
0,07
0,08
0,09
0,519 94
0,523 92
0,527 90
0,531 88
0,535 86
0,40
0,41
0,42
0,43
0,44
0,655 42
0,659 10
0,662 76
0,666 40
0,670 03
0,75
0,76
0,77
0,78
0,79
0,773 77
0,776 37
0,779 35
0,782 30
0,785 24
1,10
1,11
1,12
1,13
1,14
0,864 33
0,866 50
0,868 64
0,870 76
0,872 86
0,10
0,11
0,12
0,13
0,14
0,539 83
0,543 80
0,547 76
0,551 72
0,555 67
0,45
0,46
0,47
0,48
0,49
0,673 64
0,677 24
0,680 82
0,684 39
0,687 93
0,80
0,81
0,82
0,83
0,84
0,788 14
0,791 03
0,793 89
0,796 73
0,799 55
1,15
1,16
1,17
1,18
1,19
0,874 93
0,876 98
0,879 00
0,881 00
0,882 98
0,15
0,16
0,17
0,18
0,19
0,559 62
0,563 56
0,567 49
0,571 42
0,575 35
0,50
0,51
0,52
0,53
0,54
0,691 46
0,694 97
0,698 47
0,701 94
0,705 40
0,85
0,86
0,87
0,88
0,89
0,802 34
0,805 11
0,807 85
0,810 57
0,813 27
1,20
1,21
1,22
1,23
1,24
0,884 93
0,886 86
0,888 77
0,890 65
0,892 51
0,20
0,21
0,22
0,23
0,24
0,579 26
0,583 17
0,587 06
0,590 95
0,594 83
0,55
0,56
0,57
0,58
0,59
0,708 84
0,712 26
0,715 66
0,719 04
0,722 40
0,90
0,91
0,92
0,93
0,94
0,815 94
0,818 59
0,821 21
0,823 81
0,826 39
1,25
1,26
1,27
1,28
1,29
0,894 35
0,896 17
0,897 96
0,899 73
0,901 47
0,25
0,26
0,27
0,28
0,29
0,598 71
0,602 57
0,606 42
0,610 26
0,614 09
0,60
0,61
0,62
0,63
0,64
0,725 75
0,729 07
0,732 37
0,735 65
0,738 91
0,95
0,96
0,97
0,98
0,99
0,828 94
0,831 47
0,833 98
0,836 46
0,838 91
1,30
1,31
1,32
1,33
1,34
0,903 20
0,904 90
0,906 58
0,908 24
0,909 88
0,30
0,31
0,32
0,33
0,34
0,617 91
0,621 72
0,625 52
0,629 30
0,633 07
0,65
0,66
0,67
0,68
0,69
0,742 15
0,745 37
0,748 57
0,751 75
0,754 90
1,00
1,01
1,02
1,03
1,04
0,841 34
0,843 75
0,846 14
0,848 50
0,850 83
1,35
1,36
1,37
1,38
1,39
0,911 49
0,913 09
0,914 66
0,916 21
0,917 74
123
u
F(u)
u
F(u)
u
F(u)
u
F(u)
1,40
1,41
1,42
1,43
1,44
0,919 24
0,920 73
0,922 20
0,923 64
0,925 07
1,85
1,86
1,87
1,88
1,89
0,967 84
0,968 56
0,969 26
0,969 95
0,970 62
2,30
2,31
2,32
2,33
2,34
0,989 28
0,989 56
0,989 83
0,990 10
0,990 36
3,00
3,02
3,04
3,06
3,08
0,998 65
0,998 74
0,998 82
0,998 89
0,998 97
1,45
1,46
1,47
1,48
1,49
0,926 47
0,927 86
0,929 22
0,930 56
0,931 89
1,90
1,91
1,92
1,93
1,94
0,971 28
0,971 93
0,972 57
0,973 20
0,973 81
2,35
2,36
2,37
2,38
2,39
0,990 61
0,990 86
0,991 11
0,991 34
0,991 58
3,10
3,12
3,14
3,16
3,18
0,999 03
0,999 16
0,999 16
0,999 21
0,999 26
1,50
1,51
1,52
1,53
1,54
0,933 19
0,934 48
0,935 74
0,936 99
0,938 22
1,95
1,96
1,97
1,98
1,99
0,974 41
0,975 00
0,975 58
0,976 15
0,976 70
2,40
2,41
2,42
2,43
2,44
0,991 80
0,992 02
0,992 24
0,992 45
0,992 66
3,20
3,22
3,24
3,26
3,28
0,999 31
0,999 36
0,999 40
0,999 44
0,999 48
1,55
1,56
1,57
1,58
1,59
0,939 43
0,940 62
0,941 79
0,942 95
0,944 08
2,00
2,01
2,02
2,03
2,04
0,977 25
0,977 78
0,978 31
0,978 82
0,979 32
2,45
2,46
2,47
2,48
2,49
0,992 86
0,993 05
0,993 05
0,993 43
0,993 48
3,30
3,32
3,34
3,36
3,38
0,999 52
0,999 55
0,999 58
0,999 61
0,999 64
1,60
1,61
1,62
1,63
1,64
0,945 20
0,946 30
0,947 38
0,948 45
0,949 50
2,05
2,06
2,07
2,08
2,09
0,979 82
0,980 30
0,980 77
0,981 24
0,981 69
2,50
2,52
2,54
2,56
2,58
0,993 79
0,994 13
0,994 46
0,994 77
0,995 06
3,40
3,42
3,44
3,46
3,48
0,999 66
0,999 69
0,999 71
0,999 73
0,999 75
1,65
1,66
1,67
1,68
1,69
0,950 53
0,951 54
0,952 54
0,953 52
0,954 49
2,10
2,11
2,12
2,13
2,14
0,982 14
0,982 57
0,983 00
0,983 41
0,983 82
2,60
2,62
2,64
2,66
2,68
0,995 34
0,995 60
0,995 85
0,996 09
0,996 32
3,50
3,55
3,60
3,65
3,70
0,999 77
0,999 81
0,999 84
0,999 87
0,999 89
1,70
1,71
1,72
1,73
1,74
0,955 43
0,956 37
0,957 28
0,958 18
0,959 07
2,15
2,16
2,17
2,18
2,19
0,984 22
0,984 61
0,985 00
0,985 37
0,985 74
2,70
2,72
2,74
2,76
2,78
0,996 53
0,996 74
0,996 93
0,997 11
0,997 28
3,75
3,80
3,85
3,90
3,95
0,999 91
0,999 93
0,999 94
0,999 95
0,999 96
1,75
1,76
1,77
1,78
1,79
0,959 94
0,960 80
0,961 64
0,962 46
0,963 27
2,20
2,21
2,22
2,23
2,24
0,986 10
0,986 45
0,986 79
0,987 13
0,987 45
2,80
2,82
2,84
2,86
2,88
0,997 44
0,997 60
0,997 74
0,997 88
0,998 01
4,00
4,05
4,10
4,15
4,20
0,999 97
0,999 97
0,999 98
0,999 98
0,999 99
124
u
1,80
1,81
1,82
1,83
1,84
F(u)
0,964 07
0,964 85
0,965 62
0,966 38
0,967 12
u
2,25
2,26
2,27
2,28
2,29
F(u)
0,987 78
0,988 09
0,988 40
0,988 70
0,988 99
u
2,90
2,92
2,94
2,96
2,98
F(u)
0,998 13
0,998 25
0,998 36
0,998 46
0,998 56
u
4,25
4,30
4,35
4,40
4,45
F(u)
0,999 99
0,999 99
0,999 99
0,999 99
1,000 00
125
Tabulka II.: Kritické hodnoty u-testu Table II.: Critical values of u-test
α
0,20
0,10
0,05
0,025
0,01
0,005
u(α)
0,842
1,282
1,645
1,960
2,326
2,576
126
Tabulka III.: Kritické hodnoty t-testu Table III.: Critical values of t-test
ν
α
1
2
3
4
5
0,05
6,31
2,92
2,35
2,13
2,02
0,025
12,71
4,30
3,18
2,78
2,57
0,01
31,82
6,96
4,54
3,75
3,36
0,005
63,66
9,92
5,84
4,60
4,03
6
7
8
9
10
1,94
1,90
1,86
1,03
1,81
2,45
2,36
2,31
2,26
2,23
3,14
3,00
2,90
2,82
2,76
3,71
3,50
3,38
3,25
3,17
11
12
13
14
15
1,80
1,70
1,77
1,76
1,75
2,2
2,18
2,16
2,14
2,13
2,72
2,68
2,65
2,62
2,6
3,11
3,06
3,01
2,98
2,95
16
17
18
19
20
1,75
1,74
1,73
1,73
1,72
2,12
2,11
2,10
2,09
2,09
2,58
2,57
2,55
2,54
2,53
2,92
2,90
2,88
2,86
2,84
21
22
23
24
25
1,72
1,72
1,71
1,71
1,71
2,08
2,07
2,07
2,06
2,06
2,52
2,51
2,50
2,49
2,48
2,83
2,82
2,81
2,80
2,79
26
27
28
29
30
1,71
1,70
1,70
1,70
1,70
2,06
2,05
2,05
2,04
2,04
2,48
2,47
2,47
2,46
2,46
2,78
2,77
2,76
2,76
2,75
31
32
33
1,70
1,69
1,69
2,04
2,03
2,03
2,45
2,45
2,45
2,75
2,74
2,74
127
Tabulka IV.: Kritické hodnoty χ2-testu Table IV.: Critical values of χ2-test
ν
α
1
2
3
4
5
0,995
0,00
0,01
0,07
0,21
0,41
0,975
0,00
0,05
0,22
0,48
0,83
0,05
3,84
5,99
7,81
9,49
11,07
0,025
5,02
7,38
9,35
11,14
12,83
0,01
6,63
9,21
11,34
13,28
15,09
0,005
7,88
10,6
12,84
14,86
16,75
6
7
8
9
10
0,68
0,99
1,34
1,73
2,16
1,24
1,69
2,18
2,7
3,25
12,59
14,07
15,51
16,92
18,31
14,45
16,01
17,52
19,02
20,48
16,81
18,48
20,09
21,67
23,21
18,55
20,28
21,45
23,59
25,19
11
12
13
14
15
2,60
3,07
3,57
4,07
4,60
3,82
4,40
5,01
5,63
6,26
19,68
21,03
22,36
23,68
25,00
21,92
23,34
24,74
26,12
27,49
24,72
26,22
27,69
29,14
30,58
26,76
28,30
29,82
31,32
32,80
16
17
18
19
20
5,14
5,70
6,26
6,84
7,43
6,91
7,56
8,23
8,91
9,59
26,3
27,59
28,87
30,14
31,41
28,85
30,19
31,53
32,85
34,17
32,00
33,41
34,81
36,19
37,57
34,27
35,72
37,16
38,58
40,00
21
22
23
24
25
8,03
8,64
9,26
9,89
10,52
10,28
10,98
11,69
12,40
13,12
32,67
33,92
35,17
36,42
37,65
35,46
36,76
38,08
39,36
40,65
38,93
40,29
41,64
42,98
44,31
41,40
42,80
44,18
45,56
46,93
30
35
40
45
50
13,79
17,19
20,71
27,99
34,31
16,79
20,57
24,43
23,57
32,36
43,77
49,80
55,76
61,66
67,5
46,98
53,2
59,34
65,41
71,42
50,89
57,34
63,69
69,96
76,15
53,67
60,27
66,70
73,17
79,49
60
70
80
90
100
35,53
43,28
51,17
59,20
67,33
40,46
48,76
57,15
65,65
74,22
79,46
90,58
101,88
113,15
124,34
83,30
95,02
106,63
118,14
129,56
38,38
100,43
112,33
124,12
135,81
91,95
104,21
116,32
128,30
140,17
128
Tabulka V.: Kritické hodnoty F-testu pro α = 0,05
Table V.: Critical values of F-test for α = 0,05
ν
μ
1
2
3
4
5
1
161
18,5
10,1
7,71
6,91
2
200
19,0
9,55
6,94
5,79
3
213
19,2
9,28
6,95
5,41
4
225
19,2
9,12
6,39
5,19
5
230
19,3
9,01
6,26
5,05
6
234
19,3
8,94
6,16
4,95
7
237
19,4
8,89
6,09
4,88
8
239
19,4
8,85
6,04
4,82
9
241
19,4
8,81
6,00
4,77
10
242
19,4
8,79
5,96
4,74
20
248
19,4
8,66
5,80
4,56
40
251
19,5
8,59
5,72
4,46
60
252
19,5
8,57
5,69
4,43
120
253
19,5
8,55
5,66
4,40
6
7
8
9
10
5,99
5,59
5,32
5,12
4,96
5,14
4,74
4,46
4,26
4,10
4,76
4,35
4,07
3,86
3,71
4,53
4,12
3,84
3,63
3,48
4,39
3,97
3,69
3,48
3,33
4,28
3,87
3,58
3,37
3,22
4,21
3,79
3,50
3,29
3,14
4,15
3,73
3,44
3,23
3,07
4,10
3,68
3,39
3,18
3,02
4,06
3,64
3,35
3,14
2,98
3,87
3,44
3,15
2,94
2,77
3,77
3,34
3,04
2,83
2,66
3,74
3,30
3,01
2,79
2,62
3,70
3,27
2,97
2,75
2,58
11
12
13
14
15
4,84
4,75
4,67
4,60
4,64
3,98
3,89
3,81
3,74
3,68
3,59
3,49
3,41
3,64
3,29
3,36
3,26
3,18
3,11
3,06
3,20
3,11
3,03
2,96
2,90
3,09
3,00
2,92
2,85
2,79
3,01
2,91
2,83
2,76
2,71
2,95
2,85
2,77
2,7
2,64
2,90
2,80
2,71
2,65
2,59
2,85
2,75
2,67
2,60
2,54
2,65
2,54
2,46
2,39
2,33
2,53
2,43
2,34
2,27
2,20
2,49
2,38
2,30
2,22
2,16
2,45
2,34
2,25
2,18
2,11
129
Tabulka V.: Kritické hodnoty F-testu pro α = 0,05
Table V.: Critical values of F-test for α = 0,05
ν
μ
16
17
18
19
20
1
4,49
4,45
4,41
4,38
4,35
2
3,63
3,59
3,55
3,52
3,49
3
3,24
3,20
3,16
3,13
3,10
4
3,01
2,96
2,93
2,9
2,87
5
2,85
2,81
2,77
2,74
2,71
6
2,74
2,70
2,66
2,63
2,60
7
2,66
2,61
2,58
2,54
2,51
8
2,59
2,55
2,51
2,48
2,45
9
2,54
2,49
2,46
2,42
2,39
10
2,49
2,45
2,41
2,38
2,35
20
2,28
2,23
2,19
2,16
2,12
40
2,15
2,10
2,06
2,03
1,99
60
2,11
2,06
2,02
1,98
1,95
120
2,06
2,01
1,97
1,93
1,90
21
22
23
24
25
4,32
4,30
4,28
4,26
4,24
3,47
3,44
3,42
3,40
3,39
3,07
3,05
3,03
3,01
2,92
2,84
2,82
2,80
2,78
2,76
2,68
2,66
2,64
2,62
2,60
2,57
2,55
2,53
2,51
2,49
2,49
2,46
2,44
2,42
2,40
2,42
2,40
2,37
2,36
2,34
2,37
2,34
2,32
2,30
2,28
2,32
2,30
2,27
2,25
2,24
2,10
2,07
2,05
2,03
2,01
1,96
1,94
1,91
1,89
1,87
1,92
1,89
1,86
1,84
1,82
1,87
1,84
1,81
1,79
1,77
26
27
28
29
30
4,23
4,21
4,20
4,18
4,17
3,37
3,35
3,34
3,33
3,32
2,98
2,96
2,95
2,93
2,92
2,74
2,73
2,71
2,70
2,69
2,59
2,57
2,56
2,55
2,53
2,47
2,46
2,45
2,43
2,42
2,39
2,37
2,36
2,35
2,33
2,32
2,31
2,29
2,28
2,27
2,27
2,25
2,24
2,22
2,21
2,22
2,20
2,19
2,18
2,16
1,99
1,97
1,96
1,94
1,93
1,85
1,84
1,82
1,81
1,79
1,80
1,79
1,77
1,75
1,74
1,75
1,73
1,71
1,70
1,68
40
60
120
4,08
4,00
3,92
3,23
3,15
3,07
2,84
2,76
2,68
2,61
2,53
2,45
2,45
2,37
2,29
2,34
2,25
2,17
2,25
2,17
2,09
2,18
2,10
2,02
2,12
2,04
1,96
2,08
1,99
1,91
1,84
1,75
1,66
1,69
1,59
1,50
1,64
1,53
1,43
1,58
1,47
1,35
130
Tabulka VI.: Kritické hodnoty F – testu pro α = 0,01
Table V.: Critical values of F-test for α = 0,01
ν
μ
1
2
3
4
5
1
4050
998,5
34,1
21,2
16,3
2
5000
99
30,8
18
13,3
3
5400
99,2
29,5
16,7
12,1
4
5620
99,2
28,7
16
11,4
5
5760
99,3
28,2
15,5
11
6
5860
99,3
27,9
15,2
10,7
7
5930
99,4
27,7
15
10,5
8
5980
99,4
27,5
14,8
10,3
9
6020
99,4
27,3
14,7
10,2
10
6060
99,4
27,2
14,5
10,1
20
6210
99,4
26,7
14
9,55
40
6290
99,5
26,4
13,7
9,2
60
6310
99,5
26,3
13,7
9,2
120
6340
99,5
26,2
13,6
9,11
6
7
8
9
10
13,7
12,2
11,3
10,6
10
10,9
9,55
8,65
8,02
7,56
9,78
8,45
7,59
6,99
6,55
9,15
7,85
7,01
6,42
5,99
8,75
7,46
6,63
6,06
5,64
8,47
7,19
6,37
5,8
5,39
8,26
6,99
6,18
5,61
5,2
8,1
6,84
6,03
5,47
5,06
7,98
6,72
5,91
5,35
4,94
7,87
6,62
5,81
5,26
4,85
7,4
6,16
5,36
4,81
4,41
7,14
5,91
5,12
4,57
4,17
7,06
5,82
5,03
4,48
4,08
6,97
5,74
4,95
4,4
4
11
12
13
14
15
9,65
9,33
9,07
8,86
8,68
7,21
6,93
6,7
6,51
6,36
6,22
5,95
5,74
5,56
5,42
5,67
5,41
5,21
5,04
4,89
5,32
5,06
4,86
4,69
4,56
5,07
4,82
4,62
4,46
4,32
4,89
4,64
4,44
4,28
4,14
4,74
4,5
4,3
4,14
4
4,63
4,39
4,19
4,03
3,39
4,54
4,3
4,1
3,94
3,8
4,1
3,86
3,66
3,51
3,37
3,86
3,62
3,43
3,27
3,13
3,78
3,54
3,34
3,18
3,05
3,69
3,45
3,25
3,09
2,96
131
Tabulka VI.: Kritické hodnoty F-testu pro α = 0,01
Table V.: Critical values of F-test for α = 0,01
ν
μ
16
17
18
19
20
1
8,53
8,4
8,29
8,18
8,1
2
6,23
6,11
6,01
5,93
5,85
3
5,29
6,18
5,09
5,01
4,94
4
4,77
4,67
4,58
4,5
4,43
5
4,44
4,34
4,25
4,17
4,1
6
4,2
4,1
4,01
3,94
3,87
7
4,03
3,93
3,84
3,77
3,7
8
3,89
3,79
3,71
3,63
3,56
9
3,78
3,68
3,6
3,52
3,46
10
3,69
3,59
3,51
3,43
3,37
20
3,26
3,16
3,08
3
2,94
40
3,02
2,92
2,84
2,76
2,69
60
2,93
2,83
2,75
2,67
2,61
120
2,84
2,75
2,66
2,58
2,52
21
22
23
24
25
8,02
7,95
7,88
7,82
7,77
5,78
5,72
5,66
5,61
5,57
4,87
4,82
4,76
4,72
4,68
4,37
4,31
4,26
4,22
4,18
4,04
3,99
3,94
3,9
3,85
3,81
3,76
3,71
3,67
3,63
3,64
3,59
3,54
3,5
3,46
3,51
3,45
3,41
3,36
3,32
3,4
3,35
3,3
3,26
3,22
3,31
3,26
3,21
3,17
3,13
2,88
2,83
2,78
2,74
2,7
2,64
2,58
2,54
2,49
2,45
2,55
2,5
2,45
2,4
2,36
2,46
2,4
2,35
2,31
2,27
26
27
28
29
30
7,72
7,68
7,64
7,6
7,56
5,63
5,49
4,45
5,42
5,39
4,64
4,6
4,57
4,54
4,51
4,14
4,11
4,07
4,04
4,02
3,82
3,78
3,75
3,73
3,7
3,59
3,56
3,53
3,5
3,47
3,42
3,39
3,36
3,33
3,3
3,29
3,26
3,23
3,2
3,17
3,18
3,15
3,12
3,09
3,07
3,09
3,06
3,03
3
2,98
2,66
2,63
2,6
2,57
2,55
2,42
2,38
2,35
2,33
2,3
2,33
2,29
2,26
2,23
2,21
2,23
2,2
2,17
2,14
2,11
40
60
120
7,31
7,08
6,85
5,18
4,98
4,79
4,31
4,13
3,95
3,83
3,65
3,48
3,51
3,34
3,17
3,29
3,12
2,96
3,12
2,95
2,79
2,99
2,82
2,66
2,89
2,72
2,56
2,8
2,63
2,47
2,37
2,2
2,03
2,11
1,94
1,76
2,02
1,84
1,66
1,92
1,73
1,53
132
CV of author
Assoc.Prof. RNDr. Přemysl Záškodný,CSc.
Assoc.Prof. RNDr. Přemysl Záškodný,CSc., graduated from the Mathematical-Physics
Faculty of Charles University, CSc. in the physics education, and docent (assoc. professor) of
physics education. As a university teacher, he is affiliated to the University of South Bohemia
in České Budějovice and to the University of Finance and Administration in Prague.
He is active in scientific work in cooperation with the International Institute of
Informatics and Systemics in U.S.A., and the Curriculum Studies Research Group in
Slovakia. In his scientific work, aimed at science and statistics education, he deals with
structuring and modelling physics and statistics knowledge and systems of knowledge and
also data mining and curricular process.
In addition to support from his faculty and university, the projects granted to the
author by the Avenira Foundation in Switzerland and the University of Finance and
Administration in Czech Republic has brought a considerable contribution to the results
achieved.
The conception of the last books “Survey of Principles of Theoretical Physics”,
“Curricular Process in Physics”, “Fundaments of Statistics” (with co-authors), and “From
Financial Derivatives to Option Hedging” (with co-author) and last monographs “Educational
and Didactic Communication 2008, 2009, 2010, 2011” are based on the scientific work of the
author. Some of the further works published by the author are quoted in the bibliography.
Assoc.Prof. RNDr. Přemysl Záškodný, CSc. is active as general chair of international
e-conferences OEDM-SERM 2011 and OEDM-SERM 2012 (Optimization, Education and
Data Mining in Science, Engineering and Risk Management).
133
Bibliography of author
i) The monographs
Tarabek,P., Zaskodny,P.: Analytical-Synthetic Modelling of Cognitive Structures (volume 1:
New structural methods and their application).
Educational Publisher Didaktis Ltd., Bratislava, London 2001
Tarabek,P., Zaskodny,P.: Analytical-Synthetic Modelling of Cognitive Structures (volume 2:
Didactic communication and educational sciences).
Educational Publisher Didaktis Ltd., Bratislava, New York 2002
Tarabek,P., Zaskodny,P.: Structure, Formation and Design of Textbook (volume 1:
Theoretical basis).
Educational Publisher Didaktis Ltd., Bratislava, London 2003
Tarabek,P., Zaskodny,P.: Structure, Formation and Design of Textbook (volume 2: Theory
and practice).
Educational Publisher Didaktis Ltd., Bratislava, London 2004
Tarabek,P., Zaskodny,P.: Modern Science and Textbook Creation (volume 1: Projection of
scientific systems).
Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2005
Tarabek,P., Zaskodny,P.: Modern Science and Textbook Creation (volume 2: Modern
tendencies in textbook creation).
Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2006
Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2007”
Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2008
Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2008”
Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2009
Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2009”
Educational Publisher Didaktis Ltd., Bratislava, 2010
Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2010”
Educational Publisher Didaktis Ltd., Bratislava, 2011
Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2011”
Educational Publisher Didaktis Ltd., Bratislava, 2012
ii) The books
Pavlát,V., Záškodný,P. at al: Capital Market, The first edition, 2003
Záškodný,P.: Survey of Principles of Theoretical Physics (with Application to Radiology)
(in Czech). Didaktis, Bratislava, Slovak Republic 2005
134
Záškodný,P.: Survey of Principles of Theoretical Physics (with Application to Radiology) (in
English). Avenira, Switzerland, Algoritmus, Ostrava, Czech Republic 2006
Pavlát,V., Záškodný,P. at al: Capital Market, The second edition, 2006
Záškodný,P.: Curricular Process in Physics (in Czech). Avenira, Switzerland, Algoritmus,
Ostrava, Czech Republic 2009
Záškodný,P. at al.: Fundaments of Statistics (in Czech). Curriculum, Czech Republic 2011
Pavlát,V., Záškodný,P.: From Financial Derivatives to Option Hedging. Curriculum, Czech
Republic 2012
iii) The textbooks
Záškodný,P.: Theoretical Mechanics in Examples I (in Czech). PF, Ostrava, Czech
Republic 1984
Záškodný,P., Sklenák,L.: Theoretical Mechanics in Examples II (in Czech). PF, Ostrava,
Czech Republic 1986
Záškodný,P. et al.: Principles of Economical Statistics (in Czech). VSFS, Praha, Czech
Republic 2004
Budínský,P., Záškodný,P.: Financial and Investment Mathematics. VSFS, Prague 2004
Záškodný,P. et al.: Principles of Health Statistics (in Czech). JU, České Budějovice, Czech
Republic 2005
Kozlovská,D., Skalická,Z., Záškodný,P.: Introduction to Practicum from Radiological
Physics. JCU, České Budějovice, Czech Republic, 2007
Záškodný,P., Pavlát,V., Budík,J.: Financial Derivates and Their Evaluation. Prague,
University of Finance and Administration, 2009
iv) The papers
Approximately 100 papers
135
Global references
Dalgaard,P. (2008). Introductory Statistics with R. Second Edition. New York, USA:
Springer. (In English)
ISBN-13: 978-038779-053-4
Field,A. (2009). Discovering Statistics Using SPSS. Third Edition. London, New Delhi,
Singapore: SAGE. (In English)
ISBN-13: 978-184787-907-3
Jorion,P. (2007). Financial Risk Manager. Handbook. Hoboken, New Jersey, USA:
Wiley&Sons. (In English)
ISBN 978-0-470-12630-1
Matloff,N. (2011). The Art R Programming: A Tour of Statistical Software Design. USA: No
Starch Press. (In English)
ISBN-13: 978-159327-384-2
Pavlát,V., Záškodný,P. (2012). From Financial Derivatives to Option Hedging. Prague, Czech
Republic: Curriculum. (In Czech)
ISBN 978-80-904948-3-1
Tarábek,P., Záškodný,P. (2011). Data Mining Tooůs in Statistics Education. In:
Educational&Didactic Communication 2010. Bratislava, Slovakia: Didaktis. (In English)
ISBN 978-80-89160-78-5
Záškodný,P. et al (2007). Principles of Economical Statistics. Prague, Czech Republic:
Eupress. (Partly on English)
ISBN 80-86754-00-6