Реклама Rambler's Top100 Service     Все Кулички
 
Заневский Летописец
 
    Виртуальный орган невиртуальной жизни
     Тринадцатый год издания 10.01.2012         N 2065   

Статистический ликбез

(Начало)
          Повторяю еще раз, дальнейшее я пишу только для тех, кто хочет понять.

    Всегда и везде - в любых учебниках, справочниках, популярных статьях, - в самом начале обязательно подчеркивается, что гауссово распределение получается только в случае независимых повторных испытаний.

    А в модели (если эту белиберду можно назвать "моделью"), ссылку на которую я давал несколько ранее, случайное число поданных голосов изначально ставится в зависимость от другого случайного числа (числа явки).

    Вот эта цитата:

    "Действительно, если на неких "избирательных участках" случайное количество избирателей Y от 1 до N, и число "проголосовавших за ЕР" тоже случайное от 0 до Y, то распределение процента проголосовавших в силу математических причин будет давать не лохматую линию, а пики на круглых значениях..."
    Распределение по интервалу такой хитрой последовательности случайных величин (зависимых от других случайных величин) не будет равномерным.

    Действительно, если случайное число первой последовательности окажется большим, то случайное число второй последовательности может оказаться и большим и малым.
    А если случайное число первой последовательности окажется малым, то случайное число второй последовательности обязательно будет малым.
    Таким образом, малых чисел во второй последовательности будет значительно больше, чем больших.
    О какой равномерности распределения можно говорить?

    А если распределение последовательности не равномерно по интервалу, из нее невозможно получить последовательность с нормальным распределением: она и не получилась.
    Потому что стадо верблюдов с жирафом посередине, полученное "экспериментатором Кагановым" может назвать "гауссовой кривой" только полный невежда в статистике.
    Остальные знают, что у гауссовой кривой вершина плоская.

    Самое интересное, что цитируемый мною кусок автор не сам придумал.
    Он взял его у своего опровергателя, математический "авторитет", которого подтвержден золотой медалью и красным дипломом.
    Однако, ахинея, которую себе позволяет этот победитель математических олимпиад, говорит скорее о предельно низкой цене полученных им наград, чем о его знании предмета.

    (Насколько мне известно, вопросами распределений случайных величин, зависимых одна от другой, до сих пор никто серьезно не занимался.
    Просто в силу непонятности ее практического применения: для абсолютного большинства случаев вполне хватает исследований Гаусса.)

    Но проверить полученные последовательности на равномерность распределения по интервалу было абсолютно необходимо, тем более что сделать это очень просто.
    Этим мог бы заняться и сам золотомедальный автор и цитировавший его опровергатель Каганов, если бы они постарались хоть чуточку разобраться в вопросе, а не занимались бы сведением своих мелко-политических счетов.

    Рассмотрим два простейших случая.
    Первый алгоритм получает последовательность, равномерно распределенную по интервалу N, и показывает ее на графике. (За основу берем кагановскую "модель" и его же функции для построения графика.)

    Вот содержательная часть (полный текст программы здесь, можете загрузить ее на сервер и проверить; только имейте в виду, что сервера могут отличаться настройками вывода графики):

$N=690; // Количество избирателей на каждом участке
$r=array(); // массив распределения
for($i=0;$i<10000;$i++) { // Возьмем 10000 участков
	 //инициализируем датчик случайных чисел для каждого участка
srand((double) microtime()*1000000);
$Y=floor(rand(1,$N)); // общее количество бюллетеней (явка от 1 до N)
$XY=floor(($Y/$N)*1000); // индексы распределения по интервалу N с шагом 0,1*N
$r[$XY]++; // количество участков с равным числом явившихся суммируется 
             // и записывается в нужное место ([$XY]) массива распределения $r
}
    Полученное распределение имеет вид:
Равномерное распределение по интервалу
    Получилось вполне равномерное по интервалу распределение.
    Ничего удивительного: над алгоритмом получения такого распределения работали настоящие математики, хотя вполне вероятно, что "красных" дипломов у них не было.

    Обращаю ваше внимание, что каждая вертикальная черточка - не само случайное число, а количество одинаковых случайных чисел в общем массиве из 6900000 элементов.
    То есть крайняя правая черточка - количество чисел 690, левее - количество чисел 659 и так далее.

    Правда, пытливый читатель может заметить множество пробелов.
    Они появляются от того, что величина интервала N выбрана меньше длины шкалы (1000).
    То есть 690 черточек растянуты на 1000 пикселей по горизонтали. Естественно, что на все пиксели черточек не хватает.
    (Возьмите десяток листов бумаги и разложите их на длине в 10 метров: у вас получатся огромные пробелы.
    Возьмите листов пятьсот, - и пробелы не только исчезнут, но вам придется класть по нескольку листов друг на друга.)

    Здесь то же самое.
    Увеличьте N примерно до 1000, - и пробелы пропадут.
    Увеличьте до 1300, - получите характерную гребенку: в некоторых местах образуются "пачки из нескольких листов".
    То же самое получится, если менять коэффициент 1000 - цену деления шкалы - в предпоследней строке.
    (Чтобы не возиться с исходниками, поэкспериментировать с этими величинами можно здесь.)

    Изменение соотношения N и длины шкалы не влияет на равномерность распределения по интервалу, меняется только отображение на графике.

    Разобрались?

(Продолжение)



    Моделирование выборов и прочая статистика
    А также другие Заметки политического обывателя
    


Обложка      Предыдущий номер       Следующий номер

   А Смирнов    ©1999-2024
Designed by Julia Skulskaya© 2000   

За малые деньги стирка ковров в красноярске для вас совсем недорого.