Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 20256 сообщений
Cообщения с меткой

статистика - Самое интересное в блогах

Следующие 30  »
lj_dolboeb

Судебная статистика: 0 оправдательных приговоров

Пятница, 30 Сентября 2016 г. 14:51 (ссылка)

Готовлю последнее слово на понедельник. Надеюсь, успею его тут опубликовать — если не видео/трансляцию, то, по крайней мере, текстовую версию.

В порядке подготовки изучаю кое-какую правоприменительную статистику.

По данным Судебного департамента при Верховном суде РФ, в 2015 году по статье 282 ч. 1 УК в России был вынесен приговор в отношении 369 подсудимых. В том числе — 369 человек осуждено и 0 человек оправдано. Перспектива, прямо сказать, бодрящая.

За предшествующие годы у ВС статистика оправданий отсутствует, есть только данные о числе осужденных. В 2014 году их было 258, в 2013 году — 174, в 2012 году — 118. Итого, 919 врагов народа осуждено по моей статье за третий срок, и прирост осужденных по этой статье за три года составил 268%.

282-я статья входит (наряду с госизменой, шпионажем и диверсиями) в 29-ю главу УК «Преступления против основ конституционного строя и безопасности государства».

Нашёл занятные сводные данные по судебной практике в России.
В среднем один районный судья рассматривает 70 уголовных дел в год. Доля оправдательных приговоров в первой инстанции — 0,2%. То есть один приговор из 500. Легко посчитать, что среднестатистический российский судья выносит один оправдательный приговор за 7 лет практики. Впрочем, никто ведь не сказал, что оправдания размазаны по судейскому корпусу равномерно. Если живёт в России один такой добренький судья, который выносит по одному оправдательному приговору в год, то за нейтрализацию вредных последствий его деятельности для Государства отвечают шестеро его коллег, которые ни одного оправдательного приговора в 2010-х годах не вынесли и не вынесут.

Часть дел в России, как известно, рассматривается с участием судов присяжных. И там видим очень тревожную цифру: целых 13% оправдательных приговоров! Не стоит волноваться: законодательство, регулирующее работу судебной системы, успешно борется с этой угрозой. Если в 2010 году суды присяжных рассмотрели в России 1617 дел, то в 2014-м — всего 893. Доля дел, рассмотренных с участием присяжных, сегодня не превышает 0,1%. При этом с каждым годом всё новые категории деяний и обвиняемых изымаются из их подсудности. Так, с 2014 года возможности ходатайствовать о рассмотрении их дела судом присяжных лишились лица младше 18 и старше 65 лет. А 31-я статья УПК отказывает в таком праве ещё и женщинам.

За рассмотрением дел в районных судах может последовать их обжалование в вышестоящих инстанциях. По ним тоже очень интересные цифры. Ошибается тот, кто думает, что там редко отменяют обвинительные приговоры. Это происходит в целых 3% случаев! Правда, из оправдательных приговоров в апелляции отменяются 30%.

Другой вопрос, что само по себе обжалование приговоров первой инстанции является событием достаточно редким в российской судебной практике: в 2014 году до апелляции дошли 14,2% приговоров, а до кассации — 0,6%. То есть 85,8% россиян, получивших обвинительный приговор в райсуде, отправляются его отбывать без лишних споров с судебной системой, отказываясь от 3%-ного шанса на оправдание в вышестоящей инстанции. Так что не врёт социология: 86% по обыкновению одобряют политику партии, даже выраженную в форме приговора. Со своей стороны могу обещать: даже если меня приговорят к штрафу в один российский рубль, я всё равно буду любой обвинительный приговор обжаловать. А любой оправдательный приговор будет обжаловать Екатерина Сергеевна Фролова. Так что в 14,2% обжалованных мой приговор в понедельник попадёт в любом случае.

http://dolboeb.livejournal.com/3047748.html

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_rss_hh_new

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

Пятница, 30 Сентября 2016 г. 10:46 (ссылка)

Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить токи над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.



В первую очередь, данный материал будет интересен студентам, изучающим теорию вероятностей и статистику, хотя и «зрелые» специалисты смогут его использовать в качестве справочника. В одной из следующих работ я покажу пример использования статистики для построения теста оценки значимости показателей биржевых торговых стратегий.



В работе будут рассмотрены дискретные распределения:


  1. Бернулли;

  2. биноминальное;

  3. геометрическое;

  4. Паскаля (отрицательное биноминальное);

  5. гипергеометрическое;

  6. Пуассона,



а также непрерывные распределения:


  1. Гаусса (нормальное);

  2. хи-квадрат;

  3. Стьюдента;

  4. Фишера;

  5. Коши;

  6. экспоненциальное (показательное) и Лапласа (двойное экспоненциальное, двойное показательное);

  7. Вейбулла;

  8. гамма;

  9. бета.



В конце статьи будет задан вопрос для размышлений. Свои размышления по этому поводу я изложу в следующей статье.



Некоторые из приведённых непрерывных распределений являются частными случаями распределения Пирсона.



Дискретные распределения



Дискретные распределения используются для описания событий с недифференцируемыми характеристиками, определёнными в изолированных точках. Проще говоря, для событий, исход которых может быть отнесён к некоторой дискретной категории: успех или неудача, целое число (например, игра в рулетку, в кости), орёл или решка и т.д.



Описывается дискретное распределение вероятностью наступления каждого из возможных исходов события. Как и для любого распределения ( в том числе непрерывного) для дискретных событий определены понятия матожидания и дисперсии. Однако, следует понимать, что матожидание для дискретного случайного события — величина в общем случае нереализуемая как исход одиночного случайного события, а скорее как величина, к которой будет стремиться среднее арифметическое исходов событий при увеличении их количества.



В моделировании дискретных случайных событий важную роль играет комбинаторика, так как вероятность исхода события можно определить как отношение количества комбинаций, дающих требуемый исход к общему количеству комбинаций. Например: в корзине лежат 3 белых мяча и 7 чёрных. Когда мы выбираем из корзины 1 мяч, мы можем сделать это 10-ю разными способами (общее количество комбинаций), но только 3 варианта, при которых будет выбран белый мяч (3 комбинации, дающие требуемый исход). Таким образом, вероятность выбрать белый мяч: 3/10 (распределение Бернулли).



Следует также отличать выборки с возвращением и без возвращения. Например, для описания вероятности выбора двух белых мячей важно определить, будет ли первый мяч возвращён в корзину. Если нет, то мы имеем дело с выборкой без возвращения (гипергеометрическое распределение) и вероятность будет такова: (3/10) х (2/9) — вероятность выбрать белый мяч из начальной выборки умноженная на вероятность снова выбрать белый мяч из оставшихся в корзине. Если же первый мяч возвращается в корзину, то это выборка с возвращением (Биноминальное распределение). В этом случае вероятность выбора двух белых мячей составит (3/10) х (3/10).



наверх



Распределение Бернулли





(взято отсюда)



Если несколько формализовать пример с корзиной следующим образом: пусть исход события может принимать одно из двух значений 0 или 1 с вероятностями q и p соответственно, тогда распределение вероятности получения каждого из предложенных исходов будет называться распределение Бернулли:

Bin_{p,q}\left(x\right)=\begin{cases}q,x=0\\ p, x=1\end{cases}




По сложившейся традиции, исход со значением 1 называется «успех», а исход со значением 0 — «неудача». Очевидно, что получение исхода «успех или неудача» наступает с вероятностью p+q=1.



Матожидание и дисперсия распределения Бернулли:



E\{Bin_{p,q}\}=p\ \ \ \ \left(1.1.2\right)


D\{Bin_{p,q}\}=pq=p\left(1-p\right)\ \ \ \ \left(1.1.3\right)




наверх



Биноминальное распределение





(взято отсюда)



Количество k успехов в n испытаниях, исход которых распределен по Бернулли с вероятностью успеха p (пример с возвращением мячей в корзину), описывается биноминальным распределением:

B_{n,p}(k)=C^n_kp^kq^{n-k}\ \ (1.2.1)


где C^n_k={n!\over{k!(n-k)!}} — число сочетаний из n по k.



По другому можно сказать, что биноминальное распределение описывает сумму из n независимых случайных величин, умеющих распределение Бернулли с вероятностью успеха n.

Матожидание и дисперсия:



E\{B_{n,p}\}=np\ \ (1.2.2)


D\{B_{n,p}\}=npq\ \ (1.2.3)


Биноминальное распределение справедливо только для выборки с возвращением, то есть, когда вероятность успеха остаётся постоянной для всей серии испытаний.



Если величины X и Y имеют биноминальные распределения с параметрами и соответственно, то их сумма также будет распределена биноминально с параметрами .



наверх



Геометрическое распределение





(взято отсюда)



Представим ситуацию, что мы вытягиваем мячи из корзины и возвращаем обратно до тех пор, пока не будет вытянут белый шар. Количество таких операций описывается геометрическим распределением. Иными словами: геометрическое распределение описывает количество испытаний n до первого успеха при вероятности наступления успеха в каждом испытании p. Если n подразумевается номер испытания, в котором наступил успех, то геометрическое распределение будет описываться следующей формулой:



Geom_p(n)=q^{n-1}p\ \  (1.3.1)


Матожидание и дисперсия геометрического распределения:



E\{Geom_p\}={1\over{p}}\ \ \ (1.3.2)


D\{Geom_p\}={q\over{p^2}}\ \ \ (1.3.3)




Геометрическое распределение генетически связано с экспоненциальным распределением, которое описывает непрерывную случайную величину: время до наступления события, при постоянной интенсивности событий. Геометрическое распределение также является частным случаем отрицательного биноминального распределения.



наверх



Распределение Паскаля (отрицательное биноминальное рспределение)





(взято отсюда)



Распределение Паскаля является обобщением геометрического распределения: описывает распределение количества неудач k в независимых испытаниях, исход которых распределен по Бернулли с вероятностью успеха p до наступления r успехов в сумме. При r=1, мы получим геометрическое распределение для величины k+1.



NB_{r,p}(k)=C^{k+r-1}_kp^rq^k\ \ (1.4.1)


где С — число сочетаний.



Матожидание и дисперсия отрицательного биноминального распределения:



E\{NB_{r,p}\}={rq\over{p}}\ \ \ (1.4.2)


D\{NB_{r,p}\}={rq\over{p^2}}\ \ \ (1.4.3)




Сумма независимых случайных величин, распределённых по Паскалю, также распределена по Паскалю: пусть X имеет распределение , а Y — . Пусть также X и Y независимы, тогда их сумма будет иметь распределение



наверх



Гипергеометрическое распределение





(взято отсюда)



До сих пор мы рассматривали примеры выборок с возвращением, то есть, вероятность исхода не менялась от испытания к испытанию.

Теперь рассмотрим ситуацию без возвращения и опишем вероятность количества успешных выборок из совокупности с заранее известным количеством успехов и и неудач (заранее известное количество белых и чёрных мячей в корзине, козырных карт в колоде, бракованных деталей в партии и т.д.).

Пусть общая совокупность содержит N объектов, из них D помечены как «1», а N-D как «0». Будем считать выбор объекта с меткой «1», как успех, а с меткой «0» как неудачу. Проведём n испытаний, причём выбранные объектв больше не будут участвовать в дальнейших испытаниях. Вероятность наступления k успехов будет подчиняться гипергеометрическому распределению:



HG_{N,D,n}(k)={C^D_kC^{N-D}_{n-k}\over{C^N_n}}\ \ (1.5.1)


где С — число сочетаний.



Матожидание и дисперсия:



E\{HG_{N,D,n}\}={nD\over{N}}\ \ (1.5.2)


D\{HG_{N,D,n}\}=n{D\over{N}}{N-D\over{N}}{N-n\over{N-1}}\ \ (1.5.3)




наверх



Распределение Пуассона





(взято отсюда)



Распределение Пуассона значительно отличается от рассмотренных выше распределений своей «предметной» областью: теперь рассматривается не вероятность наступления того или иного исхода испытания, а интенсивность событий, то есть среднее количество событий в единицу времени.



Распределение Пуассона описывает вероятность наступления k независимых событий за время t при средней интенсивности событий :



P_{\lambda,t}(k)={\left(\lambda t\right)^k\over{k!}}e^{\lambda t}\ \ \ (1.6.1)




Матожидание и дисперсия распределения Пуассона:



E\{P_{\lambda,t}\}=\lambda t\ \ \ (1.6.2)


D\{P_{\lambda,t}\}=\lambda t\ \ \ (1.6.3)




Дисперсия и матожидание распределения Пуассона тождественно равны.



Распределение Пуассона в сочетании с экспоненциальным распределением, описывающим интервалы времени между наступлениями независимых событий, составляют математическую основу теории надёжности.



наверх



Непрерывные распределения



Непрерывные распределения, в отличие от дискретных, описываются функциями плотности (распределения) вероятности f(x), определёнными, в общем случае, на некоторых интервалах.



Если известна плотность вероятности для величины х: f(x) и определено преобразование y=g(x), то плотность вероятности для y может быть получена автоматически:



f_y(y)=f\left(g^{-1}(y)\right)\left|{dg^{-1}\over{dy}}(y)\right|\ \ \ (2.0.1)




при условии дифференцируемости g(x).



Плотность вероятности h(z) суммы случайных величин x и y (z=x+y) с распределениями f(x) и g(y) описывается свёрткой f и g:



h(z)=\int f(t)g(z-t)dt=(f*g)(z)\ \ \ (2.0.2)




Если распределение суммы случайных величин принадлежит к тому же распределению, что и слагаемые, такое распределение называется бесконечно делимым. Примеры бесконечно делимых распределений: нормальное, хи-квадрат, гамма, распределение Коши.



Плотность вероятности h(z) произведения случайных величин x и y (z=xy) с распределениями f(x) и g(y) может быть вычислена следующим образом:



h(z)=\int f(t)g(z/t)dt\ \ \ (2.0.3)






Некоторые из приведённых ниже распределений являются частными случаями распределения Пирсона, которое, в свою очередь, является решением уравнения:



{df\over{dx}}(x)={a_0+a_1x\over{b_0+2b_1x+b_2x^2}}f(x)\ \ \ (2.0.4)




где и — параметры распределения. Известны 12 типов распределения Пирсона, в зависимости от значений параметров.



Распределения, которые будут рассмотрены в этом разделе, имеют тесные взаимосвязи друг с другом. Эти связи выражаются в том, что некоторые распределения являются частными случаями других распределений, либо описывают преобразования случайных величин, имеющих другие распределения.



На приведённой ниже схеме отражены взаимосвязи между некоторыми из непрерывных распределений, которые будут рассмотрены в настоящей работе. На схеме сплошными стрелками показано преобразование случайных величин (начало стрелки указывает на изначальное распределение, конец стрелки — на результирующее), а пунктирными — отношение обобщения (начало стрелки указывает на распределение, являющееся частным случаем того, на которое указывает конец стрелки). Для частных случаев распределения Пирсона над пунктирными стрелками указан соответствующий тип распределения Пирсона.





Предложенный ниже обзор распределений охватывает многие случаи, которые встречаются в анализе данных и моделировании процессов, хотя, конечно, и не содержит абсолютно все известные науке распределения.



наверх



Нормальное распределение (распределение Гаусса)





(взято отсюда)



Плотность вероятности нормального распределения с параметрами и описывается функцией Гаусса:

f(x)={1\over{\sigma \sqrt{2 \pi}}}e^{(x-\mu)^2\over{2\sigma^2}}\ \ \ (2.1.1)




Если и , то такое распределение называется стандартным.



Матожидание и дисперсия нормального распределения:



E\{N_{\mu,\sigma}\}=\mu\ \ \ (2.1.2)


D\{N_{\mu,\sigma}\}=\sigma^2\ \ \ (2.1.3)




Область определения нормального распределения — множество натуральных чисел.



Нормальное распределение является распределение Пирсона типа VI.



Сумма квадратов независимых нормальных величин имеет распределение хи-квадрат, а отношение независимых Гауссовых величин распределено по Коши.



Нормальное распределение является бесконечно делимым: сумма нормально распределенных величин x и y с параметрами и соответственно также имеет нормальное распределение с параметрами , где и .



Нормальное распределение хорошо моделирует величины, описывающие природные явления, шумы термодинамической природы и погрешности измерений.



Кроме того, согласно центральной предельной теореме, сумма большого количества независимых слагаемых одного порядка сходится к нормальному распределению, независимо от распределений слагаемых. Благодаря этому свойству, нормальное распределение популярно в статистическом анализе, многие статистические тесты рассчитаны на нормально распределенные данные.



На бесконечной делимости нормального распределении основан z-тест. Этот тест используется для проверки равенства матожидания выборки нормально распределённых величин некоторому значению. Значение дисперсии должно быть известно. Если значение дисперсии неизвестно и рассчитывается на основании анализируемой выборки, то применяется t-тест, основанный на распределении Стьюдента.



Пусть у нас имеется выборка объёмом n независимых нормально распределенных величин из генеральной совокупности со стандартным отклонением выдвинем гипотезу, что . Тогда величина z={\bar{X}-\mu\over{\sigma \sqrt{n}}} будет иметь стандартное нормальное распределение. Сравнивая полученное значение z с квантилями стандартного распределения можно принимать или отклонять гипотезу с требуемым уровнем значимости.



Благодаря широкой распространённости распределения Гаусса, многие, не очень хорошо знающие статистику исследователи забывают проверять данные на нормальность, либо оценивают график плотности распределения «на глазок», слепо полагая, что имеют дело с Гауссовыми данными. Соответственно, смело применяя тесты, предназначенные для нормального распределения и получая совершенно некорректные результаты. Наверное, отсюда и пошла молва про статистику как самый страшный вид лжи.



Рассмотрим пример: нам надо измерить сопротивления набора резистров некоторого номинала. Сопротивление имеет физическую природу, логично предположить, что распределение отклонений сопротивления от номинала будет нормальным. Меряем, получаем колоколообразную функцию плотности вероятности для измеренных значений с модой в окрестности номинала резистров. Это нормальное распределение? Если да, то будем искать бракованные резистры используя тест Стьюдента, либо z-тест, если нам заранее известна дисперсия распределения. Думаю, что многие именно так и поступят.



Но давайте внимательнее посмотрим на технологию измерения сопротивления: сопротивление определяется как отношение приложенного напряжения к протекающему току. Ток и напряжение мы измеряли приборами, которые, в свою очередь, имеют нормально распределенные погрешности. То есть, измеренные значения тока и напряжения — это нормально распределенные случайные величины с матожиданиями, соответствующими истинным значениям измеряемых величин. А это значит, что полученные значения сопротивления распределены по Коши, а не по Гауссу.



Распределение Коши лишь напоминает внешне нормальное распределение, но имеет более тяжёлые хвосты. А значит предложенные тесты неуместны. Надо строить тест на основании распределения Коши или вычислить квадрат сопротивления, который в данном случае будет иметь распределение Фишера с параметрами (1, 1).



к схеме

наверх



Распределение хи-квадрат





(взято отсюда)



Распределение описывает сумму n квадратов случайных величин , каждая из которых распределена по стандартному нормальному закону :



\chi^2_n(x)={{\left(1\over 2 \right)}^{k\over 2}\over{\Gamma\left({k\over{2}}\right)}}x^{{k\over 2}-1}e^{-{x\over 2}}\ \ \ (2.2.1)




где n — число степеней свободы, x=\sum\limits_{i=1}^n {X^2_i}.



Матожидание и дисперсия распределения :



E\{\chi^2_n\}=n\ \ \ (2.2.2)


D\{\chi^2_n\}=2n\ \ \ (2.2.3)




Область определения — множество неотрицательных натуральных чисел. является бесконечно делимым распределением. Если x и y — распределены по и имеют и степеней свободы соответственно, то их сумма также будет распределена по и иметь степеней свободы.



является частным случаем гамма-распределения (а следовательно, распределением Пирсона типа III) и обобщением экспоненциального распределения. Отношение величин, распределенных по распределено по Фишеру.



На распределении основан критерий согласия Пирсона. с помощью этого критерия можно проверять достоверность принадлежности выборки случайной величины некоторому теоретическому распределению.



Предположим, что у нас имеется выборка некоторой случайной величины . На основании этой выборки рассчитаем вероятности попадания значений X в n интервалов (k=1:n). Пусть также есть предположение об аналитическом выражении распределения, в соответствие с которым, вероятности попадания в выбранные интервалы должны составлять . Тогда величины будут распределены по нормальному закону.



Приведем к стандартному нормальному распределению: ,

где m={1\over n}\sum \limits_{i=1}^n {D_i} и S=\sqrt {{1\over {n-1}}\sum \limits_{i=1}^n {D_i^2}}.



Полученные величины имеют нормальное распределение с параметрами (0, 1), а следовательно, сумма их квадратов распределена по с n-1 степенью свободы. Снижение степени свободы связано с дополнительным ограничением на сумму вероятностей попадания значений в интервалы: она должна быть равна 1.



Сравнивая значение с квантилями распределения можно принять или отклонить гипотезу о теоретическом распределении данных с требуемым уровнем значимости.



к схеме

наверх



Распределение Стьюдента (t-распределение)





(взято отсюда)



Распределение Стьюдента используется для проведения t-теста: теста на равенство матожидания выборки стандартно нормально распределённых случайных величин некоторому значению, либо равенства матожиданий двух нормальных выборок с одинаковой дисперсией (равенство дисперсий необходимо проверять f-тестом). Распределение Стьюдента описывает отношение нормально распределённой случайной величины к величине, распределённой по хи-квадрат.



T-тест является аналогом z-теста для случая, когда дисперсия или стандартное отклонение выборки неизвестно и должно быть оценено на основании самой выборки.



Рассмотрим пример проверки равенства матожидания нормальной выборки некоторому значению: пусть нам дана выборка нормальных величин объёмом n из некоторой генеральной совокупности, выдвинем и проверим гипотезу о том, что матожидание этой совокупности равно m.



Рассчитаем величину . Эта величина будет иметь распределение хи-квадрат. Тогда величина будет иметь распределение Стьюдента c n-1 степенью свободы, где:



T_{n}(x)={\Gamma \left({n+1 \over 2}\right) \over {\sqrt{n \pi}\Gamma \left({n \over 2}\right)\left(1+{x^2 \over n}\right)^{n+1 \over 2}}}\ \ \ (2.3.1)




где Г(x) — гамма-функция Эйлера.



Полученное значение можно сравнивать с квантилями распределения Стьюдента и принимать либо отклонять гипотезу о равенстве маотожидания значению m с требуемым уровнем значимости.



Матожидание и дисперсия распределения Стьюдента:



E\{T_{n}\}=0\ \ \ (2.3.2)


D\{T_{n}\}={n \over {n-2}}\ \ \ (2.3.3)


при n>2.



к схеме

наверх



Распределение Фишера





(взято отсюда)



Пусть X и Y независимые случайные величины, имеющие распределение хи-квадрат со степенями свободы и соответственно. Тогда величина будет иметь распределение Фишера со степенями свободы , а величина — распределение Фишера со степенями свободы .

Распределение Фишера определено для действительных неотрицательных аргументов и имеет плотность вероятности:



F_{n_1,n_2}(x)={\sqrt{ (n_1x)^{n_1}n_2^{n_2}\over {(n_1x+n_2)^{n_1+n_2}}} \over {xB\left({n_1 \over 2},{n_2 \over 2} \right)}}\ \ \ (2.4.1)




Матожидание и дисперсия распределения Фишера:



E\{F_{n_1,n_2}\}={n_2 \over {n_2-2}}\ \ \ (2.4.2)


D\{F_{n_1,n_2}\}={2n_2^2(n_1+n_2-2) \over {n_1(n_2-2)^2(n_2-4)}}\ \ \ (2.4.3)




Матожидание определено для , а диспересия — для .



На распределении Фишера основан ряд статистических тестов, таких как оценка значимости параметров регрессии, тест на гетероскедастичность и тест на равенство дисперсий нормальных выборок (f-тест, следует отличать от точного теста Фишера).



F-тест: пусть имеются две независимые выборки и нормально распределенных данных объёмами и соответственно. Выдвинем гипотезу о равенстве дисперсий выборок и проверим её статистически.



Рассчитаем величину . Она будет иметь распределение Фишера со степенями свободы .



Сравнивая значение F с квантилями соответствующего распределения Фишера, мы можем принять или отклонить гипотезу о равенстве дисперсий выборок с требуемым уровнем значимости.



к схеме

наверх



Распределение Коши





(взято отсюда)



Распределение Коши описывает отношение двух нормально распределенных случайных величин. В отличие от других распределений, для распределения Коши не определены матожидание и дисперсия. Для описания распределения используются коэффициенты сдвига и масштаба .



C_{x_0,\gamma}(x)={1\over{\pi \gamma \left(1+\left({x-x_0\over {\gamma}} \right)^2 \right)}}\ \ \ (2.5.1)




Распределение Коши является бесконечно делимым: сумма независимых случайных величин, распределённых по Коши, также распределена по Коши.



к схеме

наверх





Экспоненциальное (показательное) распределение и распределение Лапласа (двойное экспоненциальное, двойное показательное)





(взято отсюда)



Экспоненциальное распределение описывает интервалы времени между независимыми событиями, происходящими со средней интенсивностью . Количество наступлений такого события за некоторый отрезок времени описывается дискретным распределением Пуассона. Экспоненциальное распределение вместе с распределением Пуассона составляют математическую основу теории надёжности.



Кроме теории надёжности, экспоненциальное распределение применяется в описании социальных явлений, в экономике, в теории массового обслуживания, в транспортной логистике — везде, где необходимо моделировать поток событий.



Экспоненциальное распределение является частным случаем распределения хи-квадрат (для n=2), а следовательно, и гамма-распределения. Так-как экспоненциально распределённая величина является величиной хи-квадрат с 2-мя степенями свободы, то она может быть интерпретирована как сумма квадратов двух независимых нормально распределенных величин.



Кроме того, экспоненциальное распределение является честным случаем распределения Вейбулла.



Дискретный вариант экспоненциального распределения — это геометрическое распределение.



Плотность вероятности экспоненциально распределения:



E_\lambda(x)=\lambda e^{-\lambda x}\ \ \ (2.6.1)




определена для неотрицательных действительных значений х.



Матожидание и дисперсия экспоненциального распределения:



E\{E_\lambda\}={1 \over \lambda} \ \ \ (2.6.2)


E\{E_\lambda\}={1 \over \lambda^2} \ \ \ (2.6.3)




Если функцию плотности вероятностей экспоненциального распределения отразить зеркально в область отрицательных значений, то есть, заменить х на |x|, то получится распределение Лапласа, также называемое двойным экспоненциальным или двойным показательным.



(взято отсюда)



Для большего обобщения, вводится параметр сдвига, смещающий центр «соединения» левой и правой частей распределения вдоль оси абсцисс. В отличие от экспоненциального, распределение Лапласа, определено на всей действительной числовой оси.



L_{\alpha,\beta}(x)={\alpha \over 2}e^{-\alpha \left|x-\beta\right|} \ \ \ (2.6.4)




где — параметр масштаба, а — параметр сдвига.



Матожидание и дисперсия:



E\{L_{\alpha, \beta}\}=\beta\ \ \ (2.6.5)


D\{L_{\alpha, \beta}\}={2 \over {\alpha^2}}\ \ \ (2.6.6)




Благодаря более тяжёлым хвостам, чем у нормального распределения, распределение Лапласа используется для моделирования некоторых видов погрешностей измерения в энергетике, а также находит применение в физике, экономике, финансовой статистике, телекоммуникации и т.д.



к схеме

наверх



Распределение Вейбулла





(взято отсюда)



Распределение Вейбулла описывается функцией плотности вероятности следующего вида:



W_{k, \lambda}(x)={k \over {\lambda}}\left({x \over {\lambda}}\right)^{k-1}e^{-\left({x \over {\lambda}}\right)^k}\ \ \ (2.7.1)




где ( > 0)- интенсивность событий (аналогично параметру экспоненциального распределения), а k — показатель нестационарности (k > 0). При k = 1, распределение Вейбулла вырождается в экспоненциальное распределение, а в остальных случаях описывает поток независимых событий с нестационарной интенсивностью. При k > 1 моделируется поток событий с растущей со временем интенсивностью, а при k < 1 — со снижающейся. Область определения функции распределения плотности вероятностей: неотрицательные действительные числа.



Таким образом, распределение Вейбулла — обобщение экспоненциального распределения на случай нестационарной интенсивности событий. Используется в теории надёжности, моделировании процессов в технике, в прогнозировании погоды, в описании процесса измельчения и т.д.



Матожидание и дисперсия распределения Вейбулла:



E\{W_{k, \lambda}\}=\lambda \Gamma\left(1 + {1 \over k} \right)\ \ \ (2.7.2)


D\{W_{k, \lambda}\}=\lambda^2 \left(\Gamma\left(1 + {2 \over k} \right ) - \Gamma\left(1 + {1 \over k} \right )^2\right)\ \ \ (2.7.3)




где — гамма-функция Эйлера.



к схеме

наверх



Гамма-распределение (распределение Эрланга)





(взято отсюда)



Гамма-распределение является обобщением рапсределения хи-квадрат и, соответственно, экспоненциального распределения. Суммы квадратов нормально распределённых величин, а также суммы величин распределённых по хи-квадрат и по экспоненциальному распределению будут иметь гамма-распределение.



Гамма-распределение является распределением Пирсона III рода. Область определения гамма-распределения — натуральные неотрицательные числа.



Гамма-распределение определяется двумя неотрицательными параметрами k — число степеней свободы (при целом значении степеней свободы, гамма-распределение называется распределением Эрланга) и коэффициент масштаба .



Гамма-распределение является бесконечно делимым: если величины X и Y имеют распределения и соответсвенно, то величина X+Y будет иметь распределение



G_{k,\theta}(x)=x^{k-1}{e^{-{x \over \theta}}\over \Gamma(k) \theta^k}\ \ \ (2.8.1)




где Г(x) — гамма-функция Эйлера.



Матожидание и дисперсия:



E\{G_{k,\theta}\}=k\theta\ \ \ (2.8.2)


D\{G_{k,\theta}\}=k\theta^2\ \ \ (2.8.3)




Гамма распределение широко применяется для моделирования сложных потоков событий, сумм временных интервалов между событиями, в экономике, теории массового обслуживания, в логистике, описывает продолжительность жизни в медицине. Является своеобразным аналогом дискретного отрицательного биноминального распределения.



к схеме

наверх



Бета-распределение





(взято отсюда)



Бета-распределение описывает долю суммы двух слагаемых, приходящуюся на каждое из них, если слагаемые являются случайными величинами, имеющими гамма-распределение. То есть, если величины и имеют гамма-распределение, величины и будут иметь бета-распределение.



Очевидно, что область определения бета-распределения [0, 1]. Бета-распределение является распределение Пирсона I типа.



B_{\alpha,\beta}={x^{\alpha -1}(1-x)^{\beta - 1}\over{B(\alpha, \beta)}}\ \ \ (2.9.1)




где параметры и — положительные натуральные числа, — бета-функция Эйлера.



Матожидание и дисперсия:



E\{B_{\alpha, \beta}\}={\alpha \over{\alpha+\beta}}\ \ \ (2.9.2)


D\{B_{\alpha, \beta}\}={\alpha \beta \over{(\alpha+\beta)^2(\alpha+\beta+1)}}\ \ \ (2.9.3)




к схеме

наверх



Вместо заключения



Мы рассмотрели 15 распределений вероятности, которые, на мой взгляд, охватывают большинство наиболее популярных приложений статистики.



Напоследок, небольшое домашнее задание: для оценки надёжности биржевых торговых систем используется такой показатель как профит-фактор. Профит-фактор рассчитывается как отношение суммарного дохода к суммарному убытку. Очевидно, что для системы, приносящей доход, профит-фактор больше единицы, и чем его значение выше, тем система надёжнее.



Вопрос: какое распределение имеет значение профит-фактора?



Свои размышления по этому поводу я изложу в следующей статье.
Original source: habrahabr.ru (comments, light).

https://habrahabr.ru/post/311092/

Комментарии (0)КомментироватьВ цитатник или сообщество
Странник-52

Я только разместил объяву©

Вторник, 28 Сентября 2016 г. 01:56 (ссылка)

1. С 9 по 14 сентября 2016 года Центр Разумкова провёл опрос во всех регионах Украины, за исключением оккупированных территорий Донбасса и Крыма.

Разрыв дипломатических отношений с Россией: за - 24,8%, против - 55%;

Читать далее...
Метки:   Комментарии (23)КомментироватьВ цитатник или сообщество
rss_rss_hh_new

Новый web-интерфейс статистики и прослушивания вызовов для IP АТС Asterisk

Вторник, 27 Сентября 2016 г. 08:59 (ссылка)

Идея написания web-интерфейса статистики и прослушивания вызовов для IP АТС Asterisk не покидала меня вот уже несколько лет. Решения, найденные в Интернет, не устраивали по тем или иным критериям — где-то не хватало функционала, какие-то из них совсем не радовали глаз.



И вот, вооружившись стеком технологий и оседлав боевого коня, предоставленного компанией ServerClub, я отправился в путь.



Результатом моего путешествия стал новый интерфейс, с диаграммами, графиками и возможностью скачивать и прослушивать вызовы.

Не стану далее утомлять вас словесами, вот пара скриншотов:







А под катом вас ждет видео-гайд по интерфейсу, необходимые настройки и подробное описание всего доступного функционала.





Интерфейс.



Дабы пост не выглядел как простыня из скриншотов, я сделал небольшое слайдшоу, где вы можете ознакомиться с интерфейсом.







Описание. Что уже готово, планы.



На текущий момент реализован следующий функционал:



Входящие вызовы:


  • Отчет — Количество звонков в очереди за период (всего/непринятые/отвеченные/не дождались ответа)

  • Диаграмма — Принятые/Непринятые

  • Диаграмма — Принятые, распределение по операторам

  • Диаграмма — Неотвеченные, распределение по операторам

  • Отчет — Статистика по операторам. Кто и сколько принял/не принял вызовов

  • Отчет — Причина разъединения (оператор/клиент)

  • Отчет — Вызовы. Сколько на дату Поступило/Отвеченных/Неотвеченных

  • Поиск записей в БД. Прослушивание и скачивание записей разговров



Исходящие вызовы:


  • Отчет — Всего звонков, неотвеченные/отвеченные/занято(ошибка вызова), общая продолжительность и распределение вызовов по длительности (см. след. пункт).

  • Диаграмма — Распределения вызовов по длительности: до 30с, от 30с до 90с, от 90с

  • Диаграмма — Количество звонков, распределение по менеджерам

  • Отчет — распределение звонков по длительности между менеджерами/операторами

  • Отчет — Вызовы. Сколько было совершено вызовов на дату (считаем только отвеченные*)

  • Поиск записей в БД. Прослушивание и скачивание записей разговров



*отчеты по исходящим строятся только по звонкам во мир, т.е. внутренние звонки между сотрудниками не учитываются



Так же доступны несколько настроек, где указывается использует ли Asterisk очереди* и путь к файлам записей разговоров на сервере.

*реализовано в настройках, но пока нет в интерфейсе



В ближайших планах добавить:


  • возможность группировать менеджеров/операторов и строить отчеты по группам

  • возможность создавать пользователей и разграничивать их права в просмотре отчетов по группам

  • построение отчетов, если на Asterisk не используются очереди

  • поиск, прослушивание и скачивание записей во всей БД, без фильтров «Входящие/Исходящие» (чтобы видеть и внутренние звонки)





Asterisk. Настройки



Для работы с описываемым интерфейсом потребуется Asterisk версии 1.8 и выше.

На АТС должно быть настроено ведение записей CDR и queue_log в БД MySQL. Если вы это еще не сделали, то я расскажу как.

Так же я приведу пример настройки диалплана Asterisk, для организации сохранения записей разговоров.



Настраиваем Asterisk для работы с MySQL
1. Устанавливаем необходимые пакеты (для примера в Debian/Ubuntu)

aptitude install unixodbc-dev libmyodbc


2. Asterisk должен быть собран со следующими опциями





3. Далее редактируем несколько конфиг-файлов

небольшой хинт, если odbc-коннектор не цепляется
Поймал на одной из систем баг, при котором коннектор почему-то перестал цепляться и астер сваливался в корку:



Core was generated by `asterisk -cvvvvvvvgd'.



Program terminated with signal 8, Arithmetic exception.



#0 0x00007ff4cc77a61b in sqlchar_as_sqlwchar () from /usr/lib/x86_64-linux-gnu/odbc/libmyodbc.so



решил тем, что скачал последнюю версию с сайта MySQL — dev.mysql.com/downloads/file/?id=461779



распаковал либы в /usr/lib/x86_64-linux-gnu/odbc/



и чуть подправил конфиг



/etc/odbcinst.ini



[MySQL] Descripti driver
Driver = /usr/lib/x86_64-linux-gnu/odbc/libmyodbc5w.so
Setup = /usr/lib/x86_64-linux-gnu/odbc/libodbcmy5S.so
CPTimeout =
CPReuse =




/etc/asterisk/res_odbc.conf



[asterisk]
enabled => yes
dsn => MySQL-asterisk
username => asterisk_user
password => 232d2edxse3e


cdr_adaptive_odbc.conf



[cdr_adaptive_connection]
connection=asterisk
table=cdr
alias start => calldate
# раскоментируй, если хочешь видеть реальный номер, накоторый пришел вызов, а не номер оператора очереди
#alias dst => does_not_exist
#alias realdst => dst


/etc/odbc.ini



[MySQL-asterisk]
Description = MySQL Asterisk database
;Trace = Off
;TraceFile = stderr
Driver = MySQL
Server = localhost
User = asterisk_user
Password = 232d2edxse3e
;Port = 3306
Socket = /var/run/mysqld/mysqld.sock
Database = asterisk
Charset = utf8


/etc/odbcinst.ini



[MySQL]
Description = MySQL driver
Driver = /usr/lib/odbc/libmyodbc.so
Setup = /usr/lib/odbc/libodbcmyS.so
CPTimeout =
CPReuse =


*для x64

[MySQL]
Description = MySQL driver
Driver = /usr/lib/x86_64-linux-gnu/odbc/libmyodbc.so
Setup = /usr/lib/x86_64-linux-gnu/odbc/libodbcmyS.so
CPTimeout =
CPReuse =


4. Создадим БД и таблицу cdr в MYSQL

mysql> create database asterisk;
mysql> use asterisk;
mysql> CREATE TABLE `cdr` ( `id` int(9) unsigned NOT NULL AUTO_INCREMENT,
`calldate` datetime NOT NULL DEFAULT '0000-00-00 00:00:00',
`clid` varchar(80) NOT NULL DEFAULT '',
`src` varchar(80) NOT NULL DEFAULT '',
`dst` varchar(80) NOT NULL DEFAULT '',
`dcontext` varchar(80) NOT NULL DEFAULT '',
`channel` varchar(80) NOT NULL DEFAULT '',
`dstchannel` varchar(80) NOT NULL DEFAULT '',
`lastapp` varchar(80) NOT NULL DEFAULT '',
`lastdata` varchar(80) NOT NULL DEFAULT '',
`duration` int(11) NOT NULL DEFAULT '0',
`billsec` int(11) NOT NULL DEFAULT '0',
`disposition` varchar(45) NOT NULL DEFAULT '',
`amaflags` int(11) NOT NULL DEFAULT '0',
`accountcode` varchar(20) NOT NULL DEFAULT '',
`uniqueid` varchar(32) NOT NULL DEFAULT '',
`userfield` varchar(255) NOT NULL DEFAULT '',
`filename` varchar(255) NOT NULL DEFAULT '',
PRIMARY KEY (`id`),
KEY `calldate` (`calldate`),
KEY `accountcode` (`accountcode`),
KEY `uniqueid` (`uniqueid`),
KEY `dst` (`dst`),
KEY `src` (`src`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;
mysql> grant all on asterisk.* to 'asterisk_user'@'localhost' identified by '232d2edxse3e';



5. Теперь создадим табличку queue_log

mysql> CREATE TABLE IF NOT EXISTS `queue_log` (
`time` varchar(32) DEFAULT NULL,
`callid` char(64) DEFAULT NULL,
`queuename` char(64) DEFAULT NULL,
`agent` char(64) DEFAULT NULL,
`event` char(32) DEFAULT NULL,
`data` char(64) DEFAULT NULL,
`data1` char(64) DEFAULT NULL,
`data2` char(64) DEFAULT NULL,
`data3` char(64) DEFAULT NULL,
`data4` char(64) DEFAULT NULL,
`data5` char(64) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
mysql> \q
Bye


6. Внесем в /etc/asterisk/extconfig.conf



строку

queue_log => odbc,asterisk


7. Перезагружаем Asterisk и проверяем подключение

*CLI> odbc show asterisk 
ODBC DSN Settings
-----------------
Name: asterisk
DSN: MySQL-asterisk
Last connection attempt: 1970-01-01 07:00:00
Pooled: No
Connected: Yes


8. Так же стоит позвонить и проверить попадают ли данные в БД



Диалплан Asterisk - выдержка из /etc/asterisk/extensions.ael
globals {
WAV=/var/calls; //Временный каталог с WAV
MP3=/var/calls; //Куда выгружать mp3 файлы
RECORDING=1; // Запись, 1 - включена.
};

macro recording (calling,called) {
if ("${RECORDING}" = "1"){
Set(fname=${UNIQUEID}-${STRFTIME(${EPOCH},,%Y-%m-%d-%H_%M)}-${calling}-${called});
Set(datedir=${STRFTIME(${EPOCH},,%Y/%m/%d)});
System(mkdir -p ${MP3}/${datedir});
System(mkdir -p ${WAV}/${datedir});
Set(monopt=nice -n 19 /usr/bin/lame -b 32 --silent "${WAV}/${datedir}/${fname}.wav" "${MP3}/${datedir}/${fname}.mp3" && rm -f "${WAV}/${fname}.wav" && chmod o+r "${MP3}/${datedir}/${fname}.mp3");
Set(CDR(filename)=${fname}.mp3);
Set(CDR(recordingfile)=${fname}.wav);
Set(CDR(realdst)=${called});
MixMonitor(${WAV}/${datedir}/${fname}.wav,b,${monopt});

};
};

_XXXXXX => {
&recording(${CALLERID(number)},${EXTEN});
Dial(SIP/83843${EXTEN}@multifon,180,tT);
HangUP();
} // end of _XXXXXX




Файлы записей разговоров попадают прямиков в

/var/calls



где имеют следующую иерархию

ls /var/calls/2016/ -l
total 24
drwxr-xr-x 19 asterisk asterisk 4096 May 31 10:10 05
drwxr-xr-x 30 asterisk asterisk 4096 Jun 30 10:02 06
drwxr-xr-x 31 asterisk asterisk 4096 Jul 31 10:18 07
drwxr-xr-x 31 asterisk asterisk 4096 Aug 31 09:00 08
drwxr-xr-x 26 asterisk asterisk 4096 Sep 26 09:51 09






Asterisk. Подключение к интерфейсу статистики



Настало время развеять некоторые сомнения, или же подтвердить некоторые догадки.

Да — на текущий момент сервис предоставляется по модели SAAS, т.е. на вашу АТС устанавливается клиент для синхронизации БД и записей звонков.



После регистрации (не думаю, что стоит на ней подробно останавливаться — там все как обычно), нужно зайти в личный кабинет по адресу stat.vistep.ru, перейти в настройки, указать путь к файлам записей и нажать «Сохранить».

После чего будет доступна ссылка на скачивание скрипта-клиента.



Для установки скрипта нужно выполнить следующие шаги:

1. Установить на сервер nodejs и менеджер пакетов npm, если они еще не установлены (с помощью yum или apt/aptitude/apt-get)

2. Установить pm2

npm install -g pm2


3. Создать и перейти в папку /opt/stat.vistep.ru

mkdir /opt/stat.vistep.ru
cd /opt/stat.vistep.ru


4. Поместить архив со скриптом в папку, созданную шагом ранее, и распаковать его

unzip skript_name.zip


5. Отредактировать скрипт, внеся изменения в строки 393 — 397 (и 398 — опционально, если вам знакомы regexp), а именно

"dbhost":"localhost",
"dbuser":"asterisk_user",
"dbpassword":"232w2edxse3e",
"db":"asterisk",
"timezone":"Asia/Novokuznetsk", // <--- часовой пояс
"fileMask": /\.*/ //


6. Запустить скрипт на выполнение:

pm2 start stat.vistep.ru.js --name "ViStep.RU stat"


7. Настроить автозапуск/останов скрипта синхронизации вместе с ОС:

pm2 startup
pm2 save




С настройками на этом все.

Осталось дождаться загрузки данных на сервер статистики и начать пользоваться!



Заключение



Вот и завершился мой сказ о путешествии и его результатах. Но только сказ, не само путешествие — оно еще только начинается. Верю, что ждут меня еще многие свершения, увлекательные пути-дороги и интересные квесты.



За помощью в настройке Asterisk милости прошу писать нам на support@vistep.ru

Ежели вопрос по сотрудничеству, условиям предоставления сервиса или еще какая оказия, то жду писем на sales@vistep.ru



Так же все мои контакты есть в профиле и, конечно, я с удовольствием отвечу на ваши вопросы в комментариях.



За сим позвольте закончить.

Благодарю за внимание!


Original source: habrahabr.ru (comments, light).

https://habrahabr.ru/post/310988/

Комментарии (0)КомментироватьВ цитатник или сообщество
taransv

Меня посчитают, Тебя посчитают, Всех посчитают!

Суббота, 24 Сентября 2016 г. 08:34 (ссылка)

Участвуете ли вы в переписях населения?
Или с соц.опросах, голосованиях и т.д.
Статистика вещь важная. Против цифр не поспоришь.

Я вот недавно в сельхоз переписи участвовал.
Мой сад посчитали, все кусты, все деревья в ведомость занесли.

http://taransv.livejournal.com/1176272.html
статистика (700x449, 158Kb)

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
lj_mi3ch

правильной дорогой идете, товарищи

Среда, 22 Сентября 2016 г. 02:31 (ссылка)

Результаты выборов в необычных местах: СИЗО, психушках, университетах и т.д.

Московская психиатрическая больница им. Алексеева “Кащенко”. Участок №3321 Донской р-н Москвы.
Единая Россия 46,4%
ЛДПР 18,1%
КПРФ 8,3%
Яблоко 3,6%
Партия пенсионеров 3,5%
Родина 3,2%
Коммунисты России 2,8%
Зеленые 2,4%
Парнас 1,9%
Партия Роста 1,7%
Остальные менее 1%
Недействительные 2,7%
Явка 99,5%


Следственный изолятор ”Бутырка". Участок 3622. Тверской р-н Москвы.
Единая Россия 35,0%
ЛДПР 25,6%
Парнас 5,0%
КПРФ 4,2%
Родина 3,6%
Яблоко 2,9%
Партия роста 2,8%
Партия пенсионеров 2,1%
Зеленые 2,0%
Справедливая Россия 1,4%
Коммунисты России 1,3%
Патриоты России 1,0%
Недействительные 12,3%
Явка 100%

Московский физико-технический институт "Физтех". Участок 338 г. Долгопрудный, Московская обл.
Яблоко 36,5%
КПРФ 15,6%
Единая Россия 12,0%
Партия роста 11,4%
Парнас 8,4%
ЛДПР 7,8%
Справедливая Россия 3,0%
Родина 3,0%
Явка 86,5%

Главное здание МГУ им. М.В. Ломоносова. УИК №2765. Р-н Раменки:
Яблоко 33,5%
КПРФ 20,8%
Единая Россия 15,7%
Парнас 11,0%
Справедливая Россия 4,5%
ЛДПР 3,0%
Партия роста 3,0%
Родина 2,4%
Остальные менее 1%
Явка 54,4%

via

http://mi3ch.livejournal.com/3506452.html

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
Александр_Божьев

ГЛАВА 1381. 21 СЕНТЯБРЯ 2016 ГОДА. 267 ДЕНЬ 2016 ГОДА. Проверка на знание "арихметики". Скоро будет тепло. Перерва. Александр Божьев.

Четверг, 22 Сентября 2016 г. 05:46 (ссылка)



"Один поэт, свой путь осмыслить силясь,
Хоть он и не был Пушкину сродни,
Спросил: «Куда вы удалились,
Весны моей златые дни?»
Златые дни ответствовали так:
— Мы не могли не удалиться,
Раз здесь у вас такой бардак
И вообще, черт знает что творится!
Златые дни в отсталости своей
Не понимали наших дней".


Ухожу в отпуск.
Тепло - это хорошо (580x385, 81Kb)
Скоро включат центральное отопление...

Протокол № 2 выборов в Госдуму Александр Божьев (700x208, 27Kb)
Инструкция: Считайте проценты от общего числа избирателей, зарегестрированных на Избирательном участке. В данном случае число избирателей - 2438!
Пример: ВСЕРОССИЙСКАЯ ПОЛИТИЧЕСКАЯ ПАРТИЯ "РОДИНА" - проголосовали "ЗА" - 40 избирателей,
т.е. партию "РОДИНА" поддержали 1,64068908941 % избирателей. Если округлить по закону "Округления" - 1,6% от общего числа избирателей.
Для простоты расчёта: 1% соответствует 24 избирателя. Исходя из этого можно просто рассчитать проценты поддержки и для других партий.
Протокол № 2 выборов в Госдуму.
Стр Протокол № 2 выборов в Госдуму Александр Божьев (544x700, 91Kb)Стр 2 Протокол № 2 выборов в Госдуму Александр Божьев (483x700, 80Kb)

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_rss_hh_new

ANOVA, или кто комментирует?

Вторник, 21 Сентября 2016 г. 01:15 (ссылка)



В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.



Нам необходимо проверить, оказывает ли карма пользователя статистически значимое влияние на количество комментариев, которое он в среднем оставляет. Т.к. количество сравниваемых групп будет больше двух, то t-тест не подойдет, и придется использовать дисперсионный анализ — именно так расшифровывается ANOVA (analysis of variance).



Я воспользуюсь данными, которые ранее собрал varagian и выложил тут:

user_data <- read.csv('user_dataset.csv', stringsAsFactors=F, na.strings=c("", "NA"))


Для однофакторного дисперсионного анализа понадобятся две переменные:


  1. Зависимая переменная, которая в данном случае представляет собой количество комментариев, оставленное пользователем. Ее гистограмма выглядит так:



    И такое распределение — не самое удачное для дисперсионного анализа, т.к. для его проведения должны выполняться некоторые предпосылки, как, например, нормальность зависимой переменной. К счастью, в данном случае переменную можно «сделать» почти нормальной с помощью ее лог-транформации:

    comments_log <- log1p(user_data$comments)





  2. Факторная переменная, влияние которой на зависимую переменную и исследуется. Посмотрим на распределение кармы:

    summary(user_data$karma)
    Min. 1st Qu. Median Mean 3rd Qu. Max.
    0.00 0.00 5.00 17.92 18.00 1230.00


    Чтобы сгруппировать данные, введем новую переменную, которая будет представлять собой интервальный «срез» кармы и играть роль факторной переменной:

    karma_cut <- cut(user_data$karma, breaks=c(-Inf, 0, 5, 15, 25, 50, 100, Inf))
    table(karma_cut)
    (-Inf,0] (0,5] (5,15] (15,25] (25,50] (50,100] (100, Inf]
    5488 2059 2955 1423 1411 859 480


    Самая многочисленная группа — это пользователи с кармой меньше или равной 0.



Nota bene!
Тут я должен сказать несколько слов о преобразовании непрерывной переменной в категориальную. Такая практика широко распространена в социологических, психологических и медико-биологических исследованиях: например, величину артериального давления можно условно определить как пониженное, нормальное, высокое. Но в целом с точки зрения статистики эта процедура несколько порочна, т.к. любое разбиение весьма условно, что потенциально ведет к потере информации.





Что же касается зависимости «количество комментариев» ~ «карма», то тут есть небольшая положительная корреляция, а линейная регрессия, выполненная на основе этих двух численных показателей (см. выше), являясь значимой, выглядит неубедительно, чтобы на ее основе делать какие-то статистические выводы: например, RESET-тест Рамсея сигнализирует о пропущенных переменных, а тест Бройша-Пагана — о гетероскедастичности случайных ошибок. Кроме того, я заранее ставлю задачу сравнить группы пользователей, у которых карма воспринимается как «маленькая», «средняя» и.т.д.





Вот как распределяются медианы в зависимости от интервала, в который попадает карма пользователя:



Уже можно наблюдать, что с ростом кармы растет и медиана количества комментариев, которое оставляет пользователь. С учетом сказанного нашу нулевую гипотезу для дисперсионного анализа можно сформулировать так: карма не оказывает никакого влияния на логарифм количества оставляемых пользователем комментариев, а наблюдаемые различия между групповыми средними несущественны и случайны:



Альтернативная гипотеза, соответственно, утверждает, что различия все же не случайны. Чтобы принять или отклонить нулевую гипотезу, нам надо сравнить межгрупповую VARb и внутригрупповую VARw дисперсии. Обе эти величины по-своему оценивают дисперсию генеральной совокупности, и при верной нулевой гипотезе их отношение находится недалеко от 1, т.е. внутригрупповая и межгрупповая дисперсии не различаются. Формулы для вычисления этих дисперсий приведены ниже:



Тут K — количество групп, N — общий объем выборки. Теперь надо оценить соотношение



В этом контексте принято говорить, что величина F следует F-распределению со степенями свободы K-1 и N-K. Небольшой фрагмент кода на R, который вычисляет статистику Ftest и критическое значение Fcrit при уровне значимости

https://habrahabr.ru/post/304528/

Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<статистика - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda