Средняя температура по больнице — очень лукавое число, хотя сам термин «среднее значение» кажется нам очень простым. И именно простота делает его таким лукавым. Поговорим о том, какими, вообще, бывают средние значения, где и как их правильно применять.
Простой пример: Вы утром, спросонья, едите на своей машине в университет со скоростью 30 км/ч, потому как особого желания нет, но обратно ваша скорость уже 60 км/ч, потому как попасть домой спешите. Какова средняя скорость ваших перемещений за день?
Подсказка: Нет, это не 45 км/ч.
А пока вот вам небольшая табличка с названиями «средних», формулами их расчета и способами использования. Собственно, это план последующего изложения, оглавление.
Название и смысл | Формула / Пример | Где использовать |
Arithmetic Meam (average) Арифметическое среднее (среднее) |
\frac{sum}{size} = \frac{a + b +c}{3} | подавляющее (80%) большинство случаев |
Median (middle value) Медиана (срединное значение) |
среднее отсортированного списка (2 средних? Среднее между ними) | Оценка выборки широкого спектра (Недвижимость, доходы) |
Mode (most popular) (самое популярное) |
самое популярное значение | Без компромиссов (Победитель среди всех) |
Geometric Mean (average factor) (среднее факторное) |
\sqrt[3]{a \times b \times c} | Инвестиции, прирост, площадь, объём |
Harmonic Mean (average rate) (среднее рейтинговое) |
\frac{3}{\frac{1}{a} + \frac{1}{b} + \frac{1}{c}} | Скорость, производительность, цена |
Что это значит?
Начнём сначала. Что для нас значит слово «среднее»? Для большинства — это «что-то посередине» или число сбалансированное по некоторым показателям.
Можно предложить более универсальную интерпретацию понятия «среднее значение». Среднее значение какого-либо ряда значений — это некая простая оценка, которой можно охарактеризовать весь ряд, при этом, заменяя ей любой элемент ряда получим тот же результат. Условно говоря, можно выбросить все представленные данные, кроме среднего значения, а общий смысл числового ряда, что-то там характеризующего, не изменится.
Одна из целей получения среднего значения — понять суть выборки данных с помощью репрезентативного образца. Однако, процесс вычисления среднего значения определяется характером взаимодействия элементов выбранной группы данных. Посмотрим, что при этом происходит.
Среднее арифметическое
Среднее арифметическое знакомо всем со школьной скамьи:
X_{average} = \frac{\sum_{i=1}^{N}(X_i)}{N}
или
СреднееАрифметическое = \frac{СуммаВсехВеличин}{КоличествоВеличин}
Задачка: своими кровными 75 кг Вы нагрузили лифт вместе с подростком, весом 50 кг, и толстяком, весом 175 кг. Каков средний вес вашей весёлой компании?
На самом деле вопрос стоит чуть не так: Если заменить вашу весёлую компанию тремя серенькими клонированными людьми с одинаковым весом, то каким весом должен обладать каждый такой клон?
На фабрике по производству человеческих клонов надо просто заказать три экземпляра весом по 100 кг каждый (Мы уже посчитали: \frac{75 + 50 + 175}{3}) и довольно потирать руки.
Прелести среднего арифметического:
- Отлично работает для совокупностей, значения которых легко складываются;
- Просто вычисляется: складывай, разделяй и властвуй;
- Интуитивно понятно — среднее арифметическое для нас как раз и является «числом где-то в середине» между наибольшим и наименьшим значением.
Изъяны среднего арифметического:
- Среднее арифметическое не работает для числовых рядов с большим разбросом в значениях. Ну, скажем, среднее арифметическое чисел 100, 200 и -300 — \frac{100 + 200 - 300}{3} = 0, просто обескураживает.
Закон Паретоએ гласит, что «20% усилий дают 80% результата, а остальные 80% усилий — лишь 20% результата». Так и к нас среднее арифметическое срабатывает в 80% случаев, но к нашему глубокому сожалению, оставшиеся 20% случаев вынуждают нас искать альтернативы для подсчёта среднего значения и требуют очень значительных усилий при интерпретации.
Медиана
Медиана — та самая грань, которая отделяет наибольшие значения от наименьших. То самое «число в середине». Постойте-постойте, а разве среднее арифметическое делает не то же самое?
Вот вам простой пример. Какое число находится в середине этого ряда?
1, 2, 3, 4, 100
Число «3» находится в середине ряда. И хотя среднее арифметическое (22) является «средним», оно никак не отражает распределения этих чисел. Интуитивно (и абсолютно правильно!) мы считаем, что в середине этого ряда всё-таки 3, а не 22. Здесь среднее значение отошло от середины благодаря резко отклоняющемуся из общей массы значению, 100.
Медиана эту проблему решает. Медиана делит весь числовой ряд на две равные части по количеству значений, причём первая половина имеет значения меньше либо равные медиане, а вторая — больше либо равные. Если в середине числового ряда оказывается два числа то, тобы получить медиану мы просто берём среднее арифметическое этих двух чисел. В числовом ряду 1, 2, 3, 4 медианой станет число 2,5. Именно медиана позволяет выбивающимся из общей массы числам вроде 100 в нашем примере выше не влиять на общее впечатление о числовом ряде.
Прелести медианы:
- Прекрасно справляется с резко отклоняющимися значениями, поэтому зачастую является самым репрезентативным значением для группы;
- Разбивает данные на две группы, состоящие из одинакового количества элементов.
Изъяны медианы:
- Немного усложняются вычисления: прежде чем разбить ряд на две равные части необходимо его упорядочить по возростанию или убыванию;
- Медиана менее популярна и если вы скажете «среднее медианное значение», то люди зачастую принимают его за средне арифметическое. Отсюда возникает путаница.
Такие средние значения, как цены на недвижимость или, например, уровень дохода часто вычисляются именно по медиане, потому что нам важна именно средняя стоимость большей части домов в конкретном районе или средний уровень доходов большей части населения. В таком случае Билл Гейтс с годовым доходом в несколько миллиардов не испортит нам всю статистику. Видите, как много зависит от того, как мы работаем с имеющимися данными?
Мода
Модаએ (фр. mode, от лат. modus — мера, образ, способ, правило, предписание) — временное господство определённого стиля в какой-либо сфере жизни или культуры. Само слово может звучать странно для аналитика, но оно означает всего лишь наиболее часто встречающийся элемент в группе. На практике обычно мода определяется путём опросов и сбора мнений. Да, действительно порой бывают случаи, когда лучшим способом получить наиболее репрезентативный образец данных является сбор откликов.
Допустим, вы планируете вечеринку и нужно назначить день недели для её проведения. Дни недели — такой же числовой ряд, как и любой другой. Это всего лишь числа от 1 до 7. Среднее арифметическое и медиана тут не помогут (Лиза и Паша могут в пятницу, а Коля и Петя — в воскресенье; поэтому назначим субботу). Что делать? Конечно, выбрать тот день недели, который выберет большинство, ну а остальные либо подстроятся, либо не придут — демократия, однако.
Как правило, мода используется для получения наиболее репрезентативного значения в нечисловых рядах. Популярные цвета сезона, хиты продаж, рейтинги фильмов и музыки, лучшие кафе и закусочные определяются именно модой (чувствуете корреляцию со словом модаએ в его бытовым смысле).
Прелести моды: Прекрасно работает для получения представления об общественном мнении; Даёт представление о потребностях большой части людей (там, где среднее арифметическое даёт лишь осечку); Проста для понимания.
Изъяны моды: Для её вычисления требуется больше усилий (нужно собрать мнения и обработать их); Победителю достаётся всё: мода выявляет только одного лидера.
Среднее геометрическое
Наш «репрезентативный элемент» зависит от того, что мы делаем с уже существующими элементами группы данных. В большинстве случаев элементы просто складываются и среднее арифметическое работает прекрасно. Но иногда нужно нечто большее. Например, когда мы анализируем инвестиции, площади и объёмы. В таких случаях между собой данные взаимодействуют именно путём умножения (ожидаемая доходность, объём или площадь фигуры вычисляются с помощью умножения), и это меняет подход к выявлению и смыслу средних значений.
Вот пример. Какой инвестиционный портфель вы предпочтёте? Иными словами, какой из них принесёт большую прибыль в течение типового года?
- Портфель А: +10%, -10%, +10%, -10%
- Портфель Б: +30%, -30%, +30%, -30%
Выглядят похоже. Повседневная логика, построенная на привычке к среднему арифметическому, говорит, что оба портфеля достаточно рискованны и оба в среднем приведут к убыткам или нулевой прибыли. Поэтому, вероятнее всего, надо выбрать портфель Б, поскольку в успешный год он принесёт больше прибыли.
Но это в корне неверно! На фондовом рынке с таким подходом мы с вами точно прогорим. Проценты с инвестиций умножаются, но не складываются. Мы не можем просто взять и использовать среднее арифметическое, нужно найти действительный коэффициент окупаемости. Коэффициент окупаемости считается достаточно просто: берём условные 100% нашего текущего капитала в качестве единицы. Далее представляем колебания доходности-убытка, представленные в описании портфелей, добавляя к нашей единице или вычитая из неё процентные показатели. Затем перемножаем полученные колебания и получаем коэффициент. Для расчёта среднегодового значения коэффициента окупаемости делим полученный коэффициент на 4 (поскольку элементов в нашем числовом ряду четыре).
- Портфель А:
Коэффициент окупаемости: 1,1 \times 0,9 \times 1,1 \times 0,9 = 0,98 (2% убытка)
Среднегодовое значение: 0,98^{1/4} = 0,5\% годового убытка
- Портфель Б:
Коэффициент окупаемости: 1,3 \times 0,7 \times 1,3 \times 0,7 = 0,83 (17% убытка)
Среднегодовое значение: 0,83^{1/4} = 4,6\% годового убытка
Выбор между 2% или 17%? Огромная разница! Конечно, только идиот, а не разумный человек будет делать выбор именно из этих двух портфелей, но если делать выбор, то из двух зол лучше выбрать Портфель А. И именно здесь среднее арифметическое не работает.
Несколько примеров, где работает среднее геометрическое:
- Темпы инфляции: У вас есть показатели в 1%, 2% и 10%. Каков средний показатель инфляции за конкретный период времени? (1,01 \times 1,02 \times 1,10)^{1/3} = 4,3\%.
- Скидки: У вас есть три скидочных купона на 50%, 25% и 35%. Какова средняя скидка? (0,5 \times 0,75 \times 0,65)^{1/3} = 37,5%.
- Площадь: У вас есть участок земли 40х60 м. Вам нужно вычислить «усреднённую сторону» — иными словами, сторону квадрата примерно той же площади. (40 \times 60)^{0,5} = 49 м.
- Объём: У вас есть коробка 12 х 24 х 48 см. Вам снова нужна усреднённая сторона, то есть сторона куба примерно того же объёма. (12 \times 24 \times 48)^{1/3} = 24 см.
Среднее геометрическое помогает найти «типичный элемент» среди группы элементов, взаимодействующих друг с другом путём умножения. И, как видим, у него есть множество практических применений.
Среднее гармоническое
Среднее гармоническое представить сложнее, чем предыдущих представителей «средних», но оно не менее полезно. Между прочим, само понятие «гармоники» в математике связано с обратными числами (1/2, 1/3 и т.д.). Среднее гармоническое помогает нам вычислить среднее арифметическое в рядах чисел, заданных обратными значениями. Это бывает чаще, чем можно подумать.
Например, если я еду со скоростью 30 км/ч, это значит, что я получаю определённый результат (30 км) за какую-либо единицу времени (1 час). Когда мы хотим узнать среднее значение для нескольких скоростей (Х и Y), нужно думать о результате и единицах измерения, а не об исходных цифрах.
CредняяCкорость = \frac{ОбщийРезультат}{ОбщаяЕдиницаИзмерения}
Возьмём двух сотрудников: Х и Y. Оба работают в одном проекте и выполняют одинаковое количество работы, но скорость их работы разная. Какова средняя скорость их работы?
Допусти, каменщик Х кладёт 30 кирпичей в час, а каменщик Y — 60 кирпичей в час. Значит, на один кирпич у каждого каменщика уходит:
- У X укладка одного кирпича займёт 1/X времени (1/30);
- У Y укладка одного кирпича займёт 1/Y времени (1/60)
Складываем результаты и единицы измерения:
Общий результат: 2 кирпича (Х и Y уложили по одному) Общая единица времени: 1/X + 1/Y (у каждого уходит разное количество времени)
Средней скоростью обоих каменщиков будет:
\frac{2}{\frac{1}{X} + \frac{1}{Y}}
Если бы у нас было 3 каменщика (X, Y и Z), их средняя скорость вычислялась бы по формуле:
\frac {3}{\frac{1}{X} + \frac{1}{Y} + \frac{1}{Z}}
Здорово же иметь одну формулу вместо того, чтобы каждый раз заниматься долгими вычислениями. Даже вычисляя среднюю скорость 5 нерадивых работников стало бы головной болью. Помните наш первый пример про скорость, с которой вы едете на работу и домой? Чтобы найти среднюю скорость передвижения в тот день, мы просто используем формулу.
При этом нам даже не нужно знать, где находится дом или офис! Теперь вместо X и Y у нас не кирпичи, а количество километров за единицу времени. Вне зависимости от расстояния результат один и тот же: допустим, некое количество километров R мы проходим на скорости X, а другое количество километров R — на скорости Y. Средняя скорость при этом будет вычисляться так же, как вычисляется средняя скорость прохождения 1 км на скорости X и одного километра на скорости Y:
\frac{2R}{\frac{R}{30} + \frac{R}{60}} = \frac{2}{\frac{1}{30} + \frac{1}{60}} = 40
Ключевая идея: Среднее гармоническое используется тогда, когда один и тот же объём работы выполняется с разной производительностью.
Ещё более ключевая идея: Помните, что среднее значение — это один элемент, способный передать суть целой группы элементов. В нашем примере с работой и офисой в среднем туда-обратно мы едем на скорости 40 км/ч (вместо 30 км/ч туда и 60 км/ч обратно). Важно помнить, что средней скоростью мы заменяем каждую «стадию».
Ещё несколько примеров из жизни среднего гармонического:
- Передача данных: Мы передаём данные между клиентом и сервером. С Клиента берут 1 доллар за 10 трафика, а Сервер на 1 доллар получает 20 Гб трафика. Каково среднее количество Гб, которые можно передать и получить за один доллар? Мы усредняем значения для клиента и для сервера: 2 / (1/10 + 1/20) = 13,3 Гб/доллар для каждой стороны. Поскольку данные и передаются, и получаются (каждая сторона выполняет свою половину работу), мы делим это значение на 2 и получаем следующее значение: 6,65 Гб за доллар.
- Производительность машины: У нас есть производственная установка для подготовки и полировки деталей. За час установка может подготовить 25 деталей; либо за тот же час она может отполировать 10 деталей. Какова средняя производительность установки? Усредняем значения для каждой стадии: 2 / (1/25 + 1/10) = 14,28 деталей/час. Снова делим это значение на два, поскольку нас интересует средняя производительность установки, если она занимается сразу двумя фазами: получаем 7,14 деталей/час.
В чём фокус?
Среднее гармоническое действительно не самая очевидная вещь. Дело в том, что если бы у вас было две разных установки, одна из которых работает со скоростью 10 деталей/час, а другая — 20 деталей/час, конечно, их средняя производительность составляла бы 15 деталей/час. В этом случае вы имеете полное право просто сложить их производительность и вычислить среднее арифметическое, ведь установки работают независимо друг от друга.
Если не верите в среднее гармоническое, можно устроить себе обратную проверку. Мы утверждаем, что наша универсальная установка по заготовке и полировке деталей справляется с 7,14 деталями в час. Проверим: мы знаем, что за час машина либо обрабатывает 25 деталей, либо полирует 10. Получаем:
Подготовка: 7,14/25 = 0,29 часов Полировка: 7,14/10 = 0,71 часов
Да-да, 0,29 + 0,71 = 1, цифры работают: для полного цикла изготовления 7,14 деталей действительно требуется один час.
Краткое резюме
Даже такая простая на первый взгляд идея, как «среднее значение», имеет массу применений. Здесь мы рассмотрели лишь самые основные и не затронули средневзвешенное, центр тяжести, математическое ожидание и многое другое. Но поняли главное:
- Среднее значение призвано отразить основную суть всех элементов в группе
- Тип среднего значения зависит от того, как взаимодействуют элементы в группе (складываются? умножаются? становятся обратными величинами? просто выбираются?)
Спасибо прекрасной статье на Better Explained.
5 вариантов среднего или какая средняя температура в больнице?, опубликовано К ВВ, лицензия — Creative Commons Attribution-NonCommercial 4.0 International.
1 нравится это