Цифры лгут: как мы манипулируем с помощью данных – Лайфхакер
Любое сомнительное утверждение может быть воспринято как верное, если оно подкреплено статистикой, таблицами, графиками и научными терминами. Чтобы не попасться на такие уловки, важно уметь распознавать бред и вообще понимать, что это такое. Новая книга от издательства МИФ “Полный бред!” поможет с этим. Она была написана профессором эволюционной биологии Карлом Бергстромом и доцентом Школы информации Вашингтонского университета Джевином Уэстом. А Lifehacker публикует отрывок из пятой главы.
Наш мир буквально оцифрован. Все просчитано, измерено, проанализировано и оценено. Интернет-компании отслеживают нас в Интернете и используют алгоритмы, чтобы предсказать, что мы купим. Смартфоны считают наши шаги, измеряют продолжительность звонков и отслеживают наши перемещения в течение дня. Умные устройства контролируют то, как мы их используем, и знают о нашей повседневной жизни больше, чем мы можем себе представить. Имплантированные медицинские устройства передают непрерывный поток информации о пациентах и отслеживают признаки опасности в режиме реального времени. Во время технического обслуживания наши автомобили загружают данные о своей производительности и нашем стиле вождения. Бесчисленные датчики и камеры, установленные в городах, контролируют все, от потока транспорта до качества воздуха, и даже способны идентифицировать прохожих.
Вместо того, чтобы собирать данные о поведении потребителей с помощью дорогостоящих опросов и опросов, компании позволяют людям приходить к ним самостоятельно, а затем записывают все, что они делают. Facebook* знает, кого мы знаем. Гугл – что мы хотим знать. Uber — куда бы мы ни поехали. Amazon — что мы хотим купить. Матч – с кем планируем создать семейный союз. Тиндер — от которого ждем приглашения для общения.
Данные могут помочь нам понять мир с точки зрения объективных фактов, но данные далеко не так объективны, как мы думаем. Тут вспоминается старый анекдот. У математика, инженера и бухгалтера есть работа. Их отводят в офис и дают тест по математике. Первое задание, на разминку: сколько будет два плюс два? Математик закрывает глаза, пишет «четыре» и переходит к следующим задачам. Инженер думает секунду, потом пишет «четыре». Бухгалтер с тревогой оглядывается, затем встает со стула, подходит к человеку, проводящему тест, и тихо спрашивает: «Прежде чем вы что-нибудь запишете, скажите мне, чего вы хотите достичь?»
Цифры идеально подходят для болтовни. Они кажутся объективными, но ими легко манипулировать, чтобы рассказать правильную историю.
Слова определенно производятся человеческим разумом, но как насчет чисел? Числа, кажется, даны нам самой природой. Мы знаем, что слова субъективны. Мы знаем, что они привыкли искажать и искажать правду. Слова отражают интуицию, чувства, страсти. Цифры кажутся отделенными от того, кто о них говорит.
Вера людей в числа невероятно сильна. Скептики заявляют, что «просто хотят увидеть данные», или требуют показать «основные данные», или настаивают на том, что «цифры должны говорить сами за себя». Мы убеждены, что «данные никогда не лгут». Но эта точка зрения может быть опасной. Даже если значения или числа верны, их все равно можно использовать, чтобы обмануть вашу голову. […]. Чтобы числа были поняты, они должны быть в подходящем контексте. Их нужно показать, чтобы нам было доступно честное сравнение.
Давайте сначала подумаем, откуда берутся эти цифры. Некоторых из них мы достигаем непосредственно, посредством точных подсчетов или измерений. В США 50 штатов. Есть 25 первых меньше 100. Эмпайр Стейт Билдинг имеет 102 этажа. Легенда бейсбола Тони Гвин нанес 3141 попадание битами из 9288, что соответствует среднему показателю 0,388 в Высшей лиге. В принципе, точный подсчет должен быть достаточно справедливым. Существует определенный ответ, и обычно для его получения можно использовать некую процедуру расчета или измерения. Но этот процесс не всегда бывает легким. Вполне возможно ошибиться в расчетах, измерениях или в том, что именно мы считаем. Возьмем, к примеру, планеты Солнечной системы. Со времени открытия Нептуна в 1846 году и до открытия Плутона в 1930 году мы считали, что в Солнечной системе восемь планет. После открытия Плутона нам сказали, что у нас девять планет. Затем, в 2006 году, несчастный «новичок» был понижен в статусе до карликовой планеты, и вокруг Солнца снова вращались восемь полноценных планет.
Однако чаще точные подсчеты или исчерпывающие измерения невозможны.
Мы не можем посчитать каждую звезду в наблюдаемой Вселенной по отдельности, чтобы прийти к текущему приближению в триллионы триллионов.
Точно так же у нас есть основа для приблизительных оценок, когда мы смотрим на такие показатели, как рост взрослого человека в той или иной стране. Мужчины из Нидерландов считаются самыми высокими в мире — в среднем 183 сантиметра. Но для получения этих данных они не измеряли всех жителей страны и не вычисляли среднее значение всех полученных величин. Вместо этого исследователи использовали случайную выборку местных мужчин, измерили, кто в нее попал, и экстраполировали результаты на все население.
Если вы измерите полдюжины мужчин и подсчитаете их средний рост, то случайно получите неверный результат. Предположительно, некоторые из них были необычно высокими. Это называется ошибкой выборки. К счастью, на большой выборке обычно видны и дисперсии, потому что такая ошибка минимально влияет на результат.
Проблемы могут возникнуть и с процедурой измерения. Мы говорим, что исследователи попросили участников сообщить свой рост, но мужчины склонны завышать цифры, причем невысокие мужчины делают это чаще, чем высокие.
Еще более опасен еще один источник ошибки, предвзятость самой выборки. Предположим, вы решили определить рост людей, отправились на местную баскетбольную площадку и начали измерять игроков. Баскетболисты, как правило, выше среднего роста, поэтому ваша выборка не будет репрезентативной для населения в целом и в конечном итоге окажется слишком высокой. Большинство ошибок этого типа не столь очевидны. […]
В этих примерах мы рассмотрели группы людей по разным значениям — например, по разным высотам — и затем объединили эту информацию в одно число, называемое сводной статистикой. Например, описывая высокого голландца, мы говорим о среднем росте.
Сводная статистика может быть удобным способом обобщения информации, но если она неверна, вы легко можете ввести аудиторию в заблуждение.
Политики используют этот трюк, когда предлагают налоговый вычет, который сэкономит сотни тысяч долларов для 1% самых богатых граждан, но никак не облегчит налоговое бремя для всех остальных. Они берут средний налоговый вычет и говорят, что их налоговый план сэкономит семьям в среднем 4000 долларов в год. Может быть, и так, но средняя семья — если иметь в виду ту, что находится в середине распределения доходов, — ничего не сбережет. Большинству из нас гораздо полезнее будет узнать, каков будет размер вычета для семьи со средним доходом. В этом случае медиана представляет собой «средний» доход между половиной домохозяйств, которые зарабатывают больше этого значения, и половиной домохозяйств, которые зарабатывают меньше этого значения. Таким образом, средняя семья вообще не получает никакого вычета, потому что он полезен только для верхнего 1% населения с самыми высокими доходами.
Иногда мы не можем напрямую измерить интересующий нас показатель. Недавно Карл попал в поле зрения дорожного патруля на прямой ровной дороге в пустыне Юты, где по какой-то необъяснимой причине было установлено ограничение скорости в пятьдесят миль в час. Он съехал на обочину, наблюдая за знакомыми вспышками красных и синих огней в зеркале заднего вида. — Ты знаешь, как быстро ты едешь? — спросил патрульный. — Я так не думаю, офицер, — ответил Карл. «Восемьдесят три мили в час».
Восемьдесят три — серьезное число, потенциально грозящее большими проблемами. Но откуда оно взялось? Некоторые дорожные камеры рассчитывают вашу скорость по расстоянию, которое вы проезжаете за определенное время, но на государственных автомагистралях это делается по-другому. Солдат измерял еще кое-что — доплеровский сдвиг радиоволн, излучаемых его портативным радаром, когда они отражались от машины Карло. Программное обеспечение, встроенное в радар, использует математическую модель, основанную на волновой механике, для расчета скорости транспортного средства с использованием полученных измерений. Поскольку патруль не измеряет скорость Карла напрямую, радар необходимо регулярно калибровать. Стандартный способ избавиться от штрафа за превышение скорости — попросить полицейского показать вам записи о превышении скорости. Правда, Чарльзу это было не нужно. Он знал, что превысил скорость, и был рад, что отделался лишь штрафом, хоть и крупным.
Радары основаны на очень надежных физических принципах, но модели, используемые для расчета других показателей, могут быть более сложными и включать больше предположений. Международная китобойная комиссия публикует данные о численности популяций некоторых видов китов. Когда она сообщает, что в водах Южного полушария водится 2300 синих китов, она не приходит к этому числу, потому что каждое животное было найдено и подсчитано. И не прочесывали от и до части океана. Киты не останавливаются, и большую часть времени их не видно с поверхности воды. Поэтому ученым нужны косвенные способы определения численности популяции. Например, они подсчитывают встречи с уникальными особями, которых можно идентифицировать по отметинам на их хвостовых плавниках и хвосте. Таким образом, их определение численности китов столь же неточное, как и этот метод.
В расчетах и фактах, которые кажутся совершенно очевидными, по разным причинам закрадываются ошибки. Вас могут смутить цифры. Вы можете использовать слишком маленькую выборку, которая неправильно отражает характеристики всей группы. Методы, с помощью которых мы получаем числа из другой информации, могут быть неправильными. И, наконец, цифры могут быть просто полной ерундой, сочиненной на пустом месте в попытке придать правдоподобности жалким аргументам. Мы должны помнить об этом, когда нам показывают что-то цифрами. Говорят, что числа никогда не лгут, но нужно помнить, что они часто обманывают.
“Полная ерунда!” рассказывает о том, как распространяется дезинформация, почему мы в нее верим и как научиться правильно оценивать причинно-следственные связи. Эта книга доказывает, что не нужно быть специалистом по статистике, чтобы распознавать подделки и подмены. Только логика и критическое мышление.
Также читайте 🧐
* Деятельность Meta Platforms Inc. и его социальные сети Facebook и Instagram запрещены на территории Российской Федерации.