Эпилог

Бит и Бета смогли вернуться в настоящее время только потому, что они открыли решающие правила, которые управляют машиной времени. Они увидели и смогли использовать информацию о том, как год, в котором они оказались, зависит от числа, введенного в чудесные часы. Способность видеть такую пользу необходима не только, когда мы планируем взломать сервер сумасшедшего математика. Мир вокруг нас наполнен зависимостями. Важна способность их воспринимать и использовать при необходимости в различных ситуациях.

Например, удобно объяснить катастрофу космического челнока Challenger, которая произошла в 1986 году. Через 45 секунд полета зрителям предстала страшная огненная картина. Пламя быстро привело к разрушению шаттла и аварии, в которой погиб весь экипаж. После этого под знаком вопроса оказалась все перспектива дальнейшей деятельности НАСА. Специальная комиссия, целью которой было установить причины катастрофы, долго искала какие-нибудь зацепки, чтобы выяснить причину. Был в этой комиссии и Ричард Фейнман, физик, позже лауреат Нобелевской премии. Он отметил, что температура окружающего воздуха снижает эластичность резины уплотнительных колец ракетного двигателя. Меньшая эластичность увеличивает риск отказа двигателей. Даже температура ниже 18 градусов по Цельсию создавала проблемы с уплотнительными кольцами, а дальнейшее снижение температуры провоцировало аварийные ситуации. При температуре 10 градусов по Цельсию эластичность уже была недостаточной. В ночь перед полетом температура на месте старта шаттла опустилась ниже 0 градусов. На приведенном ниже графике точками обозначены результаты предварительных измерений температуры и количества аварийных ситуаций. Все измерения были собраны при температуре в границах от 10 до 25 градусов по Цельсию. В этом диапазоне видно, что чем ниже температура, тем больше риск повреждений. Зная эту закономерность, можно ли было предсказать катастрофу корабля, которая и произошла при температуре 0 градусов по Цельсию?

Метод предсказания одной переменной на основании другой называется регрессией. Откуда такое название? Термин имеет очень интересную историю. В 1886 году сэр Фрэнсис Гальтон изучал зависимость длины тела взрослых сыновей от длины тела их родителей. Он отметил, что сыновья высоких родителей, как правило, обладают высоким ростом, но не всегда так высоки, как их родители. Конечно, отдельные дети иногда были очень высокого роста, иногда выше средних показателей, но при рассмотрении средних величин оказалось, что средняя длина тела у сыновей находилась между средне-родительским ростом и средним показателем длины тела всех детей. Эту тенденцию Гальтон определил термином ,,регрессия посредственности'' (,,regression toward mediocrity''). Диаграмма ниже иллюстрирует исследование Гальтона. Обследовано было около 1000 человек. Использование точек на оси абсцисс показывает средневзвешенные показатели роста родителей, на оси OY отложены показатели роста детей. Сплошная линия показывает отношение равенства, соответствующего росту детей и родителей. Пунктирная линия отражает видимую зависимость данных. Средняя длина тела сыновей ближе к горизонтальной линии. В отличие от пар чисел, собранных Бетой и Битом, выбранные точки не укладываются идеально в прямую линию. Искомая линия – это та, которая вбирает в себя как можно больше точек.

Кто-то может спросить, каково значение таких исследований. Что интересного может дать нам информация о том, что средний рост ребенка может зависеть от роста родителей, а частично может не зависеть? Оказывается, что тот же метод регрессии способствовал огромному прогрессу в сельском хозяйстве и разведении племенных животных. Информация о том, какая часть надоев (производства коровьего молока) досталась в наследство от быка, а какая от коровы, и то, что какая-то часть не наследуется, были полезны для оценки племенной ценности животного. Сегодня исследования племенной ценности проводятся в больших масштабах, когда принимаются во внимание очень сложные родословные взаимоотношения. А это привело к значительному увеличению производства молока. В развитых странах, по оценкам ученых, за последние 50 лет надои увеличились в три раза! Основой этих исследований есть не что иное, как регрессия.

Конечно, вы спросите, может ли быть полезной регрессия в повседневной жизни? Да, и тому есть много доказательств. Предположим, что вы хотите купить или продать подержанный автомобиль, или квартиру, или телефон. Допустим, вам интересно знать, сколько может стоить 5-летний Volkswagen Passat со средней комплектацией. На порталах, где продаются подержанные автомобили, вы найдете сотни предложений. Таким образом, мы можем получить эти данные и поискать взаимозависимость между возрастом автомобиля и его ценой. Что получается? Если мы сравним логарифм цены автомобиля и возраста, то увидим линейную зависимость. Откуда этот логарифм? Оказывается, что подержанные автомобили обесцениваются каждый год на более или менее постоянные процентные ставки, приблизительно 15% (точное значение зависит от марки и комплектации). Через год теряется 15%, после двух лет эксплуатации уже 27,8%. Откуда это число? Оно связано со сложными процентами. После трех лет - 38,6% от цены и так далее. Когда цена логарифмируется, сложные проценты превращаются в линейную зависимость, что позволяет провести простую ценовую оценку подержанных автомобилей. Следующая диаграмма показывает взаимосвязь между ценой на оси OY и возрастом автомобиля в годах на оси ОХ. Данные взяты из портала http://otomoto.pl

Но ведь не каждая зависимость линейна. Говоря о подержанных автомобилях, очень интересные отношения просматриваются между пробегом автомобиля и его возрастом. Казалось бы, что пробег должен увеличиваться пропорционально возрасту автомобиля. И тогда, если в течение одного года вы проезжаете какое-то количество километров, то в течение двух лет километраж должен увеличиться примерно в два раза. Но вот что интересно, когда вы посмотрите на диаграмму, показывающую пройденное расстояние в зависимости от возраста автомобиля, то можно увидеть различные отношения по 5-летним и более старым автомобилям. Сначала автомобили увеличивают пробег в среднем на 20-25 тысяч километров в год, но после 5 лет эксплуатации, пробег начинает составлять только 10-15 тысяч километров в год. Эта взаимосвязь может быть связана с другими факторами и поведением владельцев автомобилей. Чаще ездят торговые представители различных фирм, и они ездят на новых автомобилях недолго и стараются их потом продать. Могут быть и другие влияющие поведенческие факторы (автомобили с большим пробегом, уменьшают свой ежегодный пробег, и для более старых автомобилей редко оформляется сервисная книжка, поэтому трудно установить, как меняется величина пробега).

При поиске взаимоотношений между переменными мы должны быть осторожны с представлением выводов. Тот факт, что две переменные взаимозависят, не означает, что одна является причинно зависимой от другой. Анализируя данные о количестве рождений и количестве гнезд аистов в сельских населенных пунктах в Польше, оказывается, что есть очень сильная связь между этими величинами. Чем больше аистов гнездится, тем больше рождается детей! Тем не менее, это не доказывает, что аисты приносят детей. А что это доказывает? Чем больше деревня, тем больше домов, крыш и столбов, на которых могут гнездиться аисты. С другой стороны, больше домов, больше семей живут в них, и больше рождается детей. Таким образом, число детей и число аистов взаимозависят, но и зависят еще от одной переменной - от числа домохозяйств в деревне.