Мера разнообразия

Мера разнообразия — это способ измерения того, сколько различных типов (например, видов) содержится в наборе данных (например, в сообществе). Индексы разнообразия представляют собой статистические показатели различных аспектов биоразнообразия (например, богатства, равномерности и доминантности), которые служат полезными упрощениями для сравнения различных сообществ или участков.

Когда индексы разнообразия используются в экологии, интересующие типы обычно представляют собой виды, но это могут быть и другие категории, такие как роды, семейства, функциональные типы или гаплотипы. Объектами интереса обычно являются отдельные организмы (например, растения или животные), а мерой численности может быть, например, количество особей, биомасса или покрытие. В демографии объектами интереса могут быть люди, а типами — различные демографические группы. В информационных науках объектами могут быть символы, а типами — различные буквы алфавита. Наиболее часто используемые индексы разнообразия представляют собой простые преобразования эффективного числа типов (также известного как «истинное разнообразие»), однако каждый индекс разнообразия также может интерпретироваться как самостоятельная мера, соответствующая некоторому реальному явлению (но разному для каждого индекса)^[1]^[2]^[3]^[4].

Многие индексы учитывают только категориальное разнообразие между субъектами или объектами. Такие индексы, однако, не отражают всего объёма вариации (разнообразия), который может существовать между субъектами или объектами, что возможно только при учёте как категориального, так и качественного разнообразия.

В данной статье рассматриваются следующие индексы разнообразия:

Богатство — простое количество типов в наборе данных.
Индекс Шеннона, который также учитывает пропорциональную численность каждого класса с помощью взвешенного геометрического среднего.
- Энтропия Реньи, позволяющая свободно изменять вид используемого взвешенного среднего.
Индекс Симпсона, который также учитывает пропорциональную численность каждого класса с помощью взвешенного арифметического среднего.
Индекс Бергера—Паркера, отражающий пропорциональную численность наиболее многочисленного типа.
Эффективное число видов (истинное разнообразие), позволяющее свободно изменять вид используемого взвешенного среднего и обладающее интуитивно понятным смыслом^[4].

Некоторые более сложные индексы также учитывают филогенетическую близость между типами. Такие индексы называются индексами филодивергенции^[5].

Истинное разнообразие, или эффективное число типов, — это количество одинаково многочисленных типов, необходимое для того, чтобы средняя пропорциональная численность типов соответствовала наблюдаемой в исследуемом наборе данных (где все типы могут быть неравновелики). Истинное разнообразие в наборе данных вычисляется путём взятия взвешенного обобщённого среднего M_q−1 пропорциональных численностей типов в наборе данных, а затем взятия обратной величины этого значения. Уравнение имеет вид:^[3]^[4]

{}^{q}\!D={1 \over M_{q-1}}={1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}

Знаменатель M_q−1 равен средней пропорциональной численности типов в наборе данных, вычисленной с помощью взвешенного обобщённого среднего с показателем q − 1. В уравнении R — богатство (общее число типов в наборе данных), а пропорциональная численность i-го типа — p_i. Сами пропорциональные численности используются в качестве номинальных весов. Числа $^{q}D$ называются числами Хилла порядка q или эффективным числом видов^[6].

Когда q = 1, приведённое выше уравнение не определено. Однако математический предел при q, стремящемся к 1, хорошо определён, и соответствующее разнообразие вычисляется по следующей формуле:

{}^{1}\!D={1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}=\exp \left(-\sum _{i=1}^{R}p_{i}\ln(p_{i})\right)

что представляет собой экспоненту энтропии Шеннона, вычисленной с помощью натуральных логарифмов (см. выше). В других областях эта статистика также известна как перплексия.

Общее уравнение разнообразия часто записывается в виде^[1]^[2]:

{}^{q}\!D=\left({\sum _{i=1}^{R}p_{i}^{q}}\right)^{1/(1-q)}

а выражение в скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, вычисленной при различных значениях q^[2].

Значение q часто называют порядком разнообразия. Оно определяет чувствительность истинного разнообразия к редким и доминирующим видам, изменяя способ вычисления взвешенного среднего пропорциональных численностей видов. При некоторых значениях параметра q значение обобщённого среднего M_q−1 принимает привычные виды взвешенных средних как частные случаи. В частности,

q = 0 соответствует взвешенному арифметическому среднему,
q = 1 — взвешенному геометрическому среднему,
q = 2 — взвешенному гармоническому среднему^[7].
При q, стремящемся к бесконечности, взвешенное обобщённое среднее с показателем q − 1 стремится к максимуму p_i, то есть к пропорциональной численности наиболее многочисленного вида в наборе данных.

В целом, увеличение значения q увеличивает эффективный вес, придаваемый наиболее многочисленным видам. Это приводит к увеличению значения M_q−1 и уменьшению истинного разнообразия (^qD) при увеличении q.

Когда q = 1, используется взвешенное геометрическое среднее значений p_i, и каждый вид взвешивается строго по своей пропорциональной численности (в взвешенном геометрическом среднем веса выступают в роли показателей степени). При q > 1 вес, придаваемый доминирующим видам, увеличивается, а при q < 1 — редким видам. При q = 0 веса видов полностью компенсируют их пропорциональные численности, так что взвешенное среднее значений p_i равно 1 / R даже если все виды неравновелики. При q = 0 эффективное число видов, ⁰D, равно фактическому числу видов R. В контексте разнообразия q обычно ограничивается неотрицательными значениями, поскольку отрицательные значения q придавали бы редким видам настолько большой вес по сравнению с доминирующими, что ^qD превышало бы R^[3]^[4].

Богатство R просто количественно определяет, сколько различных типов содержит исследуемый набор данных. Например, видовое богатство (обычно обозначается S) — это просто число видов, например, на определённом участке. Богатство — простая мера, поэтому она была популярна в экологии, где данные о численности часто недоступны^[8]. Если истинное разнообразие вычисляется при q = 0, эффективное число типов (⁰D) равно фактическому числу типов, что идентично богатству (R)^[2]^[4].

Индекс Шеннона был популярен в экологической литературе, где он также известен как индекс разнообразия Шеннона, индекс Шеннона—Винера, а также (ошибочно) индекс Шеннона—Уивера.^[9] Эта мера была изначально предложена Клодом Шенноном в 1948 году для количественной оценки энтропии (отсюда «энтропия Шеннона», связанная с информационным содержанием Шеннона) в строках текста^[10]. Идея заключается в том, что чем больше букв и чем ближе их пропорциональные частоты в интересующей строке, тем сложнее правильно предсказать, какая буква будет следующей. Энтропия Шеннона количественно выражает неопределённость (энтропию или степень неожиданности), связанную с этим предсказанием. Обычно она вычисляется следующим образом:

H'=-\sum _{i=1}^{R}p_{i}\ln(p_{i})

где p_i — доля символов, принадлежащих i-му типу букв в интересующей строке. В экологии p_i часто — доля особей, принадлежащих i-му виду в исследуемом наборе данных. Тогда энтропия Шеннона количественно выражает неопределённость в предсказании видовой принадлежности особи, случайно выбранной из набора данных.

Хотя уравнение здесь записано с использованием натуральных логарифмов, основание логарифма при вычислении энтропии Шеннона может выбираться произвольно. Сам Шеннон рассматривал основания 2, 10 и e, и эти основания стали наиболее популярными в приложениях, использующих энтропию Шеннона. Каждое основание логарифма соответствует разной единице измерения, которые называют двоичными разрядами (битами), десятичными разрядами (децитами) и натуральными разрядами (натами) для оснований 2, 10 и e соответственно. Для сравнения значений энтропии Шеннона, изначально вычисленных с разными основаниями логарифма, требуется привести их к одному основанию: переход от основания a к основанию b осуществляется умножением на log_b(a)^[10].

Индекс Шеннона (H') связан со взвешенным геометрическим средним пропорциональных численностей типов. В частности, он равен логарифму истинного разнообразия, вычисленного при q = 1:^[3]

H'=-\sum _{i=1}^{R}p_{i}\ln(p_{i})=-\sum _{i=1}^{R}\ln \left(p_{i}^{p_{i}}\right)

Это также можно записать как

H'=-\left[\ln \left(p_{1}^{p_{1}}\right)+\ln \left(p_{2}^{p_{2}}\right)+\ln \left(p_{3}^{p_{3}}\right)+\cdots +\ln \left(p_{R}^{p_{R}}\right)\right]

что эквивалентно

H'=-\ln \left(p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}\right)=\ln \left({1 \over p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}}\right)=\ln \left({1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}\right)

Поскольку сумма значений p_i по определению равна 1, знаменатель равен взвешенному геометрическому среднему значений p_i, где сами значения p_i используются в качестве весов (показателей степени в уравнении). Выражение в скобках, таким образом, равно истинному разнообразию ¹D, а H' равен ln(¹D)^[1]^[3]^[4].

Когда все типы в исследуемом наборе данных встречаются одинаково часто, все значения p_i равны 1 / R, и индекс Шеннона принимает значение ln(R). Чем неравномернее численности типов, тем больше взвешенное геометрическое среднее значений p_i, и тем меньше соответствующая энтропия Шеннона. Если практически вся численность сосредоточена в одном типе, а остальные типы очень редки (даже если их много), энтропия Шеннона стремится к нулю. Когда в наборе данных только один тип, энтропия Шеннона точно равна нулю (нет неопределённости в предсказании типа следующего случайно выбранного объекта).

В машинном обучении индекс Шеннона также называют информационным выигрышем.

Энтропия Реньи

Энтропия Реньи — это обобщение энтропии Шеннона на другие значения q, отличные от 1. Она выражается так:

{}^{q}H={\frac {1}{1-q}}\;\ln \left(\sum _{i=1}^{R}p_{i}^{q}\right)

что эквивалентно

{}^{q}H=\ln \left({1 \over {\sqrt[{q-1}]{\sum _{i=1}^{R}p_{i}p_{i}^{q-1}}}}\right)=\ln({}^{q}\!D)

Это означает, что взятие логарифма истинного разнообразия при любом значении q даёт энтропию Реньи для того же значения q.

Индекс Симпсона был введён в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при классификации особей по типам^[11]. Тот же индекс был повторно открыт Орисом К. Херфиндалем в 1950 году^[12]. Квадратный корень из этого индекса был введён ещё в 1945 году экономистом Альбертом О. Хиршманом^[13]. В результате эта мера обычно известна как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля—Хиршмана (HHI) в экономике.

Эта мера равна вероятности того, что две случайно выбранные из набора данных особи будут принадлежать к одному и тому же типу^[11]. Она вычисляется по формуле:

\lambda =\sum _{i=1}^{R}p_{i}^{2},

где R — богатство (общее число типов в наборе данных). Это уравнение также эквивалентно взвешенному арифметическому среднему пропорциональных численностей p_i интересующих типов, где сами пропорциональные численности используются в качестве весов^[1]. Пропорциональные численности по определению ограничены значениями от нуля до единицы, но это взвешенное арифметическое среднее, поэтому λ ≥ 1/R, что достигается, когда все типы одинаково многочисленны.

Сравнивая уравнение для вычисления λ с уравнениями для истинного разнообразия, можно увидеть, что 1/λ равно ²D, то есть истинному разнообразию, вычисленному при q = 2. Оригинальный индекс Симпсона, таким образом, равен соответствующей базовой сумме.^[2]

Интерпретация λ как вероятности того, что две случайно выбранные особи из набора данных будут принадлежать к одному типу, предполагает выборку с возвращением. Если набор данных очень велик, выборка без возвращения даёт примерно тот же результат, но в малых наборах разница может быть значительной. Если набор данных мал, и предполагается выборка без возвращения, вероятность того, что обе случайные выборки дадут один и тот же тип, равна:

\ell ={\frac {\sum _{i=1}^{R}n_{i}(n_{i}-1)}{N(N-1)}}

где n_i — число объектов, принадлежащих i-му типу, а N — общее число объектов в наборе данных.^[11] Эта форма индекса Симпсона также известна как индекс Хантера—Гастона в микробиологии^[14].

Поскольку средняя пропорциональная численность типов увеличивается с уменьшением числа типов и увеличением численности наиболее многочисленного типа, λ принимает малые значения в наборах с высоким разнообразием и большие значения в наборах с низким разнообразием. Это противоречит интуитивному восприятию индекса разнообразия, поэтому часто используют такие преобразования λ, которые увеличиваются с ростом разнообразия. Наиболее популярными из них являются обратный индекс Симпсона (1/λ) и индекс Джини—Симпсона (1 − λ)^[1]^[2].

Обратный индекс Симпсона

Обратный индекс Симпсона равен:

{\frac {1}{\lambda }}={1 \over \sum _{i=1}^{R}p_{i}^{2}}={}^{2}D

Это просто истинное разнообразие второго порядка, то есть эффективное число типов, получаемое при использовании взвешенного арифметического среднего для оценки средней пропорциональной численности типов в исследуемом наборе данных.

Этот индекс также используется как мера эффективного числа партий.

Индекс Джини—Симпсона

Индекс Джини—Симпсона также называют нечистотой Джини или индексом разнообразия Джини^[15] в области машинного обучения. Оригинальный индекс Симпсона λ равен вероятности того, что две случайно выбранные особи из набора данных (с возвращением) будут принадлежать к одному типу. Его преобразование 1 − λ, соответственно, равно вероятности того, что две особи будут принадлежать к разным типам. Эта мера также известна в экологии как вероятность межвидовой встречи (PIE)^[16] и индекс Джини—Симпсона^[2]. Его можно выразить как преобразование истинного разнообразия второго порядка:

1-\lambda =1-\sum _{i=1}^{R}p_{i}^{2}=1-{\frac {1}{{}^{2}D}}

Индекс Гиббса—Мартина, используемый в социологии, психологии и управлении,^[17] также известен как индекс Блау, и совпадает с индексом Джини—Симпсона.

Эта величина также известна как ожидаемая гетерозиготность в популяционной генетике.

Индекс Бергера—Паркера, названный в честь Вольфганга Х. Бергера и Фрэнсис Лоуренс Паркер^[18], равен максимальному значению p_i в наборе данных, то есть пропорциональной численности наиболее многочисленного типа. Это соответствует взвешенному обобщённому среднему значений p_i при q, стремящемся к бесконечности, и, следовательно, равно обратной величине истинного разнообразия порядка бесконечность (1/^∞D).

Colinvaux, Paul A. Introduction to Ecology. — Wiley, 1973. — ISBN 0-471-16498-4.
Cover, Thomas M. Elements of Information Theory / Cover, Thomas M., Thomas, Joy A.. — Wiley, 1991. — ISBN 0-471-06259-6. См. главу 5 для подробного изложения процедур кодирования, описанных выше.
Chao, A.; Shen, T-J. (2003). “Непараметрическая оценка индекса разнообразия Шеннона при наличии неучтённых видов в выборке” (PDF). Environmental and Ecological Statistics. 10 (4): 429—443. Bibcode:2003EnvES..10..429C. DOI:10.1023/A:1026096204727. S2CID 20389926.

Индекс разнообразия Симпсона
Индексы разнообразия Архивировано 19 декабря 2005 года. — примеры оценки индекса Симпсона для реальных экосистем.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Мера разнообразия

Эффективное число видов или числа Хилла

Чувствительность значения разнообразия к редким и доминирующим видам

Богатство

Индекс Шеннона

Энтропия Реньи

Индекс Симпсона

Обратный индекс Симпсона

Индекс Джини—Симпсона

Индекс Бергера—Паркера

Примечания

Литература

Ссылки

Категории