Декомпозиция моделирования

Декомпозиция моделирования (англ. Simulation decomposition, также SimDec) — это гибридный визуальный метод анализа неопределённости и чувствительности, используемый для изучения взаимосвязей между выходными и входными переменными вычислительных моделей.

Метод декомпозиции моделирования сопоставляет многовариативные сценарии с распределением выходных значений модели. Такой подход к визуальной аналитике позволяет выявлять характер поведения модели, включая нелинейные и многомерные эффекты взаимодействия.

Декомпозиция моделирования применяется в различных областях науки, инженерии и социальных исследованиях. Существуют опубликованные применения в бизнес-аналитике[1] и исследованиях окружающей среды[2][3].

undefined

Методика

Декомпозиция моделирования применяется к результатам моделирования методом Монте-Карло (или к эмпирическим данным) с записанными значениями входов и выходов. Для сохранения информативности получаемых гистограмм обычно рекомендуется минимум тысяча наблюдений (итераций моделирования). Алгоритм декомпозиции, реализованный на различных языках программирования[4], включает следующие этапы:

  1. Выбор входных переменных для декомпозиции. Для этого можно использовать индексы чувствительности (см. Анализ чувствительности на основе дисперсии) для определения наиболее значимых переменных, либо выбирать вручную согласно контексту задачи (например, только те переменные, на которые можно воздействовать). Обычно наиболее содержательные результаты даёт выбор двух-трёх переменных, отсортированных по убыванию индекса чувствительности.
  2. Разделение входов на состояния. Диапазоны числовых переменных разбиваются на несколько интервалов с одинаковым количеством наблюдений в каждом. Категориальные переменные принимают состояния в виде категорий.
  3. Формирование сценариев. Все возможные комбинации состояний выбранных переменных образуют уникальные сценарии — подмножества данных. Например, если диапазон X2 разбит на состояния «низкое», «среднее», «высокое», а X3 принимает значения 1 или 2, получится шесть сценариев:
    (i) X2 низкое & X3 = 1,
    (ii) X2 низкое & X3 = 2,
    (iii) X2 среднее & X3 = 1,
    (iv) X2 среднее & X3 = 2,
    (v) X2 высокое & X3 = 1,
    (vi) X2 высокое & X3 = 2.
  4. Назначение сценария каждому выходному значению. Для каждого набора данных определяется индекс сценария согласно предыдущему разделению. Например, если X2 попадает в категорию «низкое», а X3 = 2, то соответствующий сценарий — (ii).
  5. Цветовое кодирование распределения выходов. После назначения индексов сценариев выходные значения визуализируются сериям на составной (stacked) гистограмме с разделением по цветам. Наиболее влиятельному входу назначается основной цвет, остальные разбивки кодируются оттенками (см. рисунок).

Все шаги могут быть автоматически выполнены с помощью открытых пакетов SimDec для Python, R, Julia и Matlab[4]. Для Excel доступен шаблон SimDec с ручным выбором переменных.

undefined

Как читать графику декомпозиции моделирования

Гистограмма

Гистограмма — это приближённое изображение распределения числовых данных. По горизонтали откладывается диапазон интересующей переменной, по вертикали — количество наблюдений (частота), а после нормировки — вероятность попадания[5].

По одной только гистограмме можно узнать минимальное, максимальное значение и общую форму распределения (где сосредоточены данные) исследуемой величины.

undefined

Оценка важности входных параметров

Если входная переменная не влияет на выход, её состояния (например, «низкое» и «высокое») будут полностью перекрываться на гистограмме SimDec. Если переменная оказывает сильное влияние и объясняет большую часть дисперсии выхода, граница между её состояниями будет вертикальной. Это важно при принятии решений: например, высокое состояние X гарантирует определённый диапазон Y. В случаях промежуточных степеней влияния граница приобретает наклон; чем меньше перекрытие — тем больше влияние X на Y.

Горизонтальное смещение субраспределений на гистограмме SimDec определяет интерпретацию результатов, вертикальное — лишь технически связано с порядком построения серий.

Интерпретация значимости входных переменных на гистограмме SimDec
Сила воздействия Внешний вид Вывод для принятия решения
Нет влияния Субраспределения полностью совпадают, перекрывая диапазон выхода. Значения X не оказывают значимого влияния на Y.
Среднее влияние Граница субраспределений диагональная, диапазоны Y частично перекрываются. Высокое значение X повышает вероятность попасть в высокий диапазон Y, но не гарантирует это. Такой же результат (в зоне перекрытия) достижим и при меньшей X.
Сильное влияние Граница субраспределений вертикальная, диапазоны Y не перекрываются. Высокое состояние X гарантирует высокий уровень Y.
undefined

Исследование взаимодействий входов

Если для декомпозиции выбраны несколько переменных, можно визуально изучать их совместные эффекты. На схематической иллюстрации ниже показано, как проявляются разные типы взаимодействия на графиках SimDec:

  • Отсутствие взаимодействия. В аддитивной модели субраспределения будут смещены равномерно. Второй порядок взаимодействия равен нулю.
  • Линейное взаимодействие характерно для мультипликативных моделей. На SimDec субраспределения смещаются с увеличением одной переменной при разных уровнях другой. Индекс чувствительности для второго порядка здесь отличен от нуля.
  • Одна переменная меняет направление воздействия в зависимости от состояния другой переменной. Такое возникает при смене знака в модели; чувствительность второго порядка не нулевая.
  • Различные виды нелинейных взаимодействий: Например, в одном состоянии одной переменной другая не влияет (субраспределения совпадают), но в других — эффект есть (смещённые субраспределения). Для таких случаев также характерен ненулевой индекс второго порядка.

Понимание характера взаимодействий внутри вычислительной модели имеет определяющее значение для принятия эффективных решений.

Ограничения

Метод декомпозиции моделирования имеет несколько ограничений:

  • Он требует проведения моделирования методом Монте-Карло, то есть тысячи и более запусков вычислительной модели. Если один прогон модели занимает часы, метод практически не применим (если только не используются суперкомпьютеры и большое время расчёта).
  • Метод опирается на гистограммы, что ограничивает его возможности для бинарных и категорированных переменных (получается мало столбцов, низкая информативность).
  • При увеличении числа выбранных переменных итоговая гистограмма становится менее читаемой. В опубликованных работах подробно описаны только случаи с двумя—тремя переменными.

Примечания

  1. Kozlova, M., Collan, M., & Luukka, P. (2017). Simulation decomposition: New approach for better simulation analysis of multi-variable investment projects.
  2. Deviatkin, I., Kozlova, M., & Yeomans, J. S. (2021). Simulation decomposition for environmental sustainability: Enhanced decision-making in carbon footprint analysis. Socio-Economic Planning Sciences, 75, 100837.
  3. Liu, Y. C., Leifsson, L., Pietrenko-Dabrowska, A., & Koziel, S. (2022). Analysis of Agricultural and Engineering Systems Using Simulation Decomposition. In International Conference on Computational Science (pp. 435—444). Springer, Cham.
  4. 1 2 Simulation Decomposition GitHub https://github.com/Simulation-Decomposition
  5. Kenney, J. F. Mathematics of Statistics, Part 1 : [англ.] / J. F. Kenney, E. S. Keeping. — 3rd. — Van Nostrand Reinhold, 1962.