Объяснимая диагностика неисправностей на основе SHAP + термодинамическое моделирование и случайный лес

Введение

Сегодня мы представляем передовую статью, недавно опубликованную в журнале «Measurement»: «Thermodynamic Simulation-assisted Random Forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines» (Случайный лес с поддержкой термодинамического моделирования: на пути к объяснимой диагностике неисправностей компонентов камеры сгорания судовых дизельных двигателей).

В области искусственного интеллекта мы часто сталкиваемся с неловкой ситуацией: точность модели достигает 99%, но инженеры боятся ее использовать. Почему? Потому что в областях, связанных с безопасностью жизни и имущества (таких как диагностика судовых двигателей), одной цифры, выдаваемой моделью «черного ящика», недостаточно — нам нужна интерпретируемость.

Эта статья не только демонстрирует, как объединить термодинамическое моделирование со случайным лесом (RF), но и, что более важно, глубоко применяет алгоритм SHAP для создания нового «рентгеновского» взгляда на диагностику неисправностей сложных систем: она позволяет не только точно локализовать неисправность, но и объяснить, какой именно термодинамический параметр сыграл ключевую роль.

Маргинальный вклад

Основная цель SHAP — ответить на вопрос: какой вклад внес каждый признак в окончательный результат прогноза. В контексте диагностики неисправностей это означает: какой именно термодинамический параметр заставил модель определить данную неисправность.

Обычная диагностика заканчивается на этапе получения результата после ввода данных в обученную модель. Однако объяснимая диагностика выполняет «обратную разборку», оценивая вклад каждого параметра по следующей логике:

Возьмем в качестве примера модель случайного леса. Она состоит из множества решающих деревьев, каждое из которых выполняет задачу классификации. Каждое дерево «голосует» за определенный тип неисправности, и тип, набравший наибольшее количество голосов, становится окончательным выводом модели.

После ввода данных в модель прогнозируемый балл неисправности равен (количество деревьев, проголосовавших за категорию ). Этот балл представляет собой результат работы модели при вводе параметра совместно с набором других параметров , обозначаемый как .

Чтобы узнать вклад только параметра , нужно вычислить балл прогноза при вводе только набора параметров — , и найти разность. Это и будет маргинальным вкладом :

Маргинальный вклад параметра показывает его роль в определении неисправности , включая направление влияния (положительное или отрицательное) и его величину:

Если после добавления параметра вероятность (балл) определения неисправности увеличивается, это означает, что параметр оказывает положительное влияние (является одним из факторов неисправности);
Если балл уменьшается — параметр оказывает отрицательное влияние (не является причиной неисправности);
Чем больше абсолютное значение вклада, тем значимее роль параметра в диагностике.

От маргинального вклада к значениям SHAP

Для одного параметра существует несколько значений маргинального вклада, так как набор параметров можно скомбинировать разными способами.

Пример: есть 4 термодинамических параметра P1–P4. При расчете вклада P1 набор может быть {P2,P3,P4}、{P2,P3}、{P3,P4}、{P2,P4}、{P2}、{P3}、{P4} или (всего 8 комбинаций). Следовательно, у P1 будет 8 значений маргинального вклада.

Значение SHAP — это средневзвешенное значение всех маргинальных вкладов данного параметра, вычисляемое по формуле:

Где — общее количество параметров, а — количество параметров в наборе .

Значение SHAP отражает важность параметра: чем оно выше, тем больше влияние параметра на классификацию неисправности моделью.

Tree SHAP: ускорение вычислений

Обычный расчет SHAP требует перебора всех комбинаций параметров, что крайне неэффективно. Tree SHAP использует иерархическую структуру решающих деревьев для прямого расчета значений SHAP через вклад узлов в разделение. Модель учитывает только те параметры, которые находятся на фактическом пути прохождения выборки через дерево, что значительно повышает скорость вычислений.

Пример：

Tree shape Схема пути

Допустим, дерево состоит из 4 параметров. Обычный SHAP рассчитал бы все комбинации. Если выборка прошла по пути «Параметр 1 → Параметр 2 → Параметр 3 → Неисправность 2», то Tree SHAP рассчитает комбинации только для этих трех параметров.

Анализ интерпретируемости (на примере износа поршневых колец — неисправность F4)

图片描述 Рис. (a) — каскадная диаграмма (Waterfall plot); рис. (b) — диаграмма «пчелиный рой» (Beeswarm plot).

1. Каскадная диаграмма (рис. a)

Цель: Объяснить причину определения конкретного единичного случая неисправности F4.
Логика: Расчет начинается со среднего уровня прогноза по всем выборкам , к которому последовательно добавляются значения SHAP каждого параметра, достигая итогового балла прогноза .
Ключевой вывод: Параметры P12 (температура газов перед турбокомпрессором), P6 (тепловой поток прорыва газов), P14 и P7 (температура газов после турбокомпрессора) имеют наибольшие абсолютные значения SHAP и являются основными причинами классификации данного случая как F4.

2. Диаграмма «пчелиный рой» (рис. b)

Цель: Показать глобальную важность параметров для всех случаев неисправности F4.
Логика: По вертикальной оси расположены параметры, по горизонтальной — значения SHAP. Чем выше параметр и чем больше его значение SHAP, тем критичнее он для диагностики.
Ключевой вывод:
- Параметр P11 (давление газов перед турбокомпрессором) имеет самое высокое среднее значение SHAP, являясь ключевым глобальным индикатором F4.
- Образцы с низким значением P11 (синий цвет) сосредоточены в зоне положительных значений SHAP, что означает: «слишком низкое давление P11» — главный признак износа поршневых колец.
- Физический механизм: износ колец → нарушение герметичности → усиление прорыва газов → термодинамический дисбаланс выхлопной системы → снижение P11.

3. Основные выводы

Основными причинами износа поршневых колец камеры сгорания судового дизеля (неисправность F4) являются:

Слишком низкое давление выхлопных газов перед турбокомпрессором (P11);
Слишком низкая температура выхлопных газов перед турбокомпрессором (P12);
Слишком низкая температура выхлопных газов после турбокомпрессора (P7);
Слишком высокий тепловой поток прорыва газов (P6).

Оригинальная литература

C. Luo, M. Zhao, X. Fu, S. Zhong, S. Fu, K. Zhang, X. Yu. Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines [J]. Measurement, 2025, 251: 117252.

Оригинальная литература

Нажмите здесь →

Объяснимая диагностика неисправностей на основе SHAP + термодинамическое моделирование и случайный лес ​

Введение ​

Маргинальный вклад ​

От маргинального вклада к значениям SHAP ​

Tree SHAP: ускорение вычислений ​

Пример： ​

Анализ интерпретируемости (на примере износа поршневых колец — неисправность F4) ​

1. Каскадная диаграмма (рис. a) ​

2. Диаграмма «пчелиный рой» (рис. b) ​

3. Основные выводы ​

Оригинальная литература ​

Объяснимая диагностика неисправностей на основе SHAP + термодинамическое моделирование и случайный лес

Введение

Маргинальный вклад

От маргинального вклада к значениям SHAP

Tree SHAP: ускорение вычислений

Пример：

Анализ интерпретируемости (на примере износа поршневых колец — неисправность F4)

1. Каскадная диаграмма (рис. a)

2. Диаграмма «пчелиный рой» (рис. b)

3. Основные выводы

Оригинальная литература