DATA Analyzer
Программа снабжена развитой системой сервисных функций: визуализации и масштабирования исходных данных, функциями ввода, просмотра, корректировки, поиска объектов по номеру и по диапазонам значений параметров. Объемы обрабатываемых выборок (файлы форматов *.DAT и *.DTT) - до 5 000 объектов и до 200 параметров.
1.1. Предварительная статистическая обработка - поиск объектов с аномальными значениями параметров
В программе DATA Analyzer реализована процедура автоматического поиска объектов с аномальными значениями анализируемых параметров, основывающаяся на алгоритме А1. После ввода доверительной вероятности и проведения расчетов, программа отображает результат поиска (рис.1), указывая номер аномального объекта; наименование и значение параметра, по которому объект был признан аномальным; среднее значение параметра; наибольшее относительное отклонение (TAU) и табличное значение t- критерия Стьюдента (TAUтабл.), соответствующие пунктам 3 и 6 алгоритма А1 соответственно. Найденные объекты можно представить графически (рис.2), отредактировать или удалить (рис.3).

Рис. 1. Результат автоматического поиска аномальных объектов

Рис. 2. Графическое представление аномальных объектов (кресты)

Рис. 3. Вид выборки после удаления аномальных объектов Как хорошо видно из рис.2, 3, отброс аномальных объектов привел к заметному улучшению характера распределений исходных данных. Учитывая, что аномальными были признаны всего 17 объектов (4% от объема выборки - рис.4.4.), можно утверждать, что автоматический поиск аномальных объектов прошел успешно.
1.2. Построение регрессионной модели от одного параметра
Для практического анализа регрессионных зависимостей исследуемого многомерного множества нефтепромысловых объектов бывает очень удобен совмещенный полигон всех регрессий (рис.4.). Он позволяет наглядно представить все взаимосочетания влияний анализируемых параметров, делать выводы о характере и степени зависимости между входными параметрами, их отдельном вкладе влияния на выходной параметр (показатель качества).
Реализованы алгоритмы автоматического (алгоритм А4) и ручного определения степени и структуры аппроксимирующего полинома.

Рис. 4. Графики регрессионных зависимостей всех параметров
1.3. Множественная нелинейная регрессионная модель
При построении множественной нелинейной регрессионной зависимости, программа использует алгоритм поиска оптимальной структуры регрессионной модели (алгоритм А4).
Рассмотрим процесс построения модели на конкретном примере анализа влияния геологических параметров на дебит нефти скважин Нивагальского месторождения ТПП "Лангепаснефтегаз". Исходные данные были подвергнуты предварительной статистической обработке (алгоритм А1), и переведены в пространство главных компонент (рис.5). Выходной параметр - Дебит на второй месяц эксплуатации скважин (рис.6), для построения модели были приняты все объясняющие параметры (для примера были оставлены все главные компоненты - рис.7), построение модели началось с полной кубической формы (рис.8), критерий поиска - оптимизация соотношения остаточной дисперсии и количества членов полинома (рис.9).

Рис.5. Исходные данные для построения регрессионной модели

Рис. 6. Выбор выходного параметра

Рис. 7. Выбор объясняющих переменных

Рис. 8. Выбор объясняющих переменных

Рис. 9. Выбор критерия поиска структуры регрессионной модели
Величина остаточной дисперсии регрессионной модели составила 3.0, величина F-критерия 8.8 против табличного значения 2.4 (рис.10).
Для примера, по модели был спрогнозирован дебит скважины N7137, составивший 6,2 т/сутки (рис.11). Реальное значение дебита скважины составляет 6,4 т/сутки. Погрешность прогноза дебита на обучающей выборке составила 3,1%. На рис.12, в плоскости параметров Дебит на 2-й месяц, Z5 отображены реальное (крест "+") и прогнозное (крест "х") значения дебита.

Рис.10. Характеристики полученной модели

Рис.11. Прогноз дебита скважины N7137

Рис.12. Реальное и спрогнозированное значения дебита скважины 7137
1.4. Сравнение качества распознавания по усовершенствованному и классическому методу Вальда
Сравним качество распознавания усовершенствованного и классического методов Вальда на примере анализа эффективности проведения гидроразрыва пласта (ГРП). Проанализируем влияние на дебит скважины после ГРП следующих исходных параметров: координаты Х,У скважины, мощность нефтяного пласта, коэффициент нефтенасыщенности, дебит скважины до проведения ГРП (рис.13). Естественно, в реальных условиях, для оценки эффективности проведения ГРП, необходимо рассматривать значительно большее количество параметров, однако для наглядности примера ограничимся вышеперечисленными.
Выберем границу разбиения выходного параметра на категории Гр = 13.18 - середину диапазона значений параметра, т.е. все скважины, с дебитами

Рисунок 13. Исходные данные для анализа эффективности проведения ГРП
после ГРП, меньшими чем 13.18, относились к категории А, а скважины с дебитами выше 13.18 - к категории В. Ошибки первого и второго рода приняты по 10% (рис.14).

Рис.14. Ввод границы разбиения и ошибок 1-го и 2-го рода
На рисунках 15, 16 приведены количественные результаты качества распознавания модели, построенной по классическому (алгоритм А2) и усовершенствованному (алгоритм А3) методу. В графическом виде результаты распознавания показаны на рис.17 и 18.
Также, сравнивалось качество распознавания классического и усовершенствованного вариантов метода, при поиске границы разбиения выходного параметра на категории, обеспечивающей максимальное качество распознавания модели. Результаты всех опытов сведены в таблицу 1.
Из таблицы видно, что при усовершенствованном методе построения модели, качество распознавания выше, как при делении параметра пополам на две категории, так и при автоматическом поиске границы, обеспечивающей максимальное качество распознавания. В первом случае, повышение качества распознавания усовершенствованной модели относительно классического метода составило: (52,632-22,368)/22,368*100%=135,3% .

Рис.15. Классический метод. Граница категорий 13.18

Рис.16. Усовершенствованный метод. Граница категорий 13.18

Рис.17. Результат распознавания и диагностические коэффициенты при классическом способе построения модели

Рис.18. Результат распознавания и диагностические коэффициенты при усовершенствованном способе построения модели
Таблица 1 Сводная таблица качества распознавания моделей при усовершенствованном и классическом способах построения модели последовательной диагностической процедуры Вальда
| Метод построения модели |
Классический |
Усовершенствованный |
| Выбор границы категорий |
Середина диапазона |
Та же, что и в усовершенств. методе при автоматическ.определении |
Середина диапазона |
Автоматическое определение для максимизации качества распознавания |
| Категория |
А |
В |
А |
В |
А |
В |
А |
В |
| Верно распознано |
13 |
5 |
12 |
13 |
22 |
20 |
18 |
33 |
| Ошибочно отнесено |
1 |
0 |
3 |
1 |
1 |
1 |
3 |
1 |
| Не распознано при 10% ошибках 1 и 2-го рода |
27 |
30 |
13 |
34 |
17 |
15 |
7 |
14 |
| Граница разбиения выходного параметра |
13,18 |
12,46 |
13,18 |
12,46 |
| Суммарная информативность по Кульбаку |
3,26 |
3,78 |
10,82 |
11,38 |
| Качество распознавания модели, % (по формуле 3.1) |
22,37 |
27,63 |
52,63 |
61,84 |
Во втором случае, при границе категорий, максимизирующей качество распознавания усовершенствованного метода, повышение качества распознавания усовершенствованного метода относительно классического способа составило (61,842-27,632)/27,632*100%=123,8%
Поиск максимального качества при классическом методе сильно сместил границу разбиения выходного параметра на категории к минимуму параметра (10.61), что исключило возможность использования построенной модели.
|