15
Автоматизированная система для обработки материалов комплексного обследования условий жизни населения в 2011 году (АС КОУЖ-2011) Цели создания АС КОУЖ-2011 Основной целью работы является создание автоматизированной системы, позволяющей своевременно и оперативно осуществлять подготовку, проведение, обработку вопросников КОУЖ-2011 в рамках реализации Системы федеральных статистических наблюдений по социально-демографическим проблемам. В результате создания АС КОУЖ-2011 были достигнуты следующие результаты: 1. Осуществлена подготовка к КОУЖ-2011. 2. Осуществлена обработка первичных материалов КОУЖ-2011. 3. Созданы территориально-распределенные программно-аппаратные комплексы, развернутые в региональных центрах обработки, с интегрированной системой защиты информации. 4. Соблюдена единая методика и технология в процессе обработки данных КОУЖ-2011, обеспечивающая единство подходов и методов в получении информации во всех территориально распределенных центрах обработки. 5. Достигнуты высокая скорость и качество технической поддержки процессов обработки за счет единой точки регистрации и обработки всех заявок и обращений пользователей. 6. Осуществлена выгрузка данных, прошедших контроль, для последующей передачи на федеральный уровень. 7. Осуществлена обработка материалов КОУЖ-2011 на федеральном уровне. 8. Сформирована итоговая база данных на федеральном уровне. 9. Опубликованы итоги КОУЖ-2011 на web-ресурсе Росстата с возможностью удаленного доступа к базе микроданных.

Автоматизированная система для обработки материалов комплексного обследования условий жизни населения

  • View
    226

  • Download
    2

Embed Size (px)

Citation preview

Автоматизированная система для обработки материалов комплексного обследования условий жизни населения в 2011 году (АС КОУЖ-2011)

Цели создания АС КОУЖ-2011

Основной целью работы является создание автоматизированной системы, позволяющей

своевременно и оперативно осуществлять подготовку, проведение, обработку

вопросников КОУЖ-2011 в рамках реализации Системы федеральных статистических

наблюдений по социально-демографическим проблемам.

В результате создания АС КОУЖ-2011 были достигнуты следующие результаты:

1. Осуществлена подготовка к КОУЖ-2011.

2. Осуществлена обработка первичных материалов КОУЖ-2011.

3. Созданы территориально-распределенные программно-аппаратные

комплексы, развернутые в региональных центрах обработки, с

интегрированной системой защиты информации.

4. Соблюдена единая методика и технология в процессе обработки данных

КОУЖ-2011, обеспечивающая единство подходов и методов в получении

информации во всех территориально распределенных центрах обработки.

5. Достигнуты высокая скорость и качество технической поддержки процессов

обработки за счет единой точки регистрации и обработки всех заявок и

обращений пользователей.

6. Осуществлена выгрузка данных, прошедших контроль, для последующей

передачи на федеральный уровень.

7. Осуществлена обработка материалов КОУЖ-2011 на федеральном уровне.

8. Сформирована итоговая база данных на федеральном уровне.

9. Опубликованы итоги КОУЖ-2011 на web-ресурсе Росстата с возможностью

удаленного доступа к базе микроданных.

Характеристики объектов и субъектов автоматизации

Объектом автоматизации Ошибка! Источник ссылки не найден.являются процессы

полного цикла автоматизированной обработки материалов КОУЖ-2011.

Проведение комплексного обследования условий жизни населения включает в себя

следующие этапы:

1. Подготовка к проведению КОУЖ-2011.

2. Проведение КОУЖ-2011.

3. Ввод и обработка первичных материалов КОУЖ-2011 на региональном уровне.

4. Обработка первичных материалов КОУЖ-2011 на федеральном уровне,

получение сводных итогов.

5. Формирование и выверка базы данных КОУЖ-2011 на федеральном уровне.

6. Получение итогов КОУЖ-2011 на федеральном уровне.

7. Распространение итогов обследования.

Для реализации вышеперечисленных этапов в рамках проекта по разработке

автоматизированной системы для обработки и публикации итогов комплексного

обследования автоматизированы следующие объекты:

Процесс загрузки списка счетных участков.

Процесс выгрузки форм в PDF-формат для тиражирования вопросников КОУЖ-

2011.

Процесс ввода и кодирования вопросников КОУЖ-2011.

Процесс формального и логического контролей данных.

Процесс загрузки электронных пачек.

Процесс автокоррекции, импутации и распространения данных

Подсистема формирования базы данных обобщенного информационного

фонда (БД ОИФ ФУ).

Процесс получения итоговых таблиц (регламентных, не регламентных, в том

числе диаграмм и графиков).

Процесс мониторинга проведения КОУЖ-2011.

Процесс публикации итогов КОУЖ-2011 в bнтернете с возможностью

удаленного доступа к базе микроданных и системе метаданных в формате DDI

или другом формате по согласованию с pаказчиком.

Процесс администрирования (установка и обновление программного

обеспечения, управление разграничением прав доступа, выгрузка данных для

передачи на ФУ).

Процесс формирования и ведения нормативно-справочной информации.

Субъекты автоматизации АС КОУЖ-2011 распределены по двум уровням:

Региональный уровень включает в себя региональные центры подготовки и обработки

материалов КОУЖ-2011, которые располагаются в Территориальных органах

государственной статистики (ТОГС). Региональные центры осуществляют следующие

задачи:

загрузка списка счетных участков;

тиражирование вопросников КОУЖ-2011;

ввод, кодирование и первичный контроль данных с вопросников КОУЖ-2011;

формальный и логический контроль данных КОУЖ-2011;

выгрузки электронных пачек с данными КОУЖ-2011для передачи на

федеральный уровень;

выверки промежуточных итогов КОУЖ-2011;

мониторинг проведения КОУЖ-2011.

Федеральный уровень включает в себя Центральный аппарат Росстата и центр

обработки данных на федеральном уровне (ЦОДФУ), который отвечает за

автоматизированную обработку материалов КОУЖ-2011 и формирование итоговой базы

данных на федеральном уровне. На федеральном уровне выполняются следующие

задачи:

загрузка электронных пачек с данными КОУЖ-2011 в базу данных первичного

информационного фонда (БД ПИФ ФУ);

выполнение этапа автокоррекции;

выполнение этапа импутации;

выполнение этапа распространения данных на генеральную совокупность;

формирование базы данных обобщенного информационного фонда (БД ОИФ

ФУ);

построение регламентных, не регламентных и публикационных таблиц;

обеспечение публикации итогов КОУЖ-2011 в интернете;

обеспечение удаленного доступа к базе микроданных;

мониторинг проведения КОУЖ-2011.

Описание процессов

Процесс загрузки списка счетных участков заключается в загрузке на региональном

уровне Excel файла с перечнем населенных пунктов и привязанного к ним списка счетных

участков.

Процесс выгрузки для тиражирования форм в PDF-формате заключается в

формировании вопросников КОУЖ в PDF-формате для последующей их печати в ТОГС

или в типографии.

Процесс ввода и кодирования материалов обследования заключается в ручном вводе

данных с форм КОУЖ-2011 на автоматизированных рабочих местах (АРМ), кодирование

словарных полей вопросников при помощи использования поиска значений в

электронных справочниках и последующее сохранение данных в виде электронных пачек.

Процесс контроля данных заключается в проведении формального и логического

контроля на АРМ, в соответствии с правилами, описанными в ЭО Часть 1.

Процесс загрузки электронных пачек заключается в загрузке на федеральном уровне

массива электронных пачек, полученных с регионального уровня.

Процесс построения запросов к первичным данным заключается в получении

произвольных данных, содержащихся в хранилище, в том числе на основе формирования

выборки домохозяйств, удовлетворяющих определенным условиям, задаваемым

экономистом.

Процесс формирования пообъектной базы данных (ПБД ФУ) заключается в

последовательном слиянии в единый массив всех данных, полученных в ходе КОУЖ-

2011, в последовательном выполнении этапов автокоррекции, импутации и

распространении данных на генеральную совокупность.

Процесс получения итоговых таблиц заключается в пакетной генерации итоговых

отчетов, на основе сконструированных макетов таблиц в соответствии с ЭО часть 2.

Процесс мониторинга проведения КОУЖ-2011заключается в предоставлении

информации о ходе автоматизированной обработки в виде набора отчетов.

Процесс публикации итогов КОУЖ-2011 заключается в публикации и предоставлении

общего доступа к итогам КОУЖ-2011условий жизни населения 2011 года в Интернете.

Процесс доступа к микроданным заключается в системном представлении итогов

обследования в виде обобщенного информационного фонда по отдельным единицам

обследования, содержащего первичные и агрегированные (сводные) данные.

Процесс администрирования заключается в установке и обновлении ПО, в настройке

прав доступа к задачам, выполняемым подсистемами АС КОУЖ-2011, а так же в выгрузке

данных для передачи на федеральный уровень.

Процесс формирования и ведения нормативно-справочной информации заключается в

просмотре и актуализации нормативно-справочной информации (справочников).

Ключевые преимущества технологий регионального уровня.

На региональном уровне в рамках системы АС КОУЖ-2011 производится загрузка списка

населенных пунктов и списка счетных участков, принимающих участие в комплексном

обследовании условий жизни населения за 2011 год. Затем по мере поступления

заполненных вопросников осуществляется ввод домохозяйства в систему и для каждого

добавленного в систему домохозяйства ввод, кодирование и первичный контроль данных

с вопросников. В процессе сохранения введенных данных по домохозяйству

осуществляется автоматическое формирование электронной пачки. В рамках Ошибка!

Источник ссылки не найден. электронной пачке соответствует домохозяйство с

введенными вопросниками. После полного ввода домохозяйства выполняется

формальный и логический контроль введенных данных. При наличии ошибок контроля

осуществляется редактирование домохозяйства и выполняется повторный формальный и

логический контроль данных. После успешного прохождения контроля всех введенных

домохозяйств осуществляется выгрузка электронных пачек для последующей передачи

их на федеральный уровень.

Основные требования, предъявляемые к подсистеме ввода, кодирования и контроля данных форм КОУЖ-2011

Инструментарием комплексного обследования являются следующие вопросники:

вопросник для домохозяйства;

индивидуальный вопросник для лиц в возрасте 15 лет и старше;

вопросник по детям в возрасте до 15 лет.

Функциональные требования:

Подсистема должна предоставлять возможность пользователю вносить данные из

вопросника КОУЖ-2011 в соответствующие поля на форме ввода данных. Поля на форме

ввода данных должны соответствовать полям вопросника.

Пользователям должна предоставляться возможность кодирования словарных полей

вопросников при помощи использования поиска значений в электронных справочниках.

Ко всем полям, по которым происходит кодирование, должны быть подключены

электронные словари с возможностью поиска.

Подсистема должна предоставлять возможность пользователям выполнять сохранение

вводимой информации на любом этапе ввода данных с форм.

При сохранении должна фиксироваться информация об учетной записи оператора ввода.

Подсистема должна предоставлять возможность в разрезе домохозяйств формировать

электронные пачки, состоящие из вопросников со статусов «Ввод закончен».

Подсистема должна предоставлять возможность проведения выборочной верификации –

повторного ввода отдельных вопросников другим оператором и сравнение введенных

данных для проверки достоверности введенных данных.

Подсистема должна предоставлять возможность проведения формального и логического

контроля в пределах одного вопросника. В случае обнаружения ошибки логического или

формального контроля на экране должна отображаться следующая информация:

сообщение об ошибке; номер сработавшего правила формально-логического контроля;

ссылки на поля вопросника, участвовавшие в проверке с возможностью быстрой

навигации по ним.

Подсистема должна предоставлять возможность просмотра оператором пачки в режиме

прохождения формально-логического контроля с возможностью перехода к следующей

ошибке в данных по мере её исправления.

Подсистема должна предоставлять возможность разделения ошибок на «жесткие», т.е.

обязательные для исправления и не позволяющие без исправления продолжить

формально-логический контроль, и «мягкие», которые оператор, изучив ситуацию, может

признать неисправляемыми, пометить и продолжить контроль. Информация о «мягких»

ошибках, зафиксированных в пачке, должна сохраняться на все время ее существования.

Подсистема должна фиксировать информацию обо всех действиях оператора, включая

вид и время операций, ошибки и исправления в журнале обработки каждой электронной

пачки. Данная информация должна быть доступна в мониторинге хода

автоматизированной обработки материалов обследования по запросу, сформированному

Заказчиком.

Состав и структура подсистемы

Подсистема состоит из модуля ввода и кодирования, а также из модуля формального и

логического контроля данных с вопросников КОУЖ-2011.

Модуль ввода и кодирования выполнен в виде формы, через которую осуществляется

ручной ввод данных с вопросников, при этом поля формы ввода полностью

соответствуют полям вопросника.

На форме присутствуют три основные области: «Область отображения полей

вопросника», «Область операций» и «Область отображения перечня вопросников и

ошибок контроля».

Модуль ввода позволяет оперативно вводить данные с вопросников за счет полного

соответствия полей формы полям вопросника. Ко всем словарным полям подключены

электронные справочники. Выбранный ответ у вопроса подсвечивается синим цветом.

Данный механизм позволяет упростить процедуру визуального контроля данных.

Бланк вопросника: Форма ввода вопросника:

В результате ввода вопросников одного домохозяйства формируется электронная пачка,

содержащая информацию о домохозяйстве с данными введенных вопросников.

Электронная пачка является единицей хранения информации, подлежащей обработке на

федеральном уровне.

Имя пачки формируется из набора полей: код территории, код населенного пункта и код

домохозяйства, и является уникальным атрибутом пачки.

Подсистема предоставляет возможность повторного ввода отдельных вопросников и

сравнение введенных данных для проверки достоверности введенных данных.

По завершению ввода данных с вопросника выполняется формальный и логический

контроль данных. Формальный и логический контроль данных реализуется в

соответствии с экономическим описанием (ЭО). Правила контроля включают

межформенную и внутриформенную проверку данных с вопросников (более 2500 правил

для вопросника по домохозяйству, более 3000 правил для индивидуального вопросника и

более 2000 правил для вопросника по детям).

Подсистема предоставляет возможность производить контроль по каждому отдельному

вопроснику или производить массовую проверку домохозяйств.

Контроль отдельного вопросника производится на форме ввода данных с вопросников,

что позволяет осуществлять контроль в процессе ввода данных с вопросника. При

обнаружении ошибок контроля выводится их перечень в области ошибок контроля. При

наведении на ошибку контроля отображается описание данной ошибки. При нажатии на

ошибку контроля осуществляется автоматический переход к полю вопросника для

исправления ошибки контроля.

Массовая проверка домохозяйств (АвтоФЛК) позволяет проверить все домохозяйства,

находящиеся в статусе «Ввод завершен», «ФЛК пройден», «Отправлен/выгружен». По

окончании проверки в окне запуска контроля выводятся ее результаты.

Домохозяйства, в которых не обнаружено ошибок после запуска операции контроля,

автоматически переходят в статус обработки «ФЛК пройден».

Ключевые преимущества технологий федерального уровня

На федеральном уровне в рамках системы АС КОУЖ-2011 производится загрузка

электронных пачек, полученных из ТОГС, в центральное хранилище (формируется БД

ПИФ ФУ). Затем осуществляется формирование первичных и расчетных показателей

(формируется БД ОИФ ФУ). Как только из данных электронных пачек сформированы

первичные показатели, пользователи ЦОДФУ получают возможность конструировать

запросы к БД ОИФ ФУ с использованием программного продукта SPSS Statistic.

В процессе формирования БД ОИФ ФУ возможно применение различных правил,

позволяющих исправить найденные систематические аномалии в данных методом

автокоррекции, а также восстановить пропущенные данные методом импутации c

использованием программного продукта Canceis.

Процесс получения итогов АС КОУЖ-2011 проводится на федеральном уровне.

Получение итогов заключается в формировании предопределенных в ЭО рабочих и

публикационных таблиц, а также самостоятельном конструировании персоналом

заказчика произвольных макетов таблиц и увязок. На основе разработанных макетов

таблиц осуществляется пакетная генерация итоговых отчетов, содержащих данные

комплексного обследования, осуществляется выверка внутритабличных и межтабличных

увязок. После того, как данные в базе выверены, полученные итоговые отчеты могут быть

опубликованы.

Представления итогов обследования в виде обобщенного информационного фонда по

отдельным единицам обследования, содержащего первичные и агрегированные

(сводные) данные, осуществляется с использованием программного продукта Contour BI,

а также посредством публикации итогов в формате DDI.

АС КОУЖ-2011 федерального уровня состоит из следующих функциональных блоков:

загрузка электронных пачек с регионального уровня;

автоматическое прохождение формального и логического контроля;

формирование базы данных обобщенного информационного фонда и расчет

показателей;

анализа полученных данных;

исправление систематических аномалий в данных;

получение итоговых таблиц;

публикация итогов в интернете.

Система позволяет загружать электронную пачку многократно, перезаписывая ей при

повторной загрузке, при этом в БД ПИФ ФУ загружается только последняя версия

электронной пачки. Электронная пачка – это XML-документ, который содержит

домохозяйства с данными введенных вопросников.

В процессе получения данных с регионального уровня и загрузки электронных пачек в БД

ПИФ ФУ система предоставляет возможность оператору осуществлять массовую

проверку домохозяйств (АвтоФЛК), что уменьшает вероятность попадания в базу данных

обобщенного информационного фонда (БД ОИФ ФУ) некорректных данных.

После контроля полученных данных с регионального уровня выполняется формирование

БД ОИФ ФУ. Для формирования базы данных применяется XML-парсер, который читает

XML-документ, анализирует его структуру и раскладывает содержимое XML-документа по

полям в БД. Формирование БД ОИФ ФУ, состоящей из 10 000 домохозяйств, занимает

около 20 минут.

Для анализа данных используется программный продукт SPSS Statistic, который

позволяет эффективно анализировать данные и наглядно представлять результаты в

виде таблиц и диаграмм.

SPSS Statistics включает следующие ключевые функции:

линейные модели предлагают разнообразные процедуры регрессионного и

расширенного статистического анализа, спроектированные с учетом присущих

характеристик составных отношений описания данных.

нелинейные модели предоставляют возможность применять к данным более

сложные модели.

настраиваемые таблицы позволяют пользователям легко определять суть

данных и быстро выводить обзор результатов в разных стилях для разных

потребителей.

В процессе анализа обобщенного информационного фонда могут быть найдены

систематические аномалии в данных или пропуски в данных. Для исправления найденных

систематических аномалий в данных применяется метод автокоррекции, для

восстановления пропущенных данных применяется метод импутации. Пользователям

предоставляется возможность, используя программный продукт Canceis, самостоятельно

применять различные методы импутации и автокоррекции, а также указывать перечень

переменных, для которых данные методы должны быть применены.

АС КОУЖ-2011 предоставляет возможность выгружать данные обобщенного

информационного фонда для дальнейшей обработки их в системе Canceis.

Система предоставляет возможность на основе разработанных макетов таблиц

осуществлять пакетную генерацию итоговых отчетов, содержащих данные комплексного

обследования. Пользователем предоставляется возможность на любом этапе выверки

данных осуществлять генерацию итоговых отчетов. Система предоставляет возможность

пользователям сформировать итоговые отчеты как на основе одного макета, так и на

основе нескольких макетов таблиц. АС КОУЖ-2011 обеспечивает высокую скорость

генерации итоговых отчетов в формат MS Word (около 20 таблиц в минуту).

АС КОУЖ-2011 предоставляет возможность публикации итогов комплексного

обследования в формате DDI (Data Documentation Initiative), являющимся

международным стандартом описания данных обследований. Документ в формате DDI

представляет собой XML-документ, состоящий из следующих разделов:

Описание документа (Document Description) – в данном разделе указывается

название обследования и учреждение, которое предоставляется информацию

о метаданных, а также служебная информация.

Описание обследования (Study Description) – в данном разделе указывается

общая информация о текущем обследовании, информация о подготовке к

обследованию, о ходе проведения обследования, методах сбора данных и т.п.

Описание набора данных (Data File Description) - данный раздел содержит

описание файлов с данными с точки зрения содержания, перечня переменных

и т.п.

Описание переменных (Variable Description) данный раздел содержит

подробную информацию о каждой переменной: название, метки значений,

описание, инструкции и т.п.

Справочная информация (Other Material) – данный раздел содержит

дополнительную информацию об обследовании: инструментарий

обследования, инструкции, справочники и т.п.