15
Автоматизированная система «Всероссийская перепись населения 2010 года» Назначение автоматизированной системы «Всероссийская перепись населения 2010 (АС ВПН-2010) АС ВПН-2010 предназначена для автоматизации следующих этапов проведения всероссийской переписи населения 2010 года (ВПН-2010): подготовка к проведению переписи; мониторинг хода переписи и подготовки первичных материалов переписи к автоматизированной обработке; обработка первичных материалов переписи; формирование базы данных (БД) переписи; получение итогов переписи; другие вспомогательные процессы, гарантирующие качество и своевременность выполнения основных процессов, а также достоверность получаемых итогов переписи.

Автоматизированная система «Всероссийская перепись населения 2010 года»

  • Upload
    -

  • View
    28

  • Download
    1

Embed Size (px)

Citation preview

Автоматизированная система «Всероссийская перепись населения 2010 года»

Назначение автоматизированной системы «Всероссийская перепись населения 2010 (АС ВПН-2010)

АС ВПН-2010 предназначена для автоматизации следующих этапов проведения всероссийской

переписи населения 2010 года (ВПН-2010):

подготовка к проведению переписи;

мониторинг хода переписи и подготовки первичных материалов переписи к

автоматизированной обработке;

обработка первичных материалов переписи;

формирование базы данных (БД) переписи;

получение итогов переписи;

другие вспомогательные процессы, гарантирующие качество и своевременность

выполнения основных процессов, а также достоверность получаемых итогов переписи.

Рисунок 1. Этапы проведения ВПН-2010

Субъекты автоматизации ВПН-2010 распределены по трем уровням:

районный уровень включает в себя районные центры подготовки к проведению

ВПН-2010, которые располагаются в районных отделах статистики (около 3000

точек использования ПО);

региональный уровень включает в себя региональные центры подготовки и

обработки материалов переписи, которые располагаются в территориальных

органах государственной статистики (ТОГС). Региональные центры делятся на

основные региональные центры, осуществляющие все задачи регионального

уровня, и на дополнительные региональные центры, осуществляющие все задачи

регионального уровня, кроме задач, связанных с автоматизированной обработкой

первичных материалов ВПН-2010 (68 основных и 15 дополнительных региональных

центров);

федеральный уровень включает в себя Центральный аппарат (ЦА) Росстата и

центр обработки данных на федеральном уровне (ЦОДФУ), который отвечает за

автоматизированную обработку материалов ВПН-2010 на федеральном уровне.

Подготовка к проведению переписи

На этапе подготовки к проведению переписи на районном уровне при помощи подсистемы

переписного районирования, входящей в состав АС ВПН-2010, выполняется формирование

электронного списка респондентов. На основе списка респондентов в автоматическом режиме

выполняется расчет потребности во временных переписных работниках и формируется

организационный план переписи.

Сформированный орг.план из каждого района в электронном виде передается в ТОГС, где в

автоматическом режиме формируется общий орг.план по субъекту РФ.

Данные по всем субъектам в электронном виде передаются в ЦА Росстата для формирования

плана по всей РФ.

В подсистеме переписного районирования на районном уровне реализована возможность

загрузки списка адресов из электронных документов различного формата.

Все выходные таблицы формируются в формате, совместимым с ПО MS Excel и Open Office Calc.

Также на этапе подготовки к проведению переписи выполняются работы по формированию

списка временного переписного персонала и массовая печать договоров.

Мониторинг хода переписи и подготовки первичных материалов переписи к автоматизированной обработке

Подсистема мониторинга позволяет ЦА Росстата оперативно получать исчерпывающую

информацию о ходе переписи и о подготовке материалов к обработке. Сообщения мониторинга

районного уровня, содержащие сведения о текущем статусе, доставляются в региональные

центры. Из региональных центров с заданной периодичностью формируются и отправляются

сообщения, содержащие сводные данные мониторинга, на федеральный уровень.

Сведения о текущем статусе хода переписи и подготовки материалов к обработке включают

обширный спектр показателей, таких как:

источники привлечения временных переписных работников;

обеспеченность инструкторских, переписных участков помещениями;

сведения о ходе обучения переписного персонала;

данные о ходе переписи;

результаты выборочного контрольного обхода;

данные о ходе приемки материалов от переписчиков

и т.п.

Обработка первичных материалов переписи

На этапе обработки первичных материалов переписи используются несколько подсистем АС

ВПН-2010.

Обработка первичных материалов (машиночитаемых бланков) заключается в последовательном

сканировании, распознавании, кодировании и проведении формального и логического контроля

переписных бланков. Все эти этапы автоматизированной обработки реализуются при помощи

модулей в составе аппаратно-програмного комплекса «СВОД».

Ядром комплекса является оригинальная технология распознавания «FlyRead», которая

удовлетворяет требованиям надежности распознавания, быстродействия, простоте эксплуатации

и минимальной совокупной стоимости владения.

Технология «FlyRead» сочетает надежное распознавание рукописных символов естественного

начертания с высокой скоростью обработки на типовых вычислительных средствах. Особенности

программной реализации алгоритмов обработки совмещают все процессы на одном компьютере.

В результате требования к аппаратной части минимизируются, архитектура системы упрощается,

а затраты на эксплуатацию снижаются. Операции сканирования, распознавания, контроля и

верификации совмещаются на одном компьютере. В зависимости от особенностей применения,

архитектурное решение на одном компьютере модифицируется, и на основе единой технологии

выстраиваются различные схемы ввода и обработки.

В состав ПК «СВОД» входят следующие автоматизированные рабочие места (АРМ):

АРМ «Ввод», предназначенное для сканирования, распознавания, верификации,

контроля машиночитаемых документов (бланков переписи);

АРМ «Кодирование», предназначенное для автоматизированного ввода кодовых

значений показателей;

АРМ «Контроль», предназначенное для формального и логического контроля

введенных данных.

ПК «СВОД» может функционировать как на одном компьютере, так и на нескольких рабочих

местах. Это позволяет достигать высоких показателей производительности и масштабируемости

ввода.

На одной однопроцессорной рабочей станции процессы сканирования и распознавания могут

проводиться параллельно с верификацией.

Для эффективного распределения нагрузки на операторов и рабочие станции, для исключения

ситуаций простоя техники, в случае если один этап ввода и обработки бланков уже завершен или

требует меньших ресурсов, а другой этап требует увеличения ресурсов, в системе существует

возможность гибкой настройки АРМ.

При условии, что на рабочей станции установлены все необходимые программные компоненты,

на одной рабочей станции допустимо использование нескольких АРМ: АРМ «Ввод», АРМ

«Контроль», АРМ «Кодирование».

С помощью программного интерфейса администратор системы может изменять АРМ «Ввод» на

АРМ «Контроль» и АРМ «Кодирование» в зависимости от потребностей этапа

автоматизированной обработки данных.

Рисунок 2 .Состав технических средств РУ

АРМ «Ввод»

АРМ «Ввод» осуществляет автоматический ввод данных переписных бланков с использованием

промышленного высокопроизводительного сканера.

Сканирование изображений осуществляется на любом сканере, поддерживающем TWAIN-

интерфейс. Поддерживается работа со сканерами, подключенными через интерфейсы SCSI,

USB, а также на сканерах, подключенных через интерфейс RJ-45. Поддерживается сканирование

на высокоскоростных промышленных сканерах ДС-300 в сетевом варианте.

Программное обеспечение АРМ «Ввод» производит распознавание символов и меток в

электронных пачках, которое заключается в определении соответствия изображения кодам

символов и меток в графических образах бланков.

Рисунок 3. АРМ «Ввод»

На этапе распознавания производится определение типа бланка (на основе анализа автокода —

уникального идентификатора), корректируются геометрические искажения при сканировании (на

основе анализа реперных знаков).

Качество распознавания вводимых данных определяется достоверностью распознавания

комплекса массового ввода. Достоверность определяется путем распознавания символов (цифр)

и меточных полей на тестовой базе.

Достоверность распознавания цифр, измеренная на бланках, заполненных разными людьми в

ходе промышленной эксплуатации комплекса в различных проектах, включая ВПН-2002, ПСХП,

ВСХП-2006, ППН-2008, составляет 99,84%. Достоверность распознавания меточных полей

составляет 99,995%.

Скорость распознавания достигает не менее 150 двусторонних бланков в минуту, что заведомо

превышает возможности большинства моделей промышленных сканеров.

АРМ «Кодирование»

Модуль экранного кодирования предназначен для ввода кодовых значений показателей по

изображению рукописного написания обозначения показателя. Использование распознавания

рукописного написания обозначения показателя позволяет значительно снизить трудозатраты по

кодированию значений показателей.

Рисунок 4. АРМ «Кодирование» в группировочном режиме

Модуль экранного кодирования выполнен в виде отдельной программы со следующими

ключевыми возможностями:

автоматизированное кодирование групп полей электронной пачки;

предоставление кодировщику изображения поля и группы полей для последовательного

кодирования;

предоставление кодировщику информации о кодируемом поле или группы полей (тип

бланка, кодируемая группа);

предоставление гипотезы (возможного значения изображения поля бланка);

предоставление кодировщику словаря возможных значений с возможностью поиска для

обеспечения быстрого кодирования значения. При этом модуль экранного кодирования

поддерживает иерархические словари;

возможность ввода кода значения, наряду с использованием словаря.

АРМ «Контроль»

Модуль контроля обеспечивает выполнение следующих функций:

контроль комплектности;

формальный и логический контроль (ФЛК).

Рисунок 5. АРМ «Контроль»

Контроль комплектности заключается в проверке полноты состава электронной пачки и

правильности порядка следования бланков в ней.

Формальный контроль заключается в проверке допустимости значений данных в бланках,

наличия в бланках обязательных данных и их значений (в том числе автоматическая проверка

содержимого определенных полей на соответствие словарям).

Логический контроль заключается в проверке непротиворечивости данных семантически

связанных полей в одном бланке (внутрибланковый логический контроль) и нескольких бланках

(межбланковый логический контроль).

Формирование БД переписи

Автоматическая обработка первичных материалов переписи на региональном уровне

завершается выгрузкой сформированных электронных пачек на внешние носители — DVD-диски.

Электронные пачки, выгруженные на внешние носители, доставляются на федеральный уровень

фельдегерьской службой.

Рисунок 6. Выгрузка электронных пачек на внешний носитель

Рисунок 7. Загрузка пачек с внешних носителей

На федеральном уровне производится загрузка первичных данных электронных пачек с внешних

носителей в центральное хранилище, а также формирование БД переписи, включающее

следующие этапы:

проведение автокоррекции данных;

применение алгоритмов импутации данных;

построение многомерной БД по технологии OLAP.

Многомерная БД переписи содержит порядка 10 первичных показателей, 35 дополнительных

расчетных показателей, 2 территориальных разреза (административно-территориальный и

муниципальный), 120 тематических разрезов.

Рисунок 8. Состав технических средств ФУ

Получение итогов переписи

Процесс получения итогов ВПН-2010 проводится на федеральном и региональном уровнях.

Получение итогов заключается в создании исполнителем предопределенных в экономическом

описании (ЭО) итоговых таблиц. Предопределенные таблицы разделяются на две категории:

регламентные таблицы (300 штук), публикационные таблицы (150 штук). Требования к

оформлению публикационных таблиц определяются более строго, чем к регламентным, их

формирование осуществляется в форматах Adobe PDF и MS Excel.

Дополнительно к регламентным и публикационным таблицам персоналу заказчика

предоставляется возможность самостоятельного конструирования макетов таблиц и увязок в

формате, соответствующем ЭО, а также произвольных запросов по значениям статистических

показателей переписи.

Сервера

приложений на базе

Internet Information

Server (IIS)

Рабочие места

операторов

Локальная вычислительная сеть

Сервер базы

данных форм

(БДФ)

Сервер базы

данных

показателей

(БДП)

Сервер OLAP-

хранилища

Централизованное

хранилище

первичной

информации Хранилище баз

данных

Рисунок 9. Конструктор макетов итоговых таблиц

На основе сконструированных макетов таблиц осуществляется пакетная генерация итоговых

отчетов, содержащих данные переписи. Одновременно с генерацией отчетов осуществляется

выверка внутритабличных и межтабличных увязок.

На федеральном уровне, получение первых итогов позволяет инициировать выверку данных

ВПН-2010. Итоговые отчеты направляются для анализа специалистам ЦОДФУ, Центрального

аппарата Росстата и ТОГС. Процесс происходит в несколько итераций.

После того, как данные в базе выверены, полученные итоговые отчеты могут быть опубликованы.

Технология обработки обеспечивает получение итоговых отчетов ВПН-2010 для регионов путем

передачи и установки в региональном центре обработки фрагмента БД переписи, относящегося

только к этому региону. ТОГС имеет возможность получать и проверять итоги по

соответствующему муниципальному образованию, району и (или) субъекту Российской

Федерации.

Дополнительно, реализован функционал выгрузки БД переписи в формат ПО SuperStar —

комплекс продуктов, разработки австралийской компании Space Time Research, сочетающий

высокую скорость работы с данными и богатые возможности по построению сложных

пользовательских запросов без привлечения программистов.

Общая модульная схема АС ВПН-2010