17
XỬ LÝ ẢNH, XỬ LÝ ÂM THANH, KHUYNH HƯỚNG PHÁT TRIỂN VÀ MỘT SỐ KẾT QUẢ NGHIÊN CỨU TRIỂN KHAI Ở VIỆN CÔNG NGHỆ THÔNG TIN PGS.TS. Đỗ Năng Toàn Viện Công nghệ thông tin -Viện KH&CN Việt Nam Sự phát triển nhanh chóng của công nghệ thông tin đã đẩy nhanh và mở ra hướng phát triển cho nhiều ngành khác. Trong số đó phải kể đến lĩnh vực xử lý hình ảnh và xử lý âm thanh. Trong báo cáo này chúng tôi đề cập đến một số kết quả nghiên cứu và triển khai về xử lý ảnh và xử lý âm thanh ở Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Đây cũng là những kết quả nghiên cứu có khả năng ứng dụng trong thực tế nói chung, cũng như cho các hoạt động của đại biểu quốc hội nói riêng. 1. Giới thiệu Sự phát triển nhanh chóng của công nghệ thông tin đã có những ảnh hưởng tích cực đến đời sống xã hội của con người. Ngày nay, ở bất kỳ nơi đâu ta cũng thấy sự hiện diện của công nghệ thông tin. Sự phát triển trên cả hai lĩnh vực: Phần cứng và phần mềm đã ngày càng đưa công nghệ thông tin vào cả những lĩnh vực tưởng chừng như không thể sử dụng được máy móc. Trong số những lĩnh vực đó phải kể đến xử lý ảnh và xử lý âm thanh. Một trong những mục đích cao cả của công nghệ thông tin là tạo ra được máy có thể thay thế con người trong việc xử lý thông tin. Một cách tự nhiên máy tính cần thiết phải mô phỏng các quá trình thu nhận và xử lý thông tin của con người. Các thông tin mà con người thu nhận được thông qua 05 giác quan: Thị giác, thính giác, vị giác, khứu giác và cảm giác. Trên cơ sở đó các tiếp cận trong công nghệ thông tin được chia thành các hướng chủ yếu sau: Hướng liên quan đến thị giác: Ở đây thông tin vào là các tệp hình ảnh thu nhận thông qua các thiết bị điện tử như camera, scanner v.v.. Các bài toán thuộc kiểu này bao gồm: Tổng quát hoá bản đồ (gồm có các đường vẽ và văn bản bên trong bản đồ), nhận dạng văn 1

XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

XỬ LÝ ẢNH, XỬ LÝ ÂM THANH, KHUYNH HƯỚNG PHÁT TRIỂN VÀ MỘT SỐ KẾT QUẢ NGHIÊN CỨU TRIỂN KHAI

Ở VIỆN CÔNG NGHỆ THÔNG TIN

PGS.TS. Đỗ Năng ToànViện Công nghệ thông tin -Viện KH&CN Việt Nam

Sự phát triển nhanh chóng của công nghệ thông tin đã đẩy nhanh và mở ra hướng phát triển cho nhiều ngành khác. Trong số đó phải kể đến lĩnh vực xử lý hình ảnh và xử lý âm thanh. Trong báo cáo này chúng tôi đề cập đến một số kết quả nghiên cứu và triển khai về xử lý ảnh và xử lý âm thanh ở Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Đây cũng là những kết quả nghiên cứu có khả năng ứng dụng trong thực tế nói chung, cũng như cho các hoạt động của đại biểu quốc hội nói riêng.

1. Giới thiệuSự phát triển nhanh chóng của công nghệ thông tin đã có những ảnh hưởng tích

cực đến đời sống xã hội của con người. Ngày nay, ở bất kỳ nơi đâu ta cũng thấy sự hiện diện của công nghệ thông tin. Sự phát triển trên cả hai lĩnh vực: Phần cứng và phần mềm đã ngày càng đưa công nghệ thông tin vào cả những lĩnh vực tưởng chừng như không thể sử dụng được máy móc. Trong số những lĩnh vực đó phải kể đến xử lý ảnh và xử lý âm thanh.

Một trong những mục đích cao cả của công nghệ thông tin là tạo ra được máy có thể thay thế con người trong việc xử lý thông tin. Một cách tự nhiên máy tính cần thiết phải mô phỏng các quá trình thu nhận và xử lý thông tin của con người. Các thông tin mà con người thu nhận được thông qua 05 giác quan: Thị giác, thính giác, vị giác, khứu giác và cảm giác. Trên cơ sở đó các tiếp cận trong công nghệ thông tin được chia thành các hướng chủ yếu sau:

Hướng liên quan đến thị giác: Ở đây thông tin vào là các tệp hình ảnh thu nhận thông qua các thiết bị điện tử như camera, scanner v.v.. Các bài toán thuộc kiểu này bao gồm: Tổng quát hoá bản đồ (gồm có các đường vẽ và văn bản bên trong bản đồ), nhận dạng văn bản chữ viết in, chữ viết tay, chữ ký nhận dạng hoá đơn, nhận dạng phiếu điều tra v.v..

Hướng liên quan đến thính giác: Thông tin vào là tín hiệu âm thanh được thu nhận thông qua các thiết bị thu nhận âm thanh. Các bài toán thuộc hướng này liên quan đến việc: Tổng hợp và nhận dạng tiếng nói chẳng hạn, đọc các văn bản có sẵn trên máy tính hoặc trên mạng, nhận dạng tiếng nói chuyển tiếng nói thành các văn bản để lưu trữ trên máy tính v.v..

Hướng liên quan đến cảm giác (Sensor): Bộ biến cảm ở đây được ví như bộ phận cảm nhận của con người, nó tiếp nhận thông tin vào như: Cân nặng, nhiệt độ, độ ồn v.v.. Các thông tin này được số hoá và ghi vào tệp dữ liệu.

Báo cáo này đề cập đến một số kết quả nghiên cứu liên quan đến xử lý âm thanh và hình ảnh được thực hiện tại Viện công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Đây cũng là hướng nghiên cứu chính của chúng tôi trong những năm vừa qua.

1

Page 2: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Phần còn lại của báo cáo được sắp xếp như sau: Phần 2 trình bày nhưng kết quả liên quan đến xử lý và nhận dạng ảnh 2 chiều. Phần 3 là ảnh động. Tiếp theo, phần 4 là âm thanh. Phần 5 là xử lý ảnh 3 chiều và thực tại ảo. Cuối cùng là kết luận về hướng phát triển của lĩnh vực.

2. Xử lý và nhận dạng ảnh 2 chiềuTrong xử lý và nhận dạng ảnh 02 chiều chúng tôi tập trung vào hướng: Nhập dữ

liệu tự động. Nhập dữ liệu tự động là quá trình nhập dữ liệu thông quá các thiết bị kỹ thuật không có hoặc ít có sự can thiệp của con người. Mục đích của nhập liệu tự động là trợ giúp máy tính nhận biết nhanh nhất và chính xác nhất các thông tin vào, nó mô phỏng quá trình tiếp nhận thông tin của con người thông qua các giác quan. Đây là một trong những yếu tố quan trọng nhằm nâng cao tốc độ và hiệu quả của quá trình xử lý thông tin. Kỹ thuật nhập liệu tự động trong thời gian qua đã phát triển một cách mạnh mẽ và đã mang lại sự thay đổi lớn trong các tính toán khoa học kỹ thuật cũng như trong quản lý hành chính và điều khiển học v.v..

2.1 Phần mềm nhập liệu tự động bản đồ MapScan2.1 Phần mềm nhập liệu tự động bản đồ MapScanNghiên cứu kỹ thuật và thiết kế phần mềm bản đồ tự động với các yêu cầu: Tự

động hoá nhập bản đồ - chuyển đổi sang dạng véc tơ các đường biên trên bản đồ thu được dưới dạng đen trắng, đa cấp xám và màu.

Raster Edit

OCR

Vectorization

Vector Edit

Raster image withoutreference textLAND.PCX

Edited raster imageLAND.PCX

Scanned imageLAND.PCX

Reference textLAND.REF or LAND.DXF

Edited vector mapLAND.MAP or LAND.DXF

Vector mapLAND.MAP or LAND.DXF

Hình 1. Sơ đồ của phần mềm MapScanMap scanning quét những bản đồ giấy và lưu lại như ảnh raster. Tiền xử lý hay

raster image editing để cải tiến chất lượng như loại bỏ những đối tựơng không cần thiết, nối những đường bị gãy, quay ảnh và kết nối nhiều trang thành một ảnh bản đồ.

Text label extracting hay nhận dạng tài liệu chữ in (Optical Character Recognition: OCR) để định vị những dạng cho các miền, khu vực, thành phố, tỉnh lỵ; nhận ra văn bản tham chiếu và xác định những toạ độ không gian. Những văn bản

2

Page 3: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

được nhận dạng bị loại khỏi ảnh raster suốt trong quá trình véc tơ hoá, và tệp tham chiếu văn bản đựơc sinh ra để sử dụng trong bản vẽ đặc biệt và phần mềm GIS.

Véc tơ hoá (Vectorization) để chuyển (tại giai đoạn này của việc xử lý) ảnh raster chứa những điểm, đường và đa giác (không có văn bản tham chiếu) thành dạng véc tơ. Một tệp toạ độ bản đồ được sinh ra để sử dụng trong bản vẽ đặt biệt và trong phần mềm GIS.

Hậu xử lý hay soạn thảo bản đồ véc tơ (vector map editing) một bản đồ véc tơ được sinh ra bằng cách đóng các đa giác, loại bụi, nối các đoạn thẳng, quay bản đồ, kết nối nhiều trang thành một bản đồ véc tơ, chọn những đoạn thẳng và gán những thuộc tính mức đặc biệt. Những bản đồ véc tơ cũng có thể được địa tham chiếu thành hệ toạ độ thế giới thực. Một khi toàn bộ quá trình này hoàn thành, tệp văn bản tham chiếu và tệp ảnh véc tơ có thể sử dụng với một hệ vẽ.

MapScan phù hợp với phần lớn những dạng tệp đồ hoạ, bao gồm Paintbrush PCX, GEM Raster IMG, Tagged Image File Format TIF, CompuServe GIF, JPG và các dạng Windows BMP, và đưa ra AutoCAD DXF (một dạng chuẩn công nghiệp được chấp nhận rộng rãi, không hạn chế), Atlas GIS BNA, tệp ArcView Shape và các dạng PopMap MAP.

Yêu cầu hệ thống IBM PC/AT hay tương thích, bộ xử lý 80386/80486 hay cao hơn và 640KB RAM. Nên có bộ nhớ mở rộng thêm ít nhất 8MB. Một đĩa mềm và một đĩa cứng tối thiểu có 4MB chỗ trống. Màn hình màu VGA. Windows 3.1, Windows for Workgroup 3.11, Windows 95, or Windows NT.

Chuột tương thích Microsoft. Máy quét và Twain driver (optional).

Hình 2. Giao diện của chương trình MapScan

2.2. Phần mềm nhận dạng VnDOCR2.2. Phần mềm nhận dạng VnDOCRChức năng xử lý

Tự động xác định độ nghiêng của văn bản, quay ảnh 1800, +900, hoặc góc bất kỳ. Xoá nhiễu, làm dày, làm mảnh đường nét, đảo độ sáng ảnh văn bản,...

3

Page 4: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Xử lý được những tài liệu có lẫn ảnh, hình vẽ. Tự động phân vùng, đánh dấu vùng ngăn cách giữa các khối văn bản và các khối hình ảnh.

Nhận dạng

Nhận dạng các dạng font chữ kiểu không chân và có chân Arial, Avant, Times, Courier,... với kích thước của các ký tự từ 8 đến 72 điểm và các thuộc tính như bình thường, đậm, nghiêng, hay kết hợp đậm-nghiêng (đối với văn bản in sạch rõ, không đứt nét, không dính, font chữ chuẩn).

Tốc độ nhận dạng 15 - 17 giây cho một trang A4 trên máy PENTIUM 200MHz, 32 MB RAM.

Thực hiện song song quá trình quét và nhận dạng. Quá trình thực hiện sẽ giống như quá trình hoạt động của một máy photocopy. Nhờ quá trình này thời gian thực hiện nhận dạng sẽ giảm.

Nhận dạng các bảng biểu, mẫu biểu

Hình 3. Giao diện của hệ VnDOCR Học thêm các kiểu chữ mới

Tách các ký tự trên các font chữ mới để người dùng dạy bổ sung thêm cho chương trình, thông qua cơ chế hội thoại.

Kiểm tra kết quả nhận dạng

Đọc và soát chính tả kết quả nhận dạng theo từ đơn hoặc kép và đưa ra các gợi ý thay thế hoặc cho phép sửa bằng tay.

Cho phép bổ sung các từ, hoặc các cụm từ mới vào từ điển soát chính tả của người sử dụng.

Giao diện ứng dụng

Chương trình có giao diện thân thiện và dễ sử dụng đối với người dùng. Hệ thống giao diện hiển thị bằng tiếngViệt hoặc tiếng Anh.

4

Page 5: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Tính năng trang làm việc hiện thời (workspace) cho phép lưu giữ trạng thái hiện thời của công việc (ảnh văn bản quét vào, văn bản đã nhận dạng và chỉnh sửa) để tiếp tục công việc, điều này đặc biệt cần thiết khi xử lý nhiều tài liệu nhiều trang.

Hỗ trợ (Help) với tính năng multimedia

Với các chức năng ở trên hệ thống nhận dạng vnDOCR đã được các giải thưởng sau:

Giải nhất thi sản phẩm CNTT 1998

Giải thưởng khoa học kỹ thuật thanh niên 1999

Giải nhất - giải thưởng sáng tạo KHCN Việt Nam 1999

Giải nhất - sản phẩm phần mềm hứa hẹn nhất 2000

Huy chương vàng - sản phẩm phần mềm đạt doanh số cao 2000

05 năm liền được bình chọn là sản phẩm CNTT ưa chuộng nhất 1999-2003

2.3. Phần mềm nhận dạng dấu quang học2.3. Phần mềm nhận dạng dấu quang họcChúng tôi đã thiết kế và cài đặt thử nghiệm phần mềm nhận dạng phiếu điều tra

dạng dấu tự động MarkRead bằng ngôn ngữ Visual C++. Trong hệ thống của chúng tôi có cài đặt phần thu nhận ảnh từ scanner sử dụng TWAIN (thư viện điều khiển scanner). Phần đọc ảnh sử dựng thư viện ImageGear để đọc 50 loại ảnh khác nhau. Trong hệ thống MarkRead chúng tôi đã cài đặt các kỹ thuật co, dãn ảnh, làm trơn biên. Chúng tôi cũng cài đặt phần hiệu chỉnh góc lệch và lề của trang tài liệu theo trang mẫu. Quá trình nhận dạng được tiến hành theo lô.

Hệ thống nhập phiếu điều tra theo cách đánh dấu MarkRead có thể đọc được khoảng 50 kiểu ảnh khác nhau bao gồm Paintbrush PCX, GEM Raster IMG, Tagged Image File Format TIF, CompuServe GIF, JPG và các dạng Windows BMP, và đưa ra kết quả phiếu điều tra dạng DBF, MBD, XLS ...

Các chức năng chính của MarkRead:Quét ảnh: Quét ảnh phiếu điều tra và cất dưới dạng ảnh raster với các qui cách

trên.

Tiền xử lý hay là hiệu chỉnh ảnh raster: Hiệu chỉnh ảnh raster nhằm tăng chất lượng hình ảnh: Nối các đường đứt nét, quay ảnh, xoá nhiễu, lấp lỗ hổng, co, dãn, vuốt trơn đường v.v...

Lựa chọn vùng cho tệp mẫu: Quá trình lựa chọn các vùng được thực hiện tự động hoặc bằng tương tác người máy.

Tách các ô chữ nhật trong vùng được lựa chọn: Vùng được lựa chọn có thể chứa nhiều ô hình chữ nhật do đó chúng ta cần tách vùng này thành các vùng con (các ô hình chữ nhật được). Toạ độ của các hình chữ nhật được lưu vào tệp có phần mởi rộng (.FRM ).

Trích chọn dấu hiệu: Biến đổi vùng được lựa chọn thành véc tơ đặc trưng.

Giai đoạn học: Ghi lại các đặc trưng của vùng được lựa chọn.

5

Page 6: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Nhận dạng: Từ tệp .FRM lấy ra các vị trí và đặc trưng của vùng sau đó quy chiếu đến phiếu cần nhận dạng để nhận dạng.

Sửa đổi tệp SURVEY.FRM : Sửa lại cấu trúc trường, giá trí vị trí của các vùng đánh dấu

Sửa đổi tệp SURVEY.RES: Sửa lại nội dung của tệp kết quả

MarkRead có thể tự điều chỉnh góc nghiêng của một hay nhiều trang văn bản (góc nghiêng <15) bằng phương pháp biến đổi Hough ([2]). Việc chỉnh lề của phiếu cần điều tra so với phiếu mẫu có thể thực hiện bằng tay hoặc tự động đối với trang hiện hành hay nhiều trang theo phương pháp thứ hai. Chúng tôi đã thử đối với một phiếu mẫu A4 với độ phân giải 300 DPI, khi đã quay đi một góc nhỏ hơn 15, sau khi chỉnh góc nghiêng và chỉnh lề tự động thì vị trí chiều ngang và dọc của phiếu đã điều chỉnh lệch với phiếu mẫu theo chiều ngang, dọc là 8 điểm. Có sử dụng kết quả này cho việc định vị chính xác vị trí của dấu trong phiếu điều tra, vị trí cần nhận dao động trong khoảng 8 điểm.

Hình 4. Giao diện của hệ MarkRead

Các giải thưởng đã đạt:Các giải thưởng đã đạt:

Giải nhất thi sản phẩm CNTT 2001

Giải thưởng khoa học kỹ thuật thanh niên 2002

3. Xử lý ảnh độngMột cách tự nhiên, bước tiếp theo trong nghiên cứu về xử lý ảnh 2 chiều là xử lý

ảnh động. Đối với ảnh động, để giảm thiểu không gian lưu trữ, chúng tôi đã nghiên cứu kết hợp các kỹ thuật trích chọn cảnh của video, kỹ thuật trích chọn ảnh đặc trưng trong trong một dãy ảnh nhằm rút ra dãy ảnh đặc trưng của video. Từ những ảnh đặc trưng này, chúng tôi sử dụng kỹ thuật cộng ảnh và sử dụng kết hợp kỹ thuật cộng ảnh với các kỹ thuật khác như biến đổi và nắn chỉnh để tạo ra các ảnh trung gian giữa hai ảnh đặc trưng. Bằng cách này, chúng tôi có thể tái tạo lại đoạn video từ các ảnh đặc trưng (Hình 5).

6

Page 7: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Hình 5. Trích rút và tái tạo video

Chúng tôi đã sử dụng các kết quả nghiên cứu về biểu diễn và mô tả hình dạng trong xử lý ảnh 2 chiều để phát hiện đối tượng chuyển động trong video. Kết quả này, có thể ứng dụng trong các hệ thống giám sát tự động với sự trợ giúp của camera.

Hình 6. Hình ảnh về một hệ thống giám sát tự động với sự trợ giúp của camera

7

Page 8: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Hình 7. Hệ thống phát hiện và nhận dạng mặt người

4. Xử lý âm thanhTrong hướng xử lý âm thành, chúng tôi quan tâm đến vấn đề tổng hợp tiếng Việt,

nhận dạng tiếng Việt và xử lý âm thanh trong môi trường. Một trong những sản phẩm đã được thương mại hóa của chúng tôi là VnVoice 1.0

VnVoice là tiện ích tích hợp tiếng nói trong các chương trình ứng dụng. Nó hỗ trợ rất tốt khả năng đọc các tệp văn bản từ Microsoft Word 9x, 2000, đọc tin trên các trang Web (bằng cả hai thứ tiếng Việt, Anh với các font chữ ABC, VNI, UNICODE). Là công cụ hữu hiệu tích hợp với các CSDL nhằm thực hiện hay đưa ra các thông báo tự động tới mọi người.

Hình 8. Xử lý âm thanh trong các hệ thống

8

Page 9: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Một hướng tiếp cận khác trong nghiên cứu của chúng tôi là xây dựng hệ thống âm thanh giả 3D. Như ta đã biết, hình ảnh và âm thanh là 2 yếu tố thường đi đôi với nhau để cho ta thấy được tính sinh động của cuộc sống.

Một phương pháp kết hợp giữa âm thanh và hình ảnh đã được sử dụng khá lâu trong lĩnh vực điện ảnh đó là kỹ thuật lồng tiếng. Do có một thời gian phát triển khá lâu, có nhiều kết quả nghiên cứu, phương tiện hỗ trợ nên kỹ thuật này cho chất lượng rất tốt. Tuy vậy kỹ thuật này không thể sử dụng cho các ứng dụng có tính linh hoạt cao như ứng dụng thực tại ảo. Một phương pháp cũng được sử dụng tương đối nhiều trong các game (thế hệ cũ) đó là kỹ thuật ghép âm thanh với từng sự kiện ví dụ với sự kiện nhả đạn của một nhân vật sẽ phát ra một âm thanh tương ứng. Kỹ thuật này đã phần nào làm cho việc sử dụng âm thanh trở lên linh động. Tuy vậy cả hai kỹ thuật trên đều có một nhược điểm là giữa âm thanh và hình ảnh không có sự liên hệ hữu cơ với nhau và cả hai đều không thể hiện được tính ba chiều của âm thanh.

5. Xử lý ảnh 3 chiều và thực tại ảoSự phát triển của phần cứng máy tính đã mở ra triển vọng phát triển ở mức cao

hơn cho lĩnh vực nhận dạng và xử lý ảnh. Đó là, xử lý ảnh động và xử lý ảnh 3 chiều, đặc biệt là lĩnh vực thực tại ảo. Một lĩnh vực có nhiều hứa hẹn trong tương lai. Hiểu được khuynh hướng đó, từ năm 2004 chúng tôi đã dần chuyển hướng nghiên cứu sang các lĩnh vực này.

Đối với ảnh 3 chiều và thực tại ảo, chúng tôi đã nghiên cứu các kỹ thuật tạo mô hình từ máy quét 3D, từ hình ảnh 2D hoặc từ các số đo, và kết hợp giữa chúng. Phòng thí nghiệm mạng và đa phương tiện là một trong 6 phòng thí nghiệm trọng điểm quốc gia đầu tiên. Phòng có một lượng lớn thiết bị thực tại ảo, việc sử dụng và liên kết các thiết bị này làm chúng tôi tốn khá nhiều thời gian nhưng đã cho chúng tôi một dịp tốt để nghiên cứu lĩnh vực mới mẻ này. Chúng tôi chú trọng đến các vấn đề lập trình điều khiển, hiển thị stereo, va chạm, âm thanh v.v.. và tích hợp giữa chúng trong thư viện của chúng tôi. Với thư viện này và các kiến thức về tạo lập mô hình 3D chúng tôi định hướng nghiên cứu các ứng dụng thực tế của thực tại ảo.

VRAnimal – Phần mềm về các động vật quý hiếm và đặc biệt của Việt Nam đã và đang phát triển theo hướng tiếp cận này.

Hình 9. Môi sinh trong phần mềm VRAnimal

9

Page 10: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Chúng tôi đã sử dụng công nghệ thực tại ảo để tái tạo các công trình kiến trúc cổ trong thế giới ảo của máy tính như: “Văn Miếu” và “Đại Nội” v.v..

Hình 10. Một cảnh trong "Dai Noi" ảo

Nghiên cứu tái tạo khuôn mặt người từ hình thái xương sọ trên cơ sở tương quan giữa phần cứng và phần mềm.

Hình 11. Tái dựng khuôn mặt người từ sọ

Xây dựng cơ thể con người ảo phục vụ công tác giảng dạy và tra cứu trong y tế.

Hình 12. Cơ thể người ảo với công nghệ thực tại ảo

10

Page 11: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Kết luậnNgày nay trong thời đại bùng nổ thông tin luôn được cập nhập từng ngày, từng

giờ... Nếu như bạn được trang bị đầy đủ các thiết bị xử lý thông tin cần thiết (máy tính, modem, account hoà mạng...) thì bạn có thể thấy rõ điều này trên các trang Web của các tờ báo điện tử như Nhân Dân, Lao Động... hay các nhà cung cấp thông tin khác. Với một lượng lớn thông tin được thu thập tin từ nhiều nguồn khác nhau như từ các tạp chí, báo ra hàng ngày v.v.. Bạn cảm thấy rất ngại khi phải gõ lại các thông tin này vào và thầm mong có một phần mềm nào đó có thể trợ giúp được cho mình. Đó chính là nguồn gốc sinh ra nhu cầu nhập dữ liệu tự động.

Hơn nữa, sự phát triển như vũ bão của các thiết bị phần cứng, với các tính năng ngày càng mạnh, giá ngày càng rẻ đã thúc đẩy sự phát triển của lĩnh vực nhập liệu tự động. Trên tinh thần đó chúng tôi đã tập trung nghiên cứu và bước đầu đã cho ra một số sản phẩm thuộc lĩnh vực này như đã kể trên. VnDOCR ra đời và việc ứng dụng VnDOCR đã giúp ích được rất nhiều trong ứng dụng văn phòng của các cơ quan. Theo như ý kiến của anh Martin Nguyễn, một cá nhân mua và sử dụng VnDOCR: Việc tái bản các loại sách của Việt nam (Sách đã đăng kí bản quyền) tại Mỹ đã tiến triển rất nhanh nhờ VnDOCR (VnDOCR nhận dạng gần như 99,9% đối với các loại sách này).

Chương trình nhập bản đồ tự động MapScan đã được tài trợ và phát triển trong khuôn khổ của dự án UNFPA-INT 96/P74, “Phần mềm máy tính và trợ giúp cho hoạt động dân số”. Phần mềm này đã và đang được dùng cùng với phần mềm POPMAP (một phần mềm khác cũng của chúng tôi) ở các nước đang phát triển.

Hệ thống Thực tại ảo là sự kết hợp chặt chẽ giữa đồ họa ba chiều, âm thanh, trạng thái tâm lý và một số thiết bị ngoại vi để tạo nên thế giới thực. Mặc dù hệ thống thực tại ảo đòi hỏi chi phí lớn và công nghệ cao nhưng do kết quả đem lại rất khả quan nên ngày càng nhiều lĩnh vực áp dụng công nghệ này. Hiện tại những lĩnh vực như giáo dục, y tế, giải trí, quân sự, thiết kế xây dựng v.v.. đã áp dụng công nghệ này. Việc nghiên cứu và áp dụng công nghệ thực tại ảo vào bảo tàng các di sản là vấn đề có ý nghĩa khoa học và thực tiễn.

11

Page 12: XỬ LÝ ẢNH, XỬ LÝ ÂM THANH,ttbd.gov.vn/Modules/NCS.Module.ReferenceDocument/Upload... · Web viewKỹ thuật nhập liệu tự động trong thời gian qua đã phát triển

Tài liệu tham khảo

[1] Able Software Home Page, R2V, http://world.std.com/~able/[2] Paker J.R., Algorithms for Image Processing and Computer Vision, Chapter:

Optical Character Recognition, Wiley Computer Publishing, Jhon & Son Inc., pp 275-304, New York, 1997.

[3] ScanSoft, Inc., http://www.caere.com/[4] Bach Hung Khang, Vu Duy Man, Ngo Quoc Tao, Luong Chi Mai, Do Nang Toan

(2002), “Applying some techniques Of image processing for Automatic map data entry”, International Symposium on GeoInformatics for Spatial-Infrastructure Development in Earth and Alliced Scienes, Hanoi, Vietnam, 25-28 Sep 2002, 245-251.

[5] Mapscan, http://www.un.org/Depts/unsd/softproj/software/mapscan.htm http://www.ons.dz/unfpa/software/mapscan.htm http://www.lynxinfo.co.uk/mapscan.htm, http://www.aig.asn.au/utilities.htm http://sauvy.ined.fr/seminaires/demodynamiques/98-99/gerland-text/jhupaper.html [6] Tsuyosi Ohuchi & Wasaku Yamada, A Hierarchical Method for Block

Segmentation and Classication of General Document Images, System and computer in Japan, vol 24, No2, 1993.

[7] VnDOCR, http://www.vnn.vn/i-today/product/ocr[8] Ngô Quốc Tạo, Đỗ Năng Toàn, “Applying Some Techniques of Image Processing

for MarkRead- a software Automatic Mark Data Entry”, International Conference on High Performance Science Computing, Hanoi, March 27-31, 2000

[9] Ngo Quoc Tao, Do Nang Toan (2002), “Some Charactistical Aspects Of Markread-A Software Package For Automatic Mark Data Entry”, APCCAS2002, IEEE Catalog, Denpasar, Bali-Indonesia, October 28-31 2002, Singapore, Vol 2, 437-442.

[10]Voice Tech Automatic Data Entry Service, http://www.voicetech.net/serv01.htm[11]Đỗ Năng Toàn, Lê Thị Kim Nga (2007), “Một cách tiếp cận trong phát hiện đối

tượng đột nhập”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc của CNTT”, Đà Lạt 15-17/06/2006. Nxb KH&KT, 175-181.

[12]Đỗ Năng Toàn (2006), “Tái tạo đối tượng ba chiều từ hình ảnh hai chiều”, Tạp chí Tin học và Điều khiển học, Tập 22, Số 4, 339-348.

12