Chất lượng truyền dẫn video MPEG trong mạng IP



Trong những năm gần đây xuất hiện nhiều ứng dụng truyền video thời gian thực qua mạng IP, có thể kể đến như: video phone, video-conferencing, tele-medical hay video theo yêu cầu (VoD),v.v.. khi đó chất lượng video là vấn đề rất quan trọng. Trong quá trình truyền tải video từ nguồn đến đích có rất nhiều yếu tố ảnh hưởng làm suy giảm chất lượng video: mã hóa/giải mã và các tham số mạng như: tỷ lệ mất gói, trễ, jitter, băng thông,… Một trong những phương pháp đánh giá chất lượng video cho kết quả tốt nhất đó là phương pháp đánh giá chủ quan của con người (Mean Opinion Score - MOS). Tuy nhiên, phương pháp này tốn thời gian và tiền bạc, không phải lúc nào cũng thực hiện được. Các nghiên cứu gần đây tập trung xây dựng mô hình cho phép đánh giá chất lượng hình ảnh từ các tham số liên quan đến mạng truyền dẫn và các hệ thống mã hóa và giải mã. Có ba mô hình cơ bản: Tham chiếu toàn phần – Full reference; Không tham chiếu – Zero reference và Tham chiếu rut gọn – Reduced reference.


Tóm lược về tiêu chuẩn MPEG

Mã hóa và giải mã video là một trong những khâu quan trọng trong các ứng dụng đa phương tiện. Hiện tại có hai hệ thống tiêu chuẩn chính trong việc thiết lập các tiêu chuẩn nén video. Đó chính là ITU (International Telecommunications Union) và MPEG (Motion Picture Experts Group)[1]. Trong những năm qua cả hai hệ thống tiêu chuẩn này đều đưa ra các tiêu chuẩn cho việc mã hóa và giải mã video.

 

Chất lượng truyền dẫn video MPEG trong mạng IP 1.jpg

 

Hình 1: Quá trình phát triển của các tiêu chuẩn mã hóa

Được thiết lập từ năm 1998, MPEG (Motion Picture Experts Group) là một nhóm nghiên cứu thuộc ISO/IEC, có nhiệm vụ phát triển các tiêu chuẩn mã hóa cho hình ảnh và âm thanh kỹ thuật số. Cho đến nay, nhóm nghiên cứu này đã phát triển được một số các tiêu chuẩn cho việc nén âm thanh và hình ảnh. Mỗi tiêu chuẩn được áp dụng cho những ứng dụng cụ thể và tương ứng có tốc độ bit khác nhau.

 

  • MPEG-1: Được thiết kế tốc độ tối đa đến 1.5Mbps. Tiêu chuẩn nén cho âm thanh và hình ảnh động. Được dùng phổ biến cho các ứng dụng video CD-ROM và các ứng dụng video trên internet (các file có phần mở rộng *.mpg). Một phần mở rộng của tiêu chuẩn (level 3) áp dụng cho mã hóa và nén âm thanh, được biết đến với  tên MP3
  • MPEG-2: Được thiết kế cho các ứng dụng có tốc độ bit từ 1.5Mbps đến 15Mbps. Tiêu chuẩn MPEG-2 áp dụng cho Truyền hình kỹ thuật số (SDTV), HDTV, Video theo yêu cầu (VoD) và các ứng dụng DVD. MPEG-2 được thiết kế dựa trên MPEG-1, nhưng có những yêu cầu đặc biệt cho việc nén và truyền tải Truyền hình kỹ thuật số. Một trong những khác biệt so với MPEG-1 đó là việc nén hiệu quả cho video tích hợp.
  • MPEG-4: Được thiết kế cho các ứng dụng có tốc độ bit rất thấp cho đến các ứng dụng có tốc đọ bit rất cao. Ứng dụng của MPEG-4 là các ứng dụng đa phương tiện trên internet hay trên mạng không dây. Kỹ thuật nén trong MPEG-4 dựa trên việc nén theo đối tượng, các đối tượng trong các cảnh video được theo dõi riêng rẽ và được nén lại cùng nhau.
  • MPEG-7 (Multimedia Content Description Interface): tiêu chuẩn này hiện đang được phát triển. Tiêu chuẩn này cung cấp qui định khung cho các nội dung đa phương tiện bao gồm cả nội dung video và thông tin điều khiển (các thao tác, lọc hay cá nhân hóa,…)
  • MPEG-21 (Multimedia Framework): hiện tại tiêu chuẩn này đang được phát triển. MPEG-21 mô tả các thành phần cần thiết và mối quan hệ giữa chúng, để tạo nên cơ sở hạ tầng cho việc chuyền tải và sử dụng nội dung đa phương tiện.


MPEG-4 được thiết kế đặc biệt cho việc nén hình ảnh và âm thanh, tiêu chuẩn này cho phép cung cấp các dịch vụ và nội dung có chất lượng từ thấp cho đến chất lượng cao qua các môi trường truyền tải khác nhau như: băng rộng, không dây, chuyển mạch gói. MPEG-4 thực sự là một tập các tiêu chuẩn công nghệ nhằm đảm bảo chất lượng dịch vụ từ nhà cung cấp dịch vụ nội dung đến người dùng cuối. MPEG-4 bao gồm các thành phần sau:

  • MPEG-4 Systems
  • MPEG-4 Visual
  • MPEG-4 Audio
  • Delivery Multimedia Integration Framework (DMIF)

Trong MPEG-4, âm thanh và hình ảnh có thể được lưu trữ và truyền riêng biệt, thiết bị đầu cuối cần phải có khả năng kết hợp các thành phần riêng biệt này dữ liệu đa phương tiện thực sự để trình diễn. Thành phần MPEG-4 Systems mô tả mối liên hệ giữa hai thành phần âm thanh và hình ảnh, cho phép tổng hợp lại nội dung đa phương tiện tại đầu cuối.

Các yếu tố ảnh hưởng đến chất lượng video

Ảnh hưởng bởi hệ thống mã hóa/giải mã

Dữ liệu Video trong các ứng dụng đa phương tiện hiện nay thường được mã hóa và nén bằng MPEG2, MPEG4 Part 10/H.264, Microsoft WMV9/VC1 và một số chuẩn nén khác. Các bộ mã hóa video thường hỗ trợ một khoảng khá rộng tốc độ nén, điều này cho phép những lựa chọn khác nhau giữa chất lượng và băng thông. Phần lớn các phương pháp nén video đều dựa vào việc mã khác nhau giữa các frame (inter-frame). Điều này có nghĩa là, thay vì phải gửi đi tất cả các frame, thì chỉ gửi đi sự sai khác của một frame với frame trước đó. Phương pháp mã hóa này làm việc tốt với những video có những thay đổi hình ảnh ít, tuy nhiên sẽ là ảnh hưởng đáng kể đến chất lượng hình ảnh và băng thông nếu có sự thay đổi lớn giữa các frame hình ảnh. Đa số các chuẩn mã hóa vừa cho phép mã hóa với tốc độ bít cố định (chất lượng hình ảnh thay đổi) hay tốc bít thay đổi (chất lượng hình ảnh ít thay đổi).

Các phương pháp mã hóa video nói chung thường kết hợp cả kiểu mã hóa intra-frame và inter-frame. Trong kiểu mã hóa intra-frame, một frame ảnh được chia thành các khối, mỗi khối này được biến đổi thành tập các hệ số thông qua biến đổi Cosin rời rạc. Một nhóm các khối được kết hợp lại thành một thực thể duy nhất (slice), và đôi khi được đóng gói vào một gói. Nếu có lỗi trên đường truyền xảy ra thì có thể cả một nhóm các khối sẽ bị mất, tạo nên “sọc” trong các ảnh dải mã. Điều này xảy ra bởi vì các hệ số của biển đổi Cosin rời rạc trong mỗi khối được tính toán dựa trên khối đầu tiên trong slice, nếu lỗi làm mất thông tin của khối đầu tiên thì tất cả các khối còn lại trong slice là không xác định. Một vài lỗi có thể làm hỏng cấu trúc của frame, do đó không có khả năng tái tạo lại frame. Với kiểu mã hóa inter-frame (motion based coding), các vector chuyển động được xác định và mã hóa cho mỗi khối. Trong các hệ thống mã hóa kiểu inter-frame, việc mất một frame có thể làm cho các frame theo sau nó trở nên không sử dụng được cho đến khi I-frame tiếp theo được nhận, kết quả là có thể thu được hình ảnh video trắng hay hình ảnh bị đông cứng, chất lượng video bị suy giảm đáng kể. Trong hầu hết các trường hợp các tiêu chuẩn mã hóa video đều cung cấp khả năng linh động ở cả bộ mã hóa và giải mã cho việc cân bằng giữa chất lượng và tốc độ. Việc hiểu biết rõ ràng về ảnh hưởng của các bộ mã hóa và giải mã video là yếu tố  quan trọng góp phần vào việc đánh giá chính xác các ảnh hưởng của mạng đến chất lượng truyền video trên mạng.

Giới hạn về băng thông:

Sự giới hạn về băng thông thường xảy ra tại lớp truy nhập (thường là các kết nối DSL hay Cable). Nếu băng thông dành sẵn không đủ để truyền một stream video thì sẽ xảy ra mất gói tại các bộ đệm của bộ định tuyến, dẫn đến việc suy giảm chất lượng video. Một vấn đề khá tinh tế cũng xảy ra khi mã hóa video với tốc độ bít thay đổi. Trong trường hợp này, sự thay đổi hình ảnh hay sự thay đổi các frame là đáng kể sẽ làm tăng yêu cầu về băng thông trong một khoảng thời gian ngắn, điều này có thể gây lên hiện tượng mất gói và do đó làm suy giảm chất lượng hình ảnh.


Mất gói tin:

Sự mất gói tin trên mạng có thể gây ra bởi nhiều nguyên nhân: sự nghẽn mạng, mất liên kết, không đủ băng thông hay lỗi trên đường truyền, v.v… Sự mất gói thường xảy ra bùng phát, mức độ tắc nghẽn mạng cao gây lên độ mất gói cao. Sự suy giảm chất lượng video gây ra bởi hiện tượng mất gói tùy thuộc vào giao thức được sử dụng để truyền tải video:

  1. Khi giao thức UDP được dùng để truyền tải dữ liệu video, khi xảy ra hiện tượng mất gói thì một vài phần của video stream có thể bị mất.
  2. Khi giao thức TCP được dùng để truyền tải dữ liệu video, khi một gói bị mất thì sẽ có yêu cầu truyền lại gói đã bị mất, điều này làm sự thiếu hụt bộ đệm tại set-top-box, gây lên hiện tượng dừng hình.

Khi truyền video bằng giao thức UDP, hiện tượng mất gói có thể làm hỏng một phần hay thậm chí hoàn toàn các frame.


Nghẽn tại máy chủ:

Không hẳn mọi yếu tố ảnh hưởng đến chất lượng video đều gây ra bởi mạng, nếu máy chủ cung cấp dịch vụ VoD phải phục vụ tối đa số người dùng theo khả năng của nó, điều này sẽ gây ra sự tắc nghẽn tại máy chủ cung cấp dịch vụ. Sự tắc nghẽn này gây ra hiện tượng dừng hình quá lâu tại phía đầu cuối. Để giảm tải cho máy chủ dịch vụ có thể dùng các giao thức phù hợp như UDP Multicast. Nhưng giao thức này chỉ phù hợp khi có một số lượng lớn người dùng xem cùng một nội dung tại cùng một thời điểm.


Jitter và Timing drift:

Jitter là khái niệm dung để mô tả sự khác nhau của khoảng thời gian đi từ nguồn đến đích của các gói tin. Jitter càng lớn khi xảy ra  nghẽn mạng hay tắc nghẽn tại máy chủ dịch vụ. Jitter có thể gây ra tràn bộ đệm tại set-top-box, gây lên hiện tượng dừng hình tại đầu cuối. Hiện tượng Timing drift xảy ra khi đồng hồ tại đầu gửi và đầu nhận có sự sai khác nhau về tốc độ, gây ra sự tràn vùng đệm tại đầu nhận. Để hạn chế sự ảnh hưởng của hiện tượng này, yêu cầu phía đầu nhận phải hiệu chỉnh lại tốc độ của đồng hồ cho phù hợp để tránh hiện tượng tràn bộ đệm.


Các mô hình và chỉ tiêu đánh giá

Như những phân tích ở phần trên, có nhiều yếu tố làm suy giảm chất lượng hình ảnh khi truyền tải qua mạng IP, bao gồm các ảnh hưởng của việc mã hóa/giải mã và các tác động của mạng truyền tải. Việc mô hình hóa các tác động này là một vấn đề khá phức tạp vì những ảnh hưởng này phụ thuộc nhiều vào kiểu mã hóa, các thuộc tính và cấu hình của hệ thống cụ thể. Hiện tại có khá nhiều thuật toán đánh giá chất lượng video, nhưng đều chưa thống nhất. Một cách tổng quát có thể phân loại thành ba mô hình giải thuật đánh giá chất lượng video chính:

  • Mô hình tham chiếu đầy đủ (Full-reference - FF): Mô hình FF cung cấp giải thuật cho phép so sánh trực tiếp video nguồn và video thu được tại đích.
  • Mô hình không tham chiếu (Non-reference/Zero-reference - ZF): Giải thuật mô hình này chỉ phân tích chất lượng video thu được tại đích.
  • Mô hình tham chiếu rút gọn (Reduced-Reference/Partial-reference - RR): Giải thuật mô hình này cho phép trích một vài tham số từ đầu vào đem so sánh với các tham số tương đương tại đầu ra.

Mô hình tham chiếu đầy đủ:

Những giải thuật trong mô hình tham chiếu đầy đủ thực hiện so sánh chi tiết giữa hình ảnh đầu vào và đầu ra của hệ thống. Việc so sánh này là một quá trình tính toán phức tạp không chỉ bao gồm quá trình xử lý theo điểm ảnh mà còn theo thời gian và không gian giữa dòng dữ liệu video đầu vào và đầu ra. Kết quả của các giải thuật tham chiếu đầy đủ khá phù hợp với các kết quả đánh giá chủ quan (MOS), tuy nhiên các giải thuật này chỉ được sử dụng trong một số ứng dụng nhất định, ví dụ như: các ứng  dụng trong phòng thí nghiệm hay các thử nghiệm trước khi triển khai.

Một trong những giải thuật ra đời sớm nhất của mô hình tham chiếu đầy đủ là PSNR (Peak Signal to Noise Ratio), theo đúng nghĩa của thuật ngữ sử dụng, giải thuật này đánh giá tỷ số giữa giá trị lớn nhất của tín hiệu trên tạp âm, giá trị này tính theo dB. Thông thường giá trị PSNR được coi là “tốt” ở vào khoảng 35dB và nhỏ hơn 20dB là không chấp nhận được. Hiện nay PSNR được dùng rộng rãi trong kỹ thuật đánh giá chất lượng hình ảnh và video.

Bên cạnh giải thuật PSNR hiện tại có khá nhiều các giải thuật cho mô hình tham chiếu đầy đủ đã được phát triển ví dụ như: MPQM (Moving Pictures Quality Metric -1996) của EPFL Thụy Sỹ, VQM (Video Quality Metric -1999) của Viện nghiên cứu Viễn thông Mỹ (NTIA ITS) và CVQE (Continuous Video Quality Evaluation -2004)[2]. Các giải thuật này phù hợp cho các ứng dụng video có tốc độ bit thấp. Trong ba giải thuật trên chỉ có giải thuật VQM được tiêu chuẩn và được tích hợp trong tiêu chuẩn ITU-T J.144 [3].

Cùng với ITU tổ chức VQEG (Video quality Experts Group -1997) cũng tham gia nghiên cứu, đánh giá chất lượng video. VQEG thiết lập hai giai đoạn thử nghiệm, giai đoạn I kiểm tra mười giải thuật tham chiếu đầy đủ (bao gồm cả PSNR) [4], kết quả cho thất các giải thuật là tương đương. Giai đoạn II của thử nghiệm sẽ tiến hành thử nghiệm với số lượng giải thuật ít hơn, nhằm đánh giá và đưa ra khuyến nghị sử dụng giải thuật nào sẽ cho kết quả tốt hơn.


Mô hình không tham chiếu:

Các giải thuật cho mô hình không tham chiếu nói chung phù hợp cho việc giám sát, phân tích trực tuyến chất lượng video tại đầu cuối (in-service). Kiểu thuật toán này có thể xem xét các yếu tố ảnh hưởng ít hơn thuật toán trong mô hình tham chiếu toàn phần, chính vì thế mà mô hình này có thể triển khai trong nhiều ngữ cảnh hơn. Thiết kế các giải thuật cho mô hình không tham chiếu là một công việc khó khăn, chính vì thể mà hiện tại chỉ có một vài phương pháp được đề xuất [5-8], một vài công ty đưa vào trong sản phẩm thương mại của họ[9-11] và được coi là bí mật công nghệ.

Hiện nay giải thuật và các tham số đánh giá trong mô hình không tham chiếu vẫn đang được tiêu chuẩn hóa. Một số tham số đánh giá [12] trong mô hình không tham chiếu đã được định nghĩa như sau:

  • VSTQ - Video Service Transmission Quality – Tham số không phụ thộc vào hệ thống mã hóa/giải mã, chỉ phụ thuộc vào mạng truyền tải video
  • VSPQ - Video Service Picture Quality – Tham số phụ thuộc hệ thống mã hóa/giải mã
  • VSAQ - Video Service Audio QualityTham số đánh giá chất lượng âm thanh
  • VSMQ - Video Service Multimedia Quality – Tham số tổng hợp đánh giá chất lượng âm thanh và hình ảnh kết hợp
  • VSCQ - Video Service Control Quality – Tham số đánh giá chất lượng điều khiển video (ví dụ như: thời gian đáp ứng)

Mô hình tham chiếu rút gọn:

Giải thuật trong hình tham chiếu rút gọn không sử dụng toàn bộ tín hiệu video tham chiếu, chỉ một phần thông tin tham chiếu được truyền đến bộ so sánh thông qua một kênh dữ liệu riêng. Băng thông dành cho kênh dữ liệu này tùy thuộc vào điều kiện ràng buộc của từng ứng dụng. Hiện tại có những giải thuật cho phép băng thông dùng cho thông tin tham chiếu chỉ yêu cầu nhỏ hơn 10Kbps [13]

 

Chất lượng truyền dẫn video MPEG trong mạng IP 2.jpg

 

Hình 2: Mô hình triển khai tham chiếu không đầy đủ; Thành phần tham chiếu được trích từ nguồn video gửi đến đích va được sử dụng để đánh giá chất lượng; Môi trường truyền video có thể xảy ra mất gói, nhưng kênh gửi thành phần tham chiếu được giả sử là không bị mất gói.


» Các bài viết khác trong kiến thức căn bản về Camera:
» Tìm hiểu về DVR (phần 1)
» Tìm hiểu về DVR (phần 2)
» Tìm hiểu về Mpeg-2 – Phần 1
» Hệ thống chống trộm, cháy
» Hướng dẫn cài đặt Camera:


Được tạo bởi longnh
Lần sửa cuối 10/03/09

Giới thiệu PLANETPhản hồi trực tuyến Mua hàng ở đâySơ đồ WebsiteEnglish  

Sử dụng bộ phần mềm TVIS 3.0
© Bản quyền của công ty máy tính NETCOM Co.,Ltd 2000-2016

Số lần truy cập:

Mọi kết nối tới Website này cũng như việc tái sử dụng lại nội dung phải được sự đồng ý của công ty NETCOM Co.,Ltd.
Mọi chi tiết xin liên hệ theo địa chỉ sau: Công ty máy tính NETCOM Co.,Ltd Số 46A/120 Đường Trường Chinh - Phương Mai - Đống Đa - Hà Nội.
Tel: (04)35737747 , Fax: (04)35737748 , Email: support@netcom.com.vn