Các chương trong cuốn sách trình bày những lĩnh vực
quan trọng nhất của thị giác máy tính và các chương trình mẫu để thực hiện nhận
dạng đối tượng, truy xuất hình ảnh dựa trên nội dung, tìm kiếm hình ảnh, nhận
dạng ký tự, dòng quang học (optical flow), theo vết (tracking), tái tạo hình ảnh
ba chiều, định vị camera, phân đoạn hình ảnh, khử nhiễu, phân nhóm hình ảnh và
nhiều hơn nữa. Ở phần cuối quyển sách này, một số ứng dụng cụ thể của thị giác
máy tính trong ước lượng vị trí cũng nhưxây dựng mô hình ba chiều trên tập dữ
liệu lớn cũng được giới thiệu.
Sơ lược về các chương
Chương 1 giới thiệu các công cụ cơ bản để làm việc
với hình ảnh và các mô hình Python được sử dụng trong sách. Chương này cũng bao
gồm nhiều ví dụ cơ bản cần thiết cho các chương còn lại.
Chương 2 giải thích các phương pháp phát hiện các
điểm đặc trưng bất biến và cách sử dụng chúng để tìm các điểm và vùng tương đồng
giữa các hình ảnh.
Chương 3 trình bày các phép biến đổi cơ bản giữa
hình ảnh và các phương pháp để tính toán. Một số ví dụ cụ thể từ đơn giản như
nắn ảnh cho đến phức tạp hơn như tạo hình ảnh panorama.
Chương 4 giới thiệu cách viết phương trình mô hình
máy ảnh, các phép chiếu từ không gian 3D đến điểm đặc trưng trong ảnh và ước
lượng góc nhìn của máy ảnh.
Chương 5 giải thích cách làm việc với một số hình
ảnh chụp cùng một cảnh quan, các nguyên tắc cơ bản của hình học đa góc nhìn và
tính toán tái tạo mô hình ba chiều (3D) từ nhiều hình ảnh khác nhau.
Chương 6 giới thiệu một số phương pháp phân cụm và
chỉ ra cách sử dụng chúng để nhóm và sắp xếp hình ảnh dựa trên sự tương đồng
hoặc nội dung ảnh.
Chương 7 trình bày kỹ thuật truy xuất hình ảnh hiệu
quả, có thể lưu trữ các biểu diễn ảnh và tìm kiếm hình ảnh dựa trên nội dung của
chúng.
Chương 8 mô tả các thuật toán để phân loại nội dung
hình ảnh và cách sử dụng chúng để nhận dạng các đối tượng trong hình ảnh.
Chương 9 giới thiệu các kỹ thuật khác nhau để phân
chia một hình ảnh thành các vùng có ý nghĩa bằng cách sử dụng phân cụm, tương
tác, hoặc mô hình ảnh.
Chương 10 trình bày cách sử dụng giao diện Python
cho thư viện thị giác máy tính OpenCV phổ biến và cách làm việc với dữ liệu đầu
vào là video.
Chương 11 trình bày ứng dụng của hình học đa góc
nhìn kết hợp phân tích ngữ nghĩa và tối ưu lồi để thực hiện xây dựng mô hình ba
chiều trong không gian rộng lớn.
Chương 12 giới thiệu phương pháp tính toán vị trí
của camera đa hướng trên tọa độ cầu.
Chương 13 trình bày ứng dụng định vị cho các thiết
bị di chuyển trên vùng làm việc rộng lớn ngoài trời kết hợp thị giác máy tính và
các loại cảm biến khác để hiệu chỉnh sai số vị trí cho ra kết quả định vị chính
xác nhất.
Trong phụ lục A và B, người dùng sẽ được hướng dẫn
cách cài đặt chương trình và các tập dữ liệu ảnh phổ biến trên thế giới để có
thể tải về và tự làm thực nghiệm.