Thông tin mà con người có được từ ngoại giới thì 80% là thông tin thị giác. Bởi vậy, con mắt là cơ quan quan trọng của con người. Vậy bạn có biết cấu trúc của con mắt không? Con mắt được tạo thành bởi nhãn cầu và phần phụ mắt (bao gồm mi mắt, hốc mắt, kết mạc, tuyến lệ và cơ mắt). Nhãn cầu là bộ phận chủ yếu của cơ quan thị giác. Võng mạc bên trong nhãn cầu có tác dụng cảm quang. Trên võng mạc có 15 triệu tế bào cảm quang. Tế bào này gồm hai loại: (1) Loại tế bào chủ yếu cảm thụ hình ảnh ban ngày. (2) Loại tế bào cảm thụ hình ảnh ban đêm.
Thị giác của con người là cảm giác được kích thích bằng ánh sáng. Trên thực tế con mắt là một hệ thống quang học. Thông tin ngoại giới là hình ảnh chiếu vào võng mạc, qua xử lí rồi truyền lên não. Nghĩa là con người nhìn thấy vật thể là do mắt và đại não thông qua nhận biết hình ảnh.
Nguyên lí việc người máy "nhìn" đồ vật cũng tựa như người vậy. Có điều hệ thống thị giác của người máy được tạo thành bởi camera và máy tính. Camera đóng vai trò "con mắt" trong hệ thống thị giác của người máy. Camera chụp lấy hình ảnh cảnh vật ngoại giới, theo phương thức quét từ trái qua phải, từ trên xuống dưới. Rồi đó chuyển đổi độ mạnh yếu của các điểm sáng của hình ảnh thành tín hiệu hình ảnh mô phỏng để truyền ra. Thế nhưng người máy muốn nhận biết được tín hiệu những hình ảnh đó thì cũng phải có sự tham gia của "đại não". "Đại não" này chính là máy tính ta vẫn nhắc tới. Máy tính tiến hành nhận biết đối với các hình ảnh mà camera đã chụp được.
Đương nhiên, trước khi nhận biết vật thể thì người ta đã phải lưu trữ vào máy tính các loại đồ vật sẽ phải nhận biết, từng chiếc một. Quá trình thao tác cụ thể là: Đưa từng vật thể cần nhận biết đến trước camera để nó quan sát đồ vật từ các giác độ khác nhau. Sau đó, hệ thống thị giác người máy sẽ có thể tự động rút ra đặc trưng hình dạng của chúng và lưu trữ lại. Lúc nhận biết, hệ thống thị giác của người máy chỉ cần rút ra đặc trưng của vật và tiến hành đối chiếu với hình dạng các loại vật thể lưu trữ trong máy tính. Như vậy sẽ có thể nhận biết được đối tượng là vật thể nào. Lúc này, người máy đã "nhìn thấy" vật thể nào đó rồi đấy.