Những tiến bộ lớn nhất gần đây của camera đến từ AI chứ không phải cảm biến và ống kính.
Theo Theverge, nếu bạn đang tự hỏi camera của thế hệ điện thoại tiếp theo sẽ hoạt động như thế nào thì hãy để ý đến những gì mà các nhà sản xuất nói về AI. Bỏ qua những ý tưởng quảng cáo cường điệu, công nghệ này đã tạo ra những tiến độ đáng kinh ngạc trong lĩnh vực nhiếp ảnh trong vài năm qua và cũng không có lí do gì để tiến trình này dừng lại.
Chắc chắn vẫn còn nhiều mánh lới quảng cáo được các nhà sản xuất tung ra. Nhưng những tiến bộ ấn tượng gần đây nhất trong nhiếp ảnh đã diễn ra ở cấp độ phần mềm và silicon chứ không phải cảm biến hay ống kính - và điều đó phần lớn nhờ vào AI giúp máy ảnh hiểu rõ hơn về những gì mà nó nhìn thấy.
Google Photos cung cấp một minh chứng rõ ràng về sự kết hợp giữa AI và nhiếp ảnh sẽ mạnh mẽ như thế nào khi ứng dụng ra mắt vào năm 2015. Trước đó, gã khổng lồ tìm kiếm đã sử dụng máy học để phân loại hình ảnh trong Google+ trong nhiều năm, nhưng việc ra mắt ứng dụng Photos của họ đã bao gồm các tính năng AI hướng tới người tiêu dùng mà trước đó ít ai tưởng tượng được. Các thư viện với hàng ngàn bức ảnh chưa chỉnh sửa và không được sắp xếp đã được chuyển đổi thành cơ sở dữ liệu có thể tìm kiếm một cách dễ dàng.
Nhiều người tỏ ra ngạc nhiên khi đột nhiên Google dường như biết được con mèo của họ trông như thế nào.
Google phát triển Photos dựa trên công nghệ của DNNresearch mà họ mua lại vào năm 2013 – cơ sở dữ liệu hình ảnh của họ được quản lí bằng cách thiết lập một mạng lưới thần kinh nhân tạo được đào tạo thông qua các dữ liệu được con người gắn nhãn (label). Điều này được gọi là học tập có giám sát; quá trình này bao gồm việc đào tạo mạng trên hàng triệu hình ảnh để có thể tìm kiếm manh mối trực quan ở cấp độ pixel nhằm giúp xác định danh mục.
Theo thời gian, thuật toán ngày càng tốt hơn trong việc nhận ra một con gấu trúc, bởi vì nó chứa các mẫu được sử dụng để xác định chính xác gấu trúc trong quá khứ. Nó học được màu lông đen kết hợp với lông trắng có xu hướng liên quan đến nhau và dấu hiệu này khác với đặc điểm của một con bò chẳng hạn. Với việc đào tạo thêm, người ta có thể tìm kiếm các thuật ngữ trừu tượng hơn, chẳng hạn như động vật, hay bữa sáng…
Phải mất rất nhiều thời gian và sức mạnh xử lý để đào tạo một thuật toán như thế này, nhưng sau khi các trung tâm dữ liệu đã hoàn thành công việc của mình, nó có thể chạy trên các thiết bị di động có công suất thấp mà không gặp nhiều rắc rối. Công việc nặng nhọc đã được thực hiện, vì vậy một khi ảnh của bạn được tải lên đám mây, Google có thể sử dụng mô hình của họ để phân tích và gắn nhãn cho toàn bộ thư viện. Khoảng một năm sau khi Google Photos được ra mắt, Apple đã công bố một tính năng tìm kiếm ảnh được đào tạo tương tự trên mạng thần kinh, nhưng vì là một phần trong cam kết bảo mật của công ty, việc phân loại thực tế được thực hiện trên từng bộ xử lý của thiết bị và dữ liệu khách hàng không gửi về máy chủ của công ty. Tác vụ này sẽ chạy nền trong thiết bị sau khi được thiết lập.
Phần mềm quản lý ảnh thông minh là một chuyện, nhưng AI và máy học được cho là có tác động lớn hơn đến cách chụp ảnh. Đúng, ống kính tiếp tục nhanh hơn một chút và các cảm biến luôn có thể lớn hơn một chút, nhưng chúng ta đã tiến gần đến những hạn chế về mặt vật lý khi nhồi nhét hệ thống quang học vào các thiết bị di động mỏng nhẹ. Tuy nhiên, ngày nay, không có gì lạ khi điện thoại chụp ảnh tốt hơn trong một số trường hợp so với nhiều thiết bị máy ảnh chuyên dụng, ít nhất là trước khi xử lý hậu kỳ. Đó là bởi vì các thiết bị này được trang bị một hệ thống phần cứng tuy khác biệt nhưng có tính năng gần giống với các máy ảnh truyền thống, bao gồm hệ thống trên chip chứa CPU, bộ xử lý tín hiệu hình ảnh và một bộ xử lý AI (NPU).
Đây là phần cứng được tận dụng trong những gì được gọi là nhiếp ảnh tính toán, một thuật ngữ bao quát mọi thứ từ hiệu ứng sâu ảnh nhân tạo trong điện thoại ở chế độ chân dung cho đến các thuật toán giúp tăng chất lượng hình ảnh đáng kinh ngạc của Google Pixel. Không phải tất cả các nhiếp ảnh tính toán đều liên quan đến AI, nhưng AI chắc chắn là một thành phần chính của nó.
Apple tận dụng công nghệ này để điều khiển camera kép trên iPhone. Bộ xử lý tín hiệu hình ảnh iPhone, sử dụng các kỹ thuật máy học để nhận dạng người bằng một camera, trong khi camera thứ hai tạo bản đồ độ sâu để giúp cách ly đối tượng và làm mờ hậu cảnh. Khả năng nhận diện mọi người thông qua máy học không phải là mới khi tính năng này ra mắt vào năm 2016, nhưng để quản lý nó trong thời gian thực với tốc độ cần thiết cho máy ảnh điện thoại thông minh là một bước đột phá.
Google vẫn là cái tên dẫn đầu không thể chối cãi trong lĩnh vực này, kết quả tuyệt vời mà những bức ảnh do smartphone Pixel tạo ra là một minh chứng rõ ràng nhất. HDR+, chế độ chụp mặc định, sử dụng thuật toán phức tạp, hợp nhất một số khung hình thiếu sáng thành một và máy học sẽ làm cho nó trở nên tốt hơn theo thời gian. Google đã đào tạo AI của mình trên một bộ dữ liệu khổng lồ về các bức ảnh được dán nhãn (giống như đã làm với phần mềm Google Photos). Đặc biệt, Pixel 2 đã tạo ra một mức chất lượng hình ảnh cơ bản ấn tượng đến mức một số phóng viên của Theverge đã sử dụng nó để thay thế cho máy ảnh truyền thống.
Lợi thế của Google càng rõ ràng hơn với sự ra mắt của Night Sight cách đây vài tháng. Tính năng mới này của Pixel kết hợp các phơi sáng dài lại với nhau và sử dụng thuật toán máy học để tính toán cân bằng trắng và màu sắc chính xác hơn. Tính năng này hoạt động tốt nhất trên Pixel 3, vì các thuật toán được thiết kế với chặt chẽ với phần cứng, nhưng Google đã cung cấp nó cho tất cả các điện thoại Pixel - ngay cả Pixel 1 vốn thiếu tính năng chống rung quang học. Tính năng này là một minh chứng tuyệt vời cho thấy phần mềm bây giờ quan trọng hơn phần cứng máy ảnh khi chụp ảnh di động.
Tuy nhiên, vẫn còn chỗ cho phần cứng để tạo ra sự khác biệt, đặc biệt là khi nó được hỗ trợ bởi AI. Điện thoại View 20 mới của Honor, cùng với Nova 4 từ công ty mẹ Huawei là những thiết bị đầu tiên sử dụng cảm biến hình ảnh Sony IMX586. Nó có một cảm biến lớn hơn so với hầu hết các đối thủ cạnh tranh và ở mức 48 megapixel, nó thể hiện độ phân giải cao nhất từng thấy trên bất kỳ điện thoại nào. Nhưng điều đó vẫn có nghĩa là nhồi nhét rất nhiều pixel nhỏ vào một không gian nhỏ, nó có xu hướng gây ra vấn đề về chất lượng hình ảnh. Tuy nhiên, trong các thử nghiệm View 20, chế độ Honor Ultra AI đã vượt trội trong việc tận dụng tối đa độ phân giải, giải mã bộ lọc màu sắc khác thường của bộ cảm biến để mở khóa thêm chi tiết. Điều này dẫn đến những bức ảnh khổng lồ mà bạn có thể phóng to ở mức chưa từng thấy trước đây.
Bộ xử lý tín hiệu hình ảnh rất quan trọng đối với hiệu suất camera của điện thoại trong một thời gian, nhưng có vẻ như NPU sẽ đảm nhận vai trò lớn hơn trong thời đại chụp ảnh dựa vào các thuật toán AI. Huawei là công ty đầu tiên công bố chip hệ thống với phần cứng AI chuyên dụng (Kirin 970) mặc dù Apple A11 Bionic cuối cùng đã đến tay người tiêu dùng trước.
Trong khi đó, Qualcomm, nhà cung cấp bộ xử lý Android lớn nhất trên toàn thế giới, đã khiến cho máy học trở thành một trọng tâm lớn. Dù vậy, Google đã phát triển chip riêng của mình có tên Pixel Visual Core để hỗ trợ các tác vụ hình ảnh liên quan đến AI. Chip Apple A12 Bionic mới nhất có một NPU 8 lõi có thể chạy các tác vụ trong Core ML nhanh hơn 9 lần so với A11 và nó liên kết trực tiếp với bộ xử lý hình ảnh. Apple cho biết điều này giúp máy ảnh hiểu rõ hơn về mặt phẳng tiêu cự, ví dụ, giúp tạo ra độ sâu trường ảnh thực tế hơn.
Loại phần cứng này sẽ ngày càng quan trọng đối với việc xử lí hình ảnh. Hãy nhớ rằng, loại thuật toán cung cấp sức mạnh cho Google Photos đã được đào tạo trên các máy tính lớn với GPU mạnh mẽ trước khi xử lí các thư viện ảnh cho bạn.
Google đã cho thấy một số công việc ấn tượng có thể làm giảm gánh nặng xử lý, trong khi các công cụ AI ngày càng nhanh hơn theo thời gian. Nhưng ngay cả ở giai đoạn đầu của AI, có những lợi ích thực sự được tìm thấy từ các máy ảnh điện thoại đã được thiết kế với công nghệ máy học. Trên thực tế, trong số tất cả các khả năng và ứng dụng được đưa ra bởi làn sóng AI trong vài năm qua, khu vực có ứng dụng thực tế nhất hiện nay là nhiếp ảnh. Máy ảnh là một tính năng thiết yếu của bất kỳ điện thoại nào và AI là công cụ tốt nhất của chúng ta cải thiện nó.
Theo Theverge, nếu bạn đang tự hỏi camera của thế hệ điện thoại tiếp theo sẽ hoạt động như thế nào thì hãy để ý đến những gì mà các nhà sản xuất nói về AI. Bỏ qua những ý tưởng quảng cáo cường điệu, công nghệ này đã tạo ra những tiến độ đáng kinh ngạc trong lĩnh vực nhiếp ảnh trong vài năm qua và cũng không có lí do gì để tiến trình này dừng lại.
Chắc chắn vẫn còn nhiều mánh lới quảng cáo được các nhà sản xuất tung ra. Nhưng những tiến bộ ấn tượng gần đây nhất trong nhiếp ảnh đã diễn ra ở cấp độ phần mềm và silicon chứ không phải cảm biến hay ống kính - và điều đó phần lớn nhờ vào AI giúp máy ảnh hiểu rõ hơn về những gì mà nó nhìn thấy.
Google Photos cung cấp một minh chứng rõ ràng về sự kết hợp giữa AI và nhiếp ảnh sẽ mạnh mẽ như thế nào khi ứng dụng ra mắt vào năm 2015. Trước đó, gã khổng lồ tìm kiếm đã sử dụng máy học để phân loại hình ảnh trong Google+ trong nhiều năm, nhưng việc ra mắt ứng dụng Photos của họ đã bao gồm các tính năng AI hướng tới người tiêu dùng mà trước đó ít ai tưởng tượng được. Các thư viện với hàng ngàn bức ảnh chưa chỉnh sửa và không được sắp xếp đã được chuyển đổi thành cơ sở dữ liệu có thể tìm kiếm một cách dễ dàng.
Nhiều người tỏ ra ngạc nhiên khi đột nhiên Google dường như biết được con mèo của họ trông như thế nào.
Google phát triển Photos dựa trên công nghệ của DNNresearch mà họ mua lại vào năm 2013 – cơ sở dữ liệu hình ảnh của họ được quản lí bằng cách thiết lập một mạng lưới thần kinh nhân tạo được đào tạo thông qua các dữ liệu được con người gắn nhãn (label). Điều này được gọi là học tập có giám sát; quá trình này bao gồm việc đào tạo mạng trên hàng triệu hình ảnh để có thể tìm kiếm manh mối trực quan ở cấp độ pixel nhằm giúp xác định danh mục.
Theo thời gian, thuật toán ngày càng tốt hơn trong việc nhận ra một con gấu trúc, bởi vì nó chứa các mẫu được sử dụng để xác định chính xác gấu trúc trong quá khứ. Nó học được màu lông đen kết hợp với lông trắng có xu hướng liên quan đến nhau và dấu hiệu này khác với đặc điểm của một con bò chẳng hạn. Với việc đào tạo thêm, người ta có thể tìm kiếm các thuật ngữ trừu tượng hơn, chẳng hạn như động vật, hay bữa sáng…
Phải mất rất nhiều thời gian và sức mạnh xử lý để đào tạo một thuật toán như thế này, nhưng sau khi các trung tâm dữ liệu đã hoàn thành công việc của mình, nó có thể chạy trên các thiết bị di động có công suất thấp mà không gặp nhiều rắc rối. Công việc nặng nhọc đã được thực hiện, vì vậy một khi ảnh của bạn được tải lên đám mây, Google có thể sử dụng mô hình của họ để phân tích và gắn nhãn cho toàn bộ thư viện. Khoảng một năm sau khi Google Photos được ra mắt, Apple đã công bố một tính năng tìm kiếm ảnh được đào tạo tương tự trên mạng thần kinh, nhưng vì là một phần trong cam kết bảo mật của công ty, việc phân loại thực tế được thực hiện trên từng bộ xử lý của thiết bị và dữ liệu khách hàng không gửi về máy chủ của công ty. Tác vụ này sẽ chạy nền trong thiết bị sau khi được thiết lập.
Phần mềm quản lý ảnh thông minh là một chuyện, nhưng AI và máy học được cho là có tác động lớn hơn đến cách chụp ảnh. Đúng, ống kính tiếp tục nhanh hơn một chút và các cảm biến luôn có thể lớn hơn một chút, nhưng chúng ta đã tiến gần đến những hạn chế về mặt vật lý khi nhồi nhét hệ thống quang học vào các thiết bị di động mỏng nhẹ. Tuy nhiên, ngày nay, không có gì lạ khi điện thoại chụp ảnh tốt hơn trong một số trường hợp so với nhiều thiết bị máy ảnh chuyên dụng, ít nhất là trước khi xử lý hậu kỳ. Đó là bởi vì các thiết bị này được trang bị một hệ thống phần cứng tuy khác biệt nhưng có tính năng gần giống với các máy ảnh truyền thống, bao gồm hệ thống trên chip chứa CPU, bộ xử lý tín hiệu hình ảnh và một bộ xử lý AI (NPU).
Đây là phần cứng được tận dụng trong những gì được gọi là nhiếp ảnh tính toán, một thuật ngữ bao quát mọi thứ từ hiệu ứng sâu ảnh nhân tạo trong điện thoại ở chế độ chân dung cho đến các thuật toán giúp tăng chất lượng hình ảnh đáng kinh ngạc của Google Pixel. Không phải tất cả các nhiếp ảnh tính toán đều liên quan đến AI, nhưng AI chắc chắn là một thành phần chính của nó.
Apple tận dụng công nghệ này để điều khiển camera kép trên iPhone. Bộ xử lý tín hiệu hình ảnh iPhone, sử dụng các kỹ thuật máy học để nhận dạng người bằng một camera, trong khi camera thứ hai tạo bản đồ độ sâu để giúp cách ly đối tượng và làm mờ hậu cảnh. Khả năng nhận diện mọi người thông qua máy học không phải là mới khi tính năng này ra mắt vào năm 2016, nhưng để quản lý nó trong thời gian thực với tốc độ cần thiết cho máy ảnh điện thoại thông minh là một bước đột phá.
Google vẫn là cái tên dẫn đầu không thể chối cãi trong lĩnh vực này, kết quả tuyệt vời mà những bức ảnh do smartphone Pixel tạo ra là một minh chứng rõ ràng nhất. HDR+, chế độ chụp mặc định, sử dụng thuật toán phức tạp, hợp nhất một số khung hình thiếu sáng thành một và máy học sẽ làm cho nó trở nên tốt hơn theo thời gian. Google đã đào tạo AI của mình trên một bộ dữ liệu khổng lồ về các bức ảnh được dán nhãn (giống như đã làm với phần mềm Google Photos). Đặc biệt, Pixel 2 đã tạo ra một mức chất lượng hình ảnh cơ bản ấn tượng đến mức một số phóng viên của Theverge đã sử dụng nó để thay thế cho máy ảnh truyền thống.
Lợi thế của Google càng rõ ràng hơn với sự ra mắt của Night Sight cách đây vài tháng. Tính năng mới này của Pixel kết hợp các phơi sáng dài lại với nhau và sử dụng thuật toán máy học để tính toán cân bằng trắng và màu sắc chính xác hơn. Tính năng này hoạt động tốt nhất trên Pixel 3, vì các thuật toán được thiết kế với chặt chẽ với phần cứng, nhưng Google đã cung cấp nó cho tất cả các điện thoại Pixel - ngay cả Pixel 1 vốn thiếu tính năng chống rung quang học. Tính năng này là một minh chứng tuyệt vời cho thấy phần mềm bây giờ quan trọng hơn phần cứng máy ảnh khi chụp ảnh di động.
Tuy nhiên, vẫn còn chỗ cho phần cứng để tạo ra sự khác biệt, đặc biệt là khi nó được hỗ trợ bởi AI. Điện thoại View 20 mới của Honor, cùng với Nova 4 từ công ty mẹ Huawei là những thiết bị đầu tiên sử dụng cảm biến hình ảnh Sony IMX586. Nó có một cảm biến lớn hơn so với hầu hết các đối thủ cạnh tranh và ở mức 48 megapixel, nó thể hiện độ phân giải cao nhất từng thấy trên bất kỳ điện thoại nào. Nhưng điều đó vẫn có nghĩa là nhồi nhét rất nhiều pixel nhỏ vào một không gian nhỏ, nó có xu hướng gây ra vấn đề về chất lượng hình ảnh. Tuy nhiên, trong các thử nghiệm View 20, chế độ Honor Ultra AI đã vượt trội trong việc tận dụng tối đa độ phân giải, giải mã bộ lọc màu sắc khác thường của bộ cảm biến để mở khóa thêm chi tiết. Điều này dẫn đến những bức ảnh khổng lồ mà bạn có thể phóng to ở mức chưa từng thấy trước đây.
Bộ xử lý tín hiệu hình ảnh rất quan trọng đối với hiệu suất camera của điện thoại trong một thời gian, nhưng có vẻ như NPU sẽ đảm nhận vai trò lớn hơn trong thời đại chụp ảnh dựa vào các thuật toán AI. Huawei là công ty đầu tiên công bố chip hệ thống với phần cứng AI chuyên dụng (Kirin 970) mặc dù Apple A11 Bionic cuối cùng đã đến tay người tiêu dùng trước.
Trong khi đó, Qualcomm, nhà cung cấp bộ xử lý Android lớn nhất trên toàn thế giới, đã khiến cho máy học trở thành một trọng tâm lớn. Dù vậy, Google đã phát triển chip riêng của mình có tên Pixel Visual Core để hỗ trợ các tác vụ hình ảnh liên quan đến AI. Chip Apple A12 Bionic mới nhất có một NPU 8 lõi có thể chạy các tác vụ trong Core ML nhanh hơn 9 lần so với A11 và nó liên kết trực tiếp với bộ xử lý hình ảnh. Apple cho biết điều này giúp máy ảnh hiểu rõ hơn về mặt phẳng tiêu cự, ví dụ, giúp tạo ra độ sâu trường ảnh thực tế hơn.
Loại phần cứng này sẽ ngày càng quan trọng đối với việc xử lí hình ảnh. Hãy nhớ rằng, loại thuật toán cung cấp sức mạnh cho Google Photos đã được đào tạo trên các máy tính lớn với GPU mạnh mẽ trước khi xử lí các thư viện ảnh cho bạn.
Google đã cho thấy một số công việc ấn tượng có thể làm giảm gánh nặng xử lý, trong khi các công cụ AI ngày càng nhanh hơn theo thời gian. Nhưng ngay cả ở giai đoạn đầu của AI, có những lợi ích thực sự được tìm thấy từ các máy ảnh điện thoại đã được thiết kế với công nghệ máy học. Trên thực tế, trong số tất cả các khả năng và ứng dụng được đưa ra bởi làn sóng AI trong vài năm qua, khu vực có ứng dụng thực tế nhất hiện nay là nhiếp ảnh. Máy ảnh là một tính năng thiết yếu của bất kỳ điện thoại nào và AI là công cụ tốt nhất của chúng ta cải thiện nó.
Theo Vn review