Vào ngày 21 tháng 12, Midjourney đã công bố bản phát hành beta của phiên bản mới nhất, v6, trên Discord. Mô hình này đã được đào tạo trong 9 tháng, tuy còn thiếu so sánh benchmark rõ ràng nhưng dựa trên khả năng hiện tại được thể hiện qua các bài kiểm tra của cư dân mạng, có thể gọi đây là mô hình đồ thị Vincentian tiên tiến nhất ở thời điểm hiện tại. Đẳng cấp của các mẫu ra mắt lần này không chỉ lật đổ vòng tròn thiết kế mà còn trực tiếp lật đổ ngành nhiếp ảnh.
Chân dung qua sự tiến hóa của AI:
Đánh giá từ phần giới thiệu chính thức của Discord, những cải tiến về mô hình của Midjourney lần này chủ yếu ở các khía cạnh sau:
1) Chính xác hơn và câu lệnh dài dài hơn
Theo thử nghiệm thực tế của người dùng đã tham gia thử nghiệm, Midjourney v6 hiện hỗ trợ các câu lệnh dài hơn 350 ký tự; phiên bản hiện tại có thể chỉ định nhiều chủ đề/màu sắc và các chi tiết khác trong lời nhắc.
Về mặt làm theo câu lệnh một cách chính xác, sự cải thiện cũng thấy rõ qua thử nghiệm của cư dân mạng.
Ví dụ: khi thử nghiệm bằng tiếng Pháp, hình ảnh do mô hình v6 tạo ra phù hợp hơn đáng kể với ngữ nghĩa cụ thể của từ gợi ý: với găng tay đấm bốc và một nụ cười nhẹ.
Ví dụ sau rõ ràng hơn, v5.2 đếm dưới 1.000
Cải thiện khả năng hiểu chuyển động: v5.2 không thể hiểu được việc nằm xuống mà muốn đứng dậy và lăn lộn trở lại. v6 hoàn toàn bằng phẳng
2) Cải thiện tính mạch lạc và kiến thức mẫu
Trong thông báo, Midjourney cho biết
● v6 hiện phản ứng nhanh hơn với lời nhắc. Hãy ngừng sử dụng những từ vô dụng như “ấn tượng, thực tế, 4k, 8k”.
● Hãy nói rõ điều bạn muốn. Mặc dù nó có thể không thú vị bằng nhưng nó sẽ giúp bạn hiểu được ý định của mình tốt hơn khi bạn nói rõ chúng.
Theo thử nghiệm của người dùng, v6 thậm chí có thể hiểu được dấu câu và sắc thái ngữ pháp. Bản nâng cấp này thực sự sẽ có tác động lớn hơn đến toàn bộ trải nghiệm người dùng. Những lời nhắc giống như thuật giả kim trước đây có thể được thay thế bằng những mô tả chi tiết hơn. Khó có thể nói rõ điều này làm tăng hay giảm ngưỡng dành cho người mới.
Để đáp lại sự thay đổi này, một nhà thiết kế đã đưa ra những mẹo và kỹ thuật mới hiện phù hợp nhất cho Midjourney: cốt lõi là cách diễn đạt rõ ràng, phi kỹ thuật, có cấu trúc.
Có một chi tiết nhỏ rất tiêu biểu cho sự phát triển của v6 về mặt kiến thức mô hình. Từ gợi ý trong ví dụ dưới đây là phụ nữ Nhật Bản. v6 có thể phân biệt được sự khác biệt khá tinh tế về ngoại hình giữa các nhóm dân tộc Châu Á khác nhau. So với v5.2, ngoại hình của người phụ nữ trong ảnh mang nhiều nét Nhật Bản hơn. Sự khác biệt về ngoại hình của người châu Á mà người châu Âu hoàn toàn không thể hiểu được cũng đã bị AI lợi dụng.
3) Cải thiện gợi ý và pha trộn hình ảnh
Ở đây, lời nhắc hình ảnh được cải thiện thực sự đề cập nhiều hơn đến những cải tiến về khả năng tạo hình ảnh, tức là khả năng tạo ra hình ảnh chi tiết và chân thực hơn dựa trên lời nhắc văn bản. Việc trộn hình ảnh được cải thiện có nghĩa là v6 có thể làm cho sự kết hợp của các yếu tố và phong cách khác nhau trở nên hài hòa và tự nhiên hơn.
Đánh giá qua thử nghiệm của cư dân mạng, khả năng tạo hình ảnh của v6 quả thực đã được cải thiện đáng kể. So với v5.2, hình ảnh của v6 thực sự phong phú, chi tiết và sống động hơn. Thực tế thì v5.2 đã “thật” về độ chi tiết rồi, nhưng v6 cho cảm giác “thật” hơn là “mô phỏng”. Nếu lời nhắc đúng, kết quả thậm chí sẽ có kết cấu thực ngay từ máy ảnh.
Ví dụ như giữa hai đĩa khoai tây và thịt bò hầm này, phiên bản v6 ở bên phải rõ ràng là ngon miệng hơn.
Trái: v5.2 Phải v6
Về khả năng phục hồi môi trường, sự khác biệt cũng rất rõ ràng: ảnh dưới là chợ thời La Mã với phiên bản v6, bạn sẽ nghĩ đó là một cảnh của đoàn làm phim "Rome". Nhưng v5.2 thì hơi bằng phẳng, nhà hơi lạ.
v6 trên, v5.2 dưới
Sự tương phản giữa hai bộ ảnh này càng rõ ràng hơn. Các gợi ý đều theo phong cách phim tài liệu, những phần trên thực sự là phim tài liệu, nhưng phần dưới vẫn còn nhiều vấn đề khi nhìn kỹ, thiếu ánh sáng, bóng tối thực và độ sâu chi tiết.
Về mặt chân dung, v5 thực sự đã được khôi phục khá nhiều. Nhưng ở v6, những vết lồi lõm nhỏ trên mặt, những nếp nhăn và vết ố trên vành mũ, cùng sự thay đổi ánh sáng và bóng tối gần với vòng cung trên mũi khiến những bức ảnh v5.2 trông cũng như được làm đẹp hơn. phẳng. Ngay cả khi có tàn nhang, hiệu suất của v6 vẫn thuyết phục hơn, đầy đủ sự tập trung phù hợp với ngoại hình của cơ thể con người chứ không phải là cảm giác phẳng lặng.
v5.2
v6
v5.2
v6
4) Cải thiện khả năng vẽ văn bản
Nói một cách đơn giản, v6 giờ đây có thể vẽ văn bản trong hình ảnh một cách rõ ràng hơn và thậm chí có thể quyết định phong cách của nó. Để có kết quả tốt nhất, văn bản phải được đặt trong dấu ngoặc kép. Việc làm này giúp mô hình phân biệt giữa các tín hiệu mô tả và văn bản thực tế được trình bày trong hình ảnh. Ví dụ: nếu người dùng muốn tạo một hình ảnh có nội dung "Xin chào thế giới!" được viết bằng bút đánh dấu trên một tờ giấy dán, họ có thể sử dụng lời nhắc tương tự như: "Hãy tưởng tượng một bức ảnh có văn bản 'Xin chào thế giới!' được viết bằng bút đánh dấu trên một tờ giấy dán --ar 16:9 --v 6”
Điều này cũng đã được thể hiện rất rõ ràng trong thử nghiệm. Giờ đây, độ chính xác của việc xử lý văn bản trong v6 đã được cải thiện rất nhiều và cảm giác nhúng cũng tốt hơn.
V.6 bên phải
Trong một ví dụ khác, phông chữ Coca-Cola đã được khôi phục lại hoàn hảo.
Các khả năng mạnh mẽ mà Midjourney v6 thể hiện dường như gây ra mối đe dọa thực sự hơn đối với các nhiếp ảnh gia và nhóm thiết kế - khả năng bầu không khí hài hòa và thẩm mỹ mà nó hiện đang thể hiện đã bắt kịp các nhiếp ảnh gia cao cấp. Điều đáng sợ nhất không phải là sức mạnh mà nó thể hiện, mà là tốc độ tiến hóa của nó - trong thông báo của Midjourney, họ cũng cho biết: tốc độ, chất lượng hình ảnh, sự mạch lạc, theo dõi kịp thời và độ chính xác của văn bản của v6 sẽ cải thiện trong vài tuần tới. Bản beta v6 đã công bố bản cập nhật đầu tiên nửa giờ sau khi phát hành và tốc độ tạo đã tăng 2,7 lần.
Với việc phát hành Midjourney v6, một vòng chạy đua vũ trang mới dành cho những người mẫu tạo hình ảnh sắp bắt đầu lại.
Chân dung qua sự tiến hóa của AI:
Đánh giá từ phần giới thiệu chính thức của Discord, những cải tiến về mô hình của Midjourney lần này chủ yếu ở các khía cạnh sau:
1) Chính xác hơn và câu lệnh dài dài hơn
Theo thử nghiệm thực tế của người dùng đã tham gia thử nghiệm, Midjourney v6 hiện hỗ trợ các câu lệnh dài hơn 350 ký tự; phiên bản hiện tại có thể chỉ định nhiều chủ đề/màu sắc và các chi tiết khác trong lời nhắc.
Về mặt làm theo câu lệnh một cách chính xác, sự cải thiện cũng thấy rõ qua thử nghiệm của cư dân mạng.
Ví dụ: khi thử nghiệm bằng tiếng Pháp, hình ảnh do mô hình v6 tạo ra phù hợp hơn đáng kể với ngữ nghĩa cụ thể của từ gợi ý: với găng tay đấm bốc và một nụ cười nhẹ.
Ví dụ sau rõ ràng hơn, v5.2 đếm dưới 1.000
Cải thiện khả năng hiểu chuyển động: v5.2 không thể hiểu được việc nằm xuống mà muốn đứng dậy và lăn lộn trở lại. v6 hoàn toàn bằng phẳng
2) Cải thiện tính mạch lạc và kiến thức mẫu
Trong thông báo, Midjourney cho biết
● v6 hiện phản ứng nhanh hơn với lời nhắc. Hãy ngừng sử dụng những từ vô dụng như “ấn tượng, thực tế, 4k, 8k”.
● Hãy nói rõ điều bạn muốn. Mặc dù nó có thể không thú vị bằng nhưng nó sẽ giúp bạn hiểu được ý định của mình tốt hơn khi bạn nói rõ chúng.
Theo thử nghiệm của người dùng, v6 thậm chí có thể hiểu được dấu câu và sắc thái ngữ pháp. Bản nâng cấp này thực sự sẽ có tác động lớn hơn đến toàn bộ trải nghiệm người dùng. Những lời nhắc giống như thuật giả kim trước đây có thể được thay thế bằng những mô tả chi tiết hơn. Khó có thể nói rõ điều này làm tăng hay giảm ngưỡng dành cho người mới.
Để đáp lại sự thay đổi này, một nhà thiết kế đã đưa ra những mẹo và kỹ thuật mới hiện phù hợp nhất cho Midjourney: cốt lõi là cách diễn đạt rõ ràng, phi kỹ thuật, có cấu trúc.
Có một chi tiết nhỏ rất tiêu biểu cho sự phát triển của v6 về mặt kiến thức mô hình. Từ gợi ý trong ví dụ dưới đây là phụ nữ Nhật Bản. v6 có thể phân biệt được sự khác biệt khá tinh tế về ngoại hình giữa các nhóm dân tộc Châu Á khác nhau. So với v5.2, ngoại hình của người phụ nữ trong ảnh mang nhiều nét Nhật Bản hơn. Sự khác biệt về ngoại hình của người châu Á mà người châu Âu hoàn toàn không thể hiểu được cũng đã bị AI lợi dụng.
3) Cải thiện gợi ý và pha trộn hình ảnh
Ở đây, lời nhắc hình ảnh được cải thiện thực sự đề cập nhiều hơn đến những cải tiến về khả năng tạo hình ảnh, tức là khả năng tạo ra hình ảnh chi tiết và chân thực hơn dựa trên lời nhắc văn bản. Việc trộn hình ảnh được cải thiện có nghĩa là v6 có thể làm cho sự kết hợp của các yếu tố và phong cách khác nhau trở nên hài hòa và tự nhiên hơn.
Đánh giá qua thử nghiệm của cư dân mạng, khả năng tạo hình ảnh của v6 quả thực đã được cải thiện đáng kể. So với v5.2, hình ảnh của v6 thực sự phong phú, chi tiết và sống động hơn. Thực tế thì v5.2 đã “thật” về độ chi tiết rồi, nhưng v6 cho cảm giác “thật” hơn là “mô phỏng”. Nếu lời nhắc đúng, kết quả thậm chí sẽ có kết cấu thực ngay từ máy ảnh.
Ví dụ như giữa hai đĩa khoai tây và thịt bò hầm này, phiên bản v6 ở bên phải rõ ràng là ngon miệng hơn.
Trái: v5.2 Phải v6
Về khả năng phục hồi môi trường, sự khác biệt cũng rất rõ ràng: ảnh dưới là chợ thời La Mã với phiên bản v6, bạn sẽ nghĩ đó là một cảnh của đoàn làm phim "Rome". Nhưng v5.2 thì hơi bằng phẳng, nhà hơi lạ.
v6 trên, v5.2 dưới
Sự tương phản giữa hai bộ ảnh này càng rõ ràng hơn. Các gợi ý đều theo phong cách phim tài liệu, những phần trên thực sự là phim tài liệu, nhưng phần dưới vẫn còn nhiều vấn đề khi nhìn kỹ, thiếu ánh sáng, bóng tối thực và độ sâu chi tiết.
Về mặt chân dung, v5 thực sự đã được khôi phục khá nhiều. Nhưng ở v6, những vết lồi lõm nhỏ trên mặt, những nếp nhăn và vết ố trên vành mũ, cùng sự thay đổi ánh sáng và bóng tối gần với vòng cung trên mũi khiến những bức ảnh v5.2 trông cũng như được làm đẹp hơn. phẳng. Ngay cả khi có tàn nhang, hiệu suất của v6 vẫn thuyết phục hơn, đầy đủ sự tập trung phù hợp với ngoại hình của cơ thể con người chứ không phải là cảm giác phẳng lặng.
v5.2
v6
v5.2
v6
4) Cải thiện khả năng vẽ văn bản
Nói một cách đơn giản, v6 giờ đây có thể vẽ văn bản trong hình ảnh một cách rõ ràng hơn và thậm chí có thể quyết định phong cách của nó. Để có kết quả tốt nhất, văn bản phải được đặt trong dấu ngoặc kép. Việc làm này giúp mô hình phân biệt giữa các tín hiệu mô tả và văn bản thực tế được trình bày trong hình ảnh. Ví dụ: nếu người dùng muốn tạo một hình ảnh có nội dung "Xin chào thế giới!" được viết bằng bút đánh dấu trên một tờ giấy dán, họ có thể sử dụng lời nhắc tương tự như: "Hãy tưởng tượng một bức ảnh có văn bản 'Xin chào thế giới!' được viết bằng bút đánh dấu trên một tờ giấy dán --ar 16:9 --v 6”
Điều này cũng đã được thể hiện rất rõ ràng trong thử nghiệm. Giờ đây, độ chính xác của việc xử lý văn bản trong v6 đã được cải thiện rất nhiều và cảm giác nhúng cũng tốt hơn.
V.6 bên phải
Trong một ví dụ khác, phông chữ Coca-Cola đã được khôi phục lại hoàn hảo.
Đây là một thiết kế logo khác—văn bản hoàn toàn phù hợp với phong cách của hình ảnh. Vị trí cuối cùng của nhà thiết kế có phần không thể đứng vững được.Các khả năng mạnh mẽ mà Midjourney v6 thể hiện dường như gây ra mối đe dọa thực sự hơn đối với các nhiếp ảnh gia và nhóm thiết kế - khả năng bầu không khí hài hòa và thẩm mỹ mà nó hiện đang thể hiện đã bắt kịp các nhiếp ảnh gia cao cấp. Điều đáng sợ nhất không phải là sức mạnh mà nó thể hiện, mà là tốc độ tiến hóa của nó - trong thông báo của Midjourney, họ cũng cho biết: tốc độ, chất lượng hình ảnh, sự mạch lạc, theo dõi kịp thời và độ chính xác của văn bản của v6 sẽ cải thiện trong vài tuần tới. Bản beta v6 đã công bố bản cập nhật đầu tiên nửa giờ sau khi phát hành và tốc độ tạo đã tăng 2,7 lần.
Với việc phát hành Midjourney v6, một vòng chạy đua vũ trang mới dành cho những người mẫu tạo hình ảnh sắp bắt đầu lại.
Theo VN review