skip to content
@CKDML

Tôi đã thử Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Kết quả sẽ làm bạn bất ngờ

12 phút đọc
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Mục lục

Khi Claude (Anthropic) ra mắt Sonnet 4.5 với tuyên bố đó là "mô hình lập trình tốt nhất thế giới", tôi biết mình phải kiểm tra nó.

Rốt cuộc, ChatGPT-5 vừa mới ra mắt và tạo ra làn sóng trong cộng đồng AI. Và Opus 4.1 đã là vua được yêu thích của AI lập trình trong nhiều tháng. Liệu mô hình Sonnet mới này có thể thực sự vượt qua cả hai?

Tôi quyết định cho cả ba mô hình vượt qua cùng những thử thách lập trình để xem cái nào hoạt động tốt nhất trong các tình huống thực tế. Điều tôi phát hiện ra đã thay đổi quan điểm của tôi về cách chúng ta nên nghĩ về trợ lý AI lập trình "tốt nhất".

Phương pháp kiểm tra

Để giữ mọi thứ công bằng, tôi đã cho mỗi mô hình chính xác cùng một lời nhắc và thử thách. Không có sự trợ giúp, không có điều chỉnh giữa các lần thử (ít nhất là ban đầu). Chỉ có hiệu suất thuần túy.

Đây là những gì tôi đã kiểm tra:

Thử thách 1: Phát triển trò chơi

Tôi yêu cầu mỗi mô hình tạo một trò chơi Angry Birds hoàn toàn hoạt động trong trình duyệt. Yêu cầu rất đơn giản: làm cho nó thú vị, thêm hoạt ảnh, đảm bảo nó thực sự hoạt động và làm cho nó hấp dẫn về mặt hình ảnh.

Thử thách 2: Thiết kế trang đích

Tôi yêu cầu mỗi mô hình tạo một trang đích chuyên nghiệp cho một công ty tiếp thị email. Mục tiêu là thiết kế tập trung vào chuyển đổi với bản sao phù hợp, sức hấp dẫn trực quan và tuân thủ các hướng dẫn thương hiệu hiện có.

Các mô hình có quyền truy cập vào tài liệu tham khảo và có thể đặt câu hỏi tiếp theo. Tôi muốn xem cách họ xử lý các nhiệm vụ phức tạp trong thế giới thực mà các nhà phát triển và nhà thiết kế đối mặt hàng ngày.

Kết quả: Một hành trình đáng ngạc nhiên

Trước khi đi sâu vào chi tiết, tôi muốn chia sẻ điều gì đó thực sự làm tôi ngạc nhiên: Không có mô hình nào thắng trong mọi danh mục. Mỗi mô hình xuất sắc theo những cách khác nhau, tiết lộ rằng "tốt nhất" phụ thuộc rất nhiều vào những gì bạn đang cố gắng đạt được.

ChatGPT-5: Vua của sự sáng tạo hình ảnh

ChatGPT-5 hoàn toàn xuất sắc trong thử thách trò chơi Angry Birds. Khi tôi nói xuất sắc, ý tôi là nó đã tạo ra thứ gì đó bạn thực sự muốn chơi. Vật lý của chim và khối cảm thấy thỏa mãn, hoạt ảnh mượt mà và giao diện tổng thể có yếu tố "một vòng nữa" đó.

Điều khiến tôi ấn tượng nhất là thiết kế hình ảnh. ChatGPT-5 hiểu rằng một trò chơi phải là hơn cả chức năng - nó phải hấp dẫn. Nó đã thêm độ chuyển màu tinh tế, hiệu ứng hạt cho va chạm và thậm chí cả màn hình hoàn thành cấp độ được đánh bóng.

Tuy nhiên, khi đến trang đích, mọi thứ trở nên ít ấn tượng hơn. Thiết kế đẹp về mặt thẩm mỹ nhưng không tuân theo bản tóm tắt riêng của nó. Nó đã bỏ qua các hướng dẫn thương hiệu mà tôi cung cấp và bản sao cảm thấy chung chung. Đó là loại trang có thể giành được giải thưởng thiết kế nhưng không nhất thiết phải chuyển đổi khách truy cập.

Opus 4.1: Người biểu diễn nhất quán

Opus 4.1 là người biểu diễn đáng tin cậy trong nhóm. Trong cả hai thử thách, nó đã phân phối chính xác những gì bạn mong đợi từ một nhà phát triển cấp cao có kinh nghiệm - không rực rỡ nhưng vững chắc trong mọi chi tiết.

Trò chơi Angry Birds hoạt động hoàn hảo ngay từ nỗ lực đầu tiên. Vật lý chính xác, điều khiển phản hồi và mã sạch sẽ và được tổ chức tốt. Nếu tôi đưa điều này cho khách hàng, họ sẽ hài lòng. Nhưng nếu thành thật, nó thiếu ma thuật của phiên bản ChatGPT-5.

Nơi Opus 4.1 thực sự tỏa sáng là trang đích. Nó đã đọc cẩn thận các hướng dẫn thương hiệu, sử dụng bảng màu chính xác và cấu trúc nội dung chính xác như tôi đã chỉ định. Bản sao cảm thấy có chủ ý - mỗi phần có mục đích rõ ràng trong hành trình người dùng.

Nếu bạn muốn một nhà phát triển mà bạn có thể tin tưởng để cung cấp kết quả chất lượng có thể dự đoán được, Opus 4.1 là lựa chọn của bạn. Nó sẽ không làm bạn ngạc nhiên với sự sáng tạo hoang dã, nhưng nó cũng sẽ không thất bại.

Claude Sonnet 4.5: Bất ngờ hợp tác

Sonnet 4.5 đã làm tôi hoàn toàn ngạc nhiên, nhưng không phải vì những lý do tôi mong đợi. Thay vì cố gắng cung cấp giải pháp hoàn hảo ngay lập tức, nó đặt câu hỏi. Rất nhiều câu hỏi.

Đối với thử thách trò chơi:

  • "Bạn nhắm mục tiêu mức độ khó nào cho cấp độ đầu tiên?"
  • "Bạn thích vật lý arcade hơn hay vật lý thực tế hơn?"
  • "Có phong cách nghệ thuật cụ thể nào bạn đang nghĩ đến không?"
  • "Nó có nên được tối ưu hóa cho máy tính để bàn, di động hay cả hai?"

Ban đầu, tôi hơi thất vọng. Các mô hình khác chỉ bắt đầu xây dựng. Nhưng sau đó tôi nhận ra điều gì đó: Sonnet 4.5 đang làm điều mà một nhà phát triển thực sự giỏi sẽ làm - đảm bảo nó hiểu vấn đề trước khi bắt đầu mã hóa.

Sau khi tôi trả lời các câu hỏi, kết quả thật đáng chú ý. Trò chơi không chỉ hoạt động và hấp dẫn về mặt hình ảnh - nó cảm thấy như thể được xây dựng đặc biệt cho trường hợp sử dụng của tôi. Vật lý phù hợp với sở thích của tôi, giao diện người dùng được tối ưu hóa cho các nền tảng tôi đã đề cập và thậm chí các nhận xét mã dường như được điều chỉnh theo phong cách làm việc của tôi.

Trang đích cũng là câu chuyện tương tự. Sau phiên hỏi đáp về đối tượng mục tiêu và mục tiêu chuyển đổi, nó đã tạo ra thứ gì đó cảm thấy được thiết kế chu đáo. Đó không chỉ là một trang đích chung chung - đó là một trang đích được xây dựng cho nhu cầu kinh doanh cụ thể của tôi.

Khám phá thực sự: Cải thiện thông qua hợp tác

Đây là nơi mọi thứ trở nên thực sự thú vị. Sau các vòng ban đầu, tôi đã thử làm việc với từng mô hình để tinh chỉnh đầu ra của chúng. Ở đây, sự khác biệt trở nên rõ ràng hơn.

Cải thiện với ChatGPT-5

ChatGPT-5 tuyệt vời trong các lần lặp hình ảnh. Khi tôi yêu cầu thay đổi hoạt ảnh hoặc thiết kế, nó đã triển khai chúng nhanh chóng và thường thêm các cải tiến mà tôi không nghĩ đến. Nhưng khi tôi cố gắng làm cho nó tuân theo các hướng dẫn thương hiệu chặt chẽ hơn, nó đã đấu tranh. Giống như sự sáng tạo của nó mạnh mẽ đến mức khó chế ngự.

Cải thiện với Opus 4.1

Opus 4.1 xử lý phản hồi chính xác như bạn mong đợi: chuyên nghiệp và hiệu quả. Nó đã thực hiện những thay đổi tôi yêu cầu mà không gặp vấn đề gì. Nhưng nó hiếm khi đề xuất cải tiến ngoài những gì tôi yêu cầu cụ thể. Nó là người thực thi xuất sắc nhưng không phải là cộng tác viên chủ động.

Cải thiện với Sonnet 4.5

Đây là trải nghiệm hợp tác đã thay đổi quan điểm của tôi. Khi bạn yêu cầu thay đổi, Sonnet 4.5 thường quay lại với các làm rõ:

"Tôi muốn làm cho phần hero này hấp dẫn hơn. Tôi có đang cố gắng làm cho nó hấp dẫn hơn về mặt hình ảnh hay rõ ràng hơn về mặt thông điệp? Hay cả hai?"

Hoặc:

"Tôi nhận thấy bạn muốn thay đổi vật lý trò chơi. Tôi có nên điều chỉnh độ khó để bù đắp không, hay bạn muốn làm cho nó cố ý dễ hơn/khó hơn?"

Giống như tôi đang làm việc với một nhà phát triển cấp cao đang tích cực suy nghĩ về vấn đề lớn hơn, không chỉ thực hiện các nhiệm vụ.

Phán quyết: Không có người chiến thắng toàn cầu

Sau nhiều tuần kiểm tra các mô hình này, kết luận của tôi là phản trực giác: Bạn không nên chọn một "người chiến thắng".

Đây là cách tôi nghĩ về chúng bây giờ:

Sử dụng ChatGPT-5 khi:

  • Bạn cần các khái niệm hình ảnh sáng tạo và khám phá thiết kế
  • Bạn đang làm việc trên thứ gì đó mà thẩm mỹ quan trọng như chức năng
  • Bạn muốn thấy những khả năng sáng tạo mà bạn sẽ không nghĩ đến
  • Bạn sẵn sàng cung cấp phản hồi cụ thể để hướng nó đến mục tiêu của bạn

Sử dụng Opus 4.1 khi:

  • Bạn có yêu cầu rõ ràng và được xác định rõ ràng
  • Bạn cần thực hiện đáng tin cậy và có thể dự đoán
  • Bạn đang làm việc với các hướng dẫn thương hiệu nghiêm ngặt hoặc hạn chế kỹ thuật
  • Bạn muốn mã sạch và được tổ chức tốt mà không có bất ngờ

Sử dụng Sonnet 4.5 khi:

  • Vấn đề của bạn phức tạp và sẽ được hưởng lợi từ thảo luận
  • Bạn muốn một cộng tác viên, không chỉ là người thực thi
  • Bạn cởi mở với việc tinh chỉnh yêu cầu của mình thông qua cuộc trò chuyện
  • Bạn đánh giá cao các giải pháp chu đáo có tính đến các tác động rộng lớn hơn

Bài học lớn hơn

Kiểm tra ba mô hình này đã dạy tôi điều quan trọng về AI nói chung: Nó không phải về việc tìm công cụ "tốt nhất" - nó về việc hiểu điểm mạnh của mỗi công cụ và khi nào sử dụng chúng.

Trong thực hành phát triển của tôi, bây giờ tôi sử dụng cả ba, thường cho các phần khác nhau của cùng một dự án. Có lẽ tôi bắt đầu với Sonnet 4.5 để tinh chỉnh kiến trúc và yêu cầu, sử dụng Opus 4.1 cho triển khai cốt lõi và gọi ChatGPT-5 khi tôi cần tia lửa sáng tạo đó cho giao diện.

Tuyên bố của Anthropic rằng Sonnet 4.5 là "mô hình lập trình tốt nhất thế giới" về mặt kỹ thuật là đúng - nhưng không theo cách tôi mong đợi. Nó không phải là tốt nhất vì nó đánh bại tất cả các mô hình khác trong mọi nhiệm vụ. Nó là tốt nhất vì nó thay đổi mối quan hệ bạn có với AI lập trình từ "công cụ" sang "cộng tác viên".

Khuyến nghị của tôi

Nếu tôi phải chọn chỉ một cho ai đó bắt đầu với AI coding:

Cho người mới bắt đầu: Bắt đầu với ChatGPT-5. Sự sáng tạo và tính linh hoạt hình ảnh của nó sẽ làm cho việc học tập trở nên thú vị hơn và khả năng tạo mã "chỉ hoạt động" của nó là tuyệt vời khi bạn vẫn đang học.

Cho nhà phát triển trung cấp: Opus 4.1 sẽ là người bạn tốt nhất của bạn. Tính nhất quán và độ tin cậy của nó sẽ trở nên vô giá khi bạn xây dựng các dự án phức tạp hơn.

Cho nhà phát triển nâng cao: Sonnet 4.5. Nếu bạn đã biết câu hỏi nào cần đặt và cách cấu trúc vấn đề, cách tiếp cận hợp tác của nó sẽ làm cho bạn hiệu quả hơn so với việc bạn làm một mình.

Nhưng thành thật? Nếu bạn có thể, hãy sử dụng cả ba. Ngân sách đăng ký AI hàng tháng của tôi đã tăng lên, nhưng năng suất của tôi cũng vậy. Quan trọng hơn, chất lượng của những gì tôi xây dựng đã được cải thiện bởi vì tôi đang sử dụng công cụ phù hợp cho mỗi công việc.

Suy nghĩ cuối cùng

Cuộc chiến AI coding không phải về việc ai đánh bại đối thủ của họ - nó về việc các công cụ này có thể giúp chúng ta xây dựng những thứ tốt hơn nhanh hơn như thế nào. Theo nghĩa đó, cả ba đều là người chiến thắng.

Claude Sonnet 4.5 có thể là "tốt nhất" trong các bài kiểm tra chuẩn, nhưng trong thế giới thực, công cụ tốt nhất là công cụ phù hợp với nhu cầu của bạn tại thời điểm đó. Đôi khi đó là sự sáng tạo của ChatGPT-5. Đôi khi đó là độ tin cậy của Opus 4.1. Và đôi khi đó là cách tiếp cận hợp tác của Sonnet 4.5.

Sức mạnh thực sự đến từ việc biết khi nào sử dụng cái nào và sự linh hoạt để chuyển đổi giữa chúng khi nhu cầu của bạn phát triển.

Watch the full testing process here: https://youtu.be/TAGUl0Xj7xg