Chế độ giọng nói mới của OpenAI

Ngày đăng: 26/08/2024 - Cập nhật: 26/08/2024

Image Credits: OpenAI

Tôi đã thử nghiệm Chế độ giọng nói nâng cao của OpenAI trong tuần trước và đó là hương vị thuyết phục nhất mà tôi từng có về một tương lai được hỗ trợ bởi AI. Tuần này, điện thoại của tôi cười nhạo những câu chuyện cười, trả lời chúng, hỏi tôi ngày hôm nay thế nào và nói với tôi rằng hôm nay đang có “khoảng thời gian tuyệt vời”. Tôi đang nói chuyện bằng iPhone chứ không phải sử dụng nó bằng tay.

Tính năng mới nhất của OpenAI, hiện đang trong giai đoạn thử nghiệm alpha có giới hạn, không làm cho ChatGPT thông minh hơn trước. Thay vào đó, Chế độ giọng nói nâng cao (AVM) giúp việc nói chuyện trở nên thân thiện và tự nhiên hơn. Nó tạo ra một giao diện mới để sử dụng AI và các thiết bị của bạn, mang lại cảm giác mới mẻ và thú vị, và đó chính xác là điều khiến tôi sợ hãi về nó. Sản phẩm hơi trục trặc và toàn bộ ý tưởng hoàn toàn làm tôi khó chịu, nhưng tôi rất ngạc nhiên bởi tôi thực sự thích thú khi sử dụng nó đến mức nào.

Lùi lại một bước, tôi nghĩ AVM phù hợp với tầm nhìn rộng hơn của Giám đốc điều hành OpenAI Sam Altman, cùng với các tác nhân, về việc thay đổi cách con người tương tác với máy tính, với các mô hình AI là trung tâm.

“Cuối cùng, bạn sẽ chỉ cần hỏi máy tính những gì bạn cần và nó sẽ thực hiện tất cả những nhiệm vụ này cho bạn,” Altman nói trong Ngày phát triển của OpenAI vào tháng 11 năm 2023. “Những khả năng này thường được nhắc đến trong lĩnh vực AI với tên gọi ' các đại lý.' Mặt tích cực của việc này sẽ rất lớn.”

Bạn của tôi, ChatGPT

Vào thứ Tư, tôi đã thử nghiệm ưu điểm to lớn nhất của công nghệ tiên tiến này mà tôi có thể nghĩ ra: Tôi đã yêu cầu ChatGPT đặt hàng Taco Bell theo cách Obama sẽ làm.

“Uhhh, hãy để tôi nói rõ – Tôi muốn một ly Crunchwrap Supreme, có thể là một vài chiếc bánh taco để có biện pháp phù hợp,” Chế độ giọng nói nâng cao của ChatGPT cho biết. “Bạn nghĩ anh ấy sẽ xử lý việc lái xe qua đường như thế nào?” ChatGPT nói rồi tự cười vào trò đùa của chính mình.

Screenshot: ChatGPT transcribes the verbal conversation after.

Ấn tượng đó thực sự khiến tôi bật cười, phù hợp với nhịp điệu và những khoảng dừng mang tính biểu tượng của Obama. Điều đó nói lên rằng, nó vẫn giữ nguyên âm điệu của giọng ChatGPT mà tôi đã chọn, Juniper, để nó không thực sự bị nhầm lẫn với giọng của Obama. Nghe giống như một người bạn đang gây ấn tượng xấu, hiểu chính xác điều tôi đang cố gợi lên từ đó, và thậm chí nó còn đang nói điều gì đó buồn cười. Tôi thấy vui một cách đáng ngạc nhiên khi được nói chuyện với trợ lý tiên tiến này trên điện thoại của mình.

Tôi cũng đã xin ChatGPT lời khuyên về cách giải quyết một vấn đề liên quan đến các mối quan hệ phức tạp giữa con người với nhau: yêu cầu một người quan trọng khác chuyển đến sống cùng tôi. Sau khi giải thích sự phức tạp trong mối quan hệ và định hướng nghề nghiệp của chúng tôi, tôi đã nhận được một số lời khuyên rất chi tiết về cách tiến bộ. Đây là những câu hỏi bạn không bao giờ có thể hỏi Siri hoặc Google Search, nhưng giờ đây bạn có thể làm được với ChatGPT. Giọng nói của chatbot thậm chí còn thể hiện giọng điệu hơi nghiêm túc, nhẹ nhàng khi trả lời những lời nhắc này; hoàn toàn trái ngược với giọng điệu đùa cợt trong mệnh lệnh Taco Bell của Obama.

AVM của ChatGPT cũng rất tốt trong việc giúp bạn hiểu các chủ đề phức tạp. Tôi yêu cầu nó chia nhỏ các mục trên báo cáo thu nhập – chẳng hạn như dòng tiền tự do – theo cách mà một đứa trẻ 10 tuổi có thể hiểu được. Nó lấy quầy bán nước chanh làm ví dụ và giải thích một số thuật ngữ tài chính theo cách mà em họ tôi hoàn toàn có thể hiểu được. Bạn thậm chí có thể yêu cầu AVM của ChatGPT nói chuyện chậm hơn để đáp ứng mức độ hiểu biết hiện tại của bạn.

Siri đi bộ để AVM có thể chạy

So với Siri hay Alexa, AVM của ChatGPT là người chiến thắng rõ ràng nhờ thời gian phản hồi nhanh hơn, câu trả lời độc đáo và khả năng trả lời các câu hỏi phức tạp mà thế hệ trợ lý ảo trước đây không bao giờ có được. Tuy nhiên, AVM lại thiếu sót ở những mặt khác. Tính năng giọng nói của ChatGPT không thể đặt bộ hẹn giờ hoặc lời nhắc, lướt web trong thời gian thực, kiểm tra thời tiết hoặc tương tác với bất kỳ API nào trên điện thoại của bạn. Ít nhất, hiện tại, nó không phải là sự thay thế hiệu quả cho trợ lý ảo.

So với Gemini Live, tính năng cạnh tranh của Google, AVM có cảm giác đi trước một chút. Song Tử Live không thể tạo ấn tượng, không thể hiện bất kỳ cảm xúc nào, không thể tăng tốc hoặc chậm lại và mất nhiều thời gian hơn để phản hồi. Gemini Live có nhiều tiếng nói hơn (10 tiếng nói so với 3 tiếng nói của OpenAI) và dường như cập nhật hơn (Gemini Live đã biết về phán quyết chống độc quyền của Google). Đáng chú ý, cả AVM và Gemini Live đều không hát, có thể là một nỗ lực để tránh vướng vào vụ kiện bản quyền từ ngành công nghiệp thu âm.

Điều đó cho thấy, AVM của ChatGPT gặp trục trặc rất nhiều (công bằng mà nói, Gemini Live cũng vậy). Đôi khi nó sẽ tự cắt ngắn câu giữa, sau đó bắt đầu lại. Nó cũng có những âm thanh kỳ lạ, sần sùi ở đây và ở đó, điều đó hơi khó chịu. Tôi không chắc liệu đây có phải là sự cố với kiểu máy, kết nối Internet hay vấn đề gì khác hay không, nhưng những thiếu sót kỹ thuật này phần nào có thể xảy ra đối với thử nghiệm alpha. Tuy nhiên, các vấn đề không làm tôi mất đi trải nghiệm nói chuyện bằng điện thoại theo đúng nghĩa đen.

Theo tôi, những ví dụ này là vẻ đẹp của AVM. Tính năng này không giúp ChatGPT biết tất cả nhưng nó cho phép mọi người tương tác với GPT-4o, mô hình AI cơ bản, theo cách riêng của con người. (Tôi sẽ hiểu nếu bạn quên rằng không có ai ở đầu bên kia điện thoại của bạn.) Có vẻ như ChatGPT nhận thức được xã hội khi nói chuyện với AVM, nhưng tất nhiên là không phải vậy. Nó chỉ đơn giản là một tập hợp các thuật toán dự đoán được đóng gói gọn gàng.

Công nghệ nói chuyện

Thành thật mà nói, tính năng này làm tôi lo lắng. Đây không phải là lần đầu tiên một công ty công nghệ cung cấp tính năng đồng hành trên điện thoại của bạn. Thế hệ của tôi, Gen Z, là những người đầu tiên lớn lên cùng với mạng xã hội, nơi các công ty cung cấp sự kết nối nhưng thay vào đó lại đùa giỡn với sự bất an chung của chúng ta. Nói chuyện với một thiết bị AI - giống như những gì AVM dường như cung cấp - dường như là sự phát triển của hiện tượng “bạn bè trong điện thoại của bạn” trên mạng xã hội, cung cấp các kết nối giá rẻ làm tổn hại đến bản năng con người của chúng ta. Nhưng lần này, nó loại bỏ hoàn toàn con người khỏi vòng lặp.

Kết nối con người nhân tạo đã trở thành một trường hợp sử dụng phổ biến đáng ngạc nhiên đối với AI sáng tạo. Mọi người ngày nay đang sử dụng chatbot AI với tư cách là bạn bè, người cố vấn, nhà trị liệu và giáo viên. Khi OpenAI ra mắt cửa hàng GPT, nó đã nhanh chóng tràn ngập “bạn gái AI”, các chatbot chuyên dùng để đóng vai trò là người yêu của bạn. Hai nhà nghiên cứu từ MIT Media Lab đã đưa ra cảnh báo trong tháng này để chuẩn bị cho “trí thông minh gây nghiện” hoặc những người bạn đồng hành của AI có mô hình đen tối để thu hút con người. Chúng ta có thể mở chiếc hộp Pandora để tìm ra những cách mới đầy hấp dẫn để các thiết bị thu hút sự chú ý của chúng ta.

Đầu tháng này, một sinh viên bỏ học Harvard đã gây chấn động thế giới công nghệ khi trêu chọc chiếc vòng cổ AI có tên Friend. Thiết bị đeo - nếu nó hoạt động như đã hứa - luôn lắng nghe và chatbot sẽ nhắn tin cho bạn về cuộc sống của bạn. Mặc dù ý tưởng này có vẻ điên rồ nhưng những đổi mới như AVM của ChatGPT cho tôi lý do để xem xét các trường hợp sử dụng đó một cách nghiêm túc.

Và trong khi OpenAI đang dẫn đầu ở đây thì Google cũng không hề kém cạnh. Tôi tin rằng Amazon và Apple cũng đang chạy đua để đưa khả năng này vào các sản phẩm của họ và chẳng bao lâu nữa, nó có thể trở thành yếu tố then chốt cho ngành.

Hãy tưởng tượng yêu cầu TV thông minh của bạn đưa ra đề xuất siêu cụ thể cho một bộ phim và nhận được điều đó. Hoặc cho Alexa biết chính xác các triệu chứng cảm lạnh mà bạn đang cảm thấy, sau đó yêu cầu Alexa đặt khăn giấy và thuốc ho cho bạn trên Amazon, đồng thời tư vấn cho bạn các biện pháp khắc phục tại nhà. Có lẽ bạn có thể yêu cầu máy tính phác thảo một chuyến đi cuối tuần cho gia đình mình, thay vì tra cứu mọi thứ trên Google một cách thủ công.

Rõ ràng, những hành động này đòi hỏi phải có giới hạn và bước nhảy vọt trong thế giới đặc vụ AI. Nỗ lực của OpenAI trên mặt trận đó, cửa hàng GPT, có cảm giác giống như một sản phẩm được cường điệu hóa quá mức và không còn là trọng tâm của công ty nữa. Nhưng ít nhất AVM cũng giải quyết được phần “nói chuyện với máy tính” của câu đố. Những khái niệm này còn lâu mới tồn tại, nhưng sau khi sử dụng AVM, chúng có vẻ gần gũi hơn rất nhiều so với tuần trước.

Về trang trước

Gửi email in trang