AI âm nhạc: Trí tuệ nhân tạo mới của Google biến văn bản thành âm nhạc

Sau các ứng dụng từ AI tạo nên các làn sóng mới như chatGPT, hay AI có thể vẽ tranh theo mô tả yêu cầu. Google – một gã công nghệ hàng đầu và luôn dẫn đầu các xu hướng công nghệ, cũng không đứng ngoài cuộc đua về trí tuệ nhân tạo này. Cùng Techie khám phá có điều gì đặc biệt ở công nghệ AI âm nhạc biến văn bản thành âm nhạc của Google nhé!

Giới Thiệu về AI âm nhạc có khả năng chuyển văn bản thành âm nhạc

Các nhà nghiên cứu của Google đã tạo ra một AI âm nhạc có thể tạo ra các bản nhạc dài vài phút từ lời nhắc bằng văn bản và thậm chí có thể chuyển đổi giai điệu huýt sáo hoặc ngâm nga thành các nhạc cụ khác, tương tự như cách các hệ thống như DALL-E tạo ra hình ảnh từ lời nhắc bằng văn bản. Mô hình này được gọi là MusicLM và mặc dù bạn không thể tự mình chơi với nó, công ty đã tải lên một loạt các mẫu mà nó tạo ra bằng cách sử dụng mô hình.

tri_tue_nhan_tao_AI
AI có thể biến văn bản thành đoạn nhạc

 

Các ví dụ rất ấn tượng. Có những đoạn trích dài 30 giây nghe giống như các bài hát thực tế được tạo từ các đoạn mô tả dài một đoạn mô tả thể loại, rung cảm và thậm chí cả các nhạc cụ cụ thể, cũng như các đoạn dài năm phút được tạo ra từ một hoặc hai từ như “kỹ thuật giai điệu. ” Có lẽ yêu thích của tôi là bản demo của “chế độ câu chuyện”, trong đó mô hình về cơ bản được cung cấp một kịch bản để biến đổi giữa các lời nhắc

Ví dụ minh hoạ của AI này

Một ví dụ được đưa ra:

  • phát đoạn nhạt điện tử trong 1 videogame (0:00-0:15) 
  • bảng nhạc thiền được phát bên cạnh dòng sông (0:15-0:30) 
  • lửa (0:30-0:45) 
  • pháo hoa (0:45-0:60)

Nge kết quả tại đây 

 

Tuy vậy công nghệ AI âm nhạc này cũng có những nhược điểm

Nó có thể không dành cho tất cả mọi người, nhưng tôi hoàn toàn có thể thấy nó được sáng tác bởi một con người. Ngoài ra, nổi bật trên trang web demo là các ví dụ về những gì mô hình tạo ra khi được yêu cầu tạo các clip nhạc cụ dài 10 giây như đàn cello hoặc maracas (ví dụ sau là một trong đó hệ thống thực hiện công việc tương đối kém), các clip dài 8 giây của một thể loại nhất định, âm nhạc phù hợp với cuộc vượt ngục và thậm chí cả âm thanh của một người mới bắt đầu chơi piano so với một người nâng cao. Nó cũng bao gồm cách diễn giải các cụm từ như “câu lạc bộ tương lai” và “accordion death metal”.

Cach_AI_am_nhac_hoat_dong
Cơ chế hoạt động của AI âm nhạc

 

MusicLM thậm chí có thể mô phỏng giọng hát của con người và mặc dù có vẻ như nó có được giai điệu và âm thanh tổng thể của giọng nói, nhưng chất lượng của chúng chắc chắn là không phù hợp bằng. 

Nhân tiện, đó là kết quả của việc yêu cầu nó tạo ra âm nhạc có thể phát ở phòng tập thể dục. Bạn cũng có thể nhận thấy rằng lời bài hát vô nghĩa, nhưng theo cách mà bạn có thể không nhất thiết phải nắm bắt nếu không chú ý – kiểu như nếu bạn đang nghe ai đó hát bằng tiếng Simlish hoặc một bài hát có nghĩa là giống như Tiếng Anh nhưng không phải.

Âm nhạc do AI tạo ra đã có lịch sử lâu đời từ hàng thập kỷ trước; có những hệ thống đã được ghi nhận là đã sáng tác các bài hát nhạc pop, sao chép Bach tốt hơn con người có thể làm trong những năm 90 và đi kèm với các buổi biểu diễn trực tiếp. Một phiên bản gần đây sử dụng công cụ tạo hình ảnh AI StableDiffusion để biến lời nhắc văn bản thành ảnh phổ sau đó được chuyển thành âm nhạc. Bài báo nói rằng MusicLM có thể vượt trội so với các hệ thống khác về “chất lượng và sự tuân thủ phụ đề”, cũng như thực tế là nó có thể thu âm thanh và sao chép giai điệu.

 

AI_am_nhac_cua_google
Google cho phát hành demo AI âm nhạc

 

Phần cuối cùng đó có lẽ là một trong những bản trình diễn thú vị nhất mà các nhà nghiên cứu đưa ra. Trang web cho phép bạn phát âm thanh đầu vào, trong đó ai đó ngân nga hoặc huýt sáo một giai điệu, sau đó cho phép bạn nghe cách mô hình tái tạo âm thanh đó dưới dạng âm thanh điện tử, tứ tấu đàn dây, độc tấu ghi-ta, v.v. Từ những ví dụ đã nghe, trang web quản lý nhiệm vụ rất tốt.

 

Giống như những bước đột phá khác vào loại AI này, Google đang thận trọng hơn đáng kể với MusicLM so với một số công ty cùng ngành với công nghệ tương tự. “Chúng tôi không có kế hoạch phát hành các mô hình vào thời điểm này,” bài báo kết luận, trích dẫn các rủi ro về “khả năng chiếm đoạt nội dung sáng tạo” (đọc: đạo văn) và khả năng chiếm đoạt hoặc xuyên tạc văn hóa.

Kết luận

Luôn có khả năng công nghệ này sẽ xuất hiện trong một trong những thử nghiệm âm nhạc thú vị của Google vào một thời điểm nào đó, nhưng hiện tại, những người duy nhất có thể sử dụng nghiên cứu này là những người khác đang xây dựng hệ thống AI âm nhạc. Google cho biết họ đang phát hành công khai một tập dữ liệu với khoảng 5.500 cặp văn bản âm nhạc, có thể hữu ích khi đào tạo và đánh giá các AI âm nhạc khác.

>>> xem thêm bài viết: https://techie.vn/thuc-tap-sinh-ai-dau-tien-duoc-thue-lam-viec-tai-my/

Khám phá thêm
Temu, một ứng dụng mua sắm Trung Quốc, đang gây chấn động trên internet với những sản phẩm rất rẻ....
“Chúng ta đang sống trong thế giới VUCA” – Câu nói này đã diễn tả đúng tình trạng thế giới...
Trong bài viết này, Techie sẽ giới thiệu đến bạn bản chất của tính năng constraints và auto-layout figma, cũng...
Theo một “nguồn tin mật” cho hay, Ghibli chính thức công bố trailer phần tiếp theo của tựa phim Vùng...
Thuật toán Dijkstra là một công cụ quan trọng trong lý thuyết đồ thị và tối ưu hóa. Với khả...
Nếu như các ứng dụng hẹn hò như Tinder, Okcupid, Facebook Dating vẫn chưa đem đến cho bạn một anh...
Cảm biến sinh học (Biosensor) đã đánh dấu một thành tựu quan trọng trong cuộc chiến chống đại dịch COVID-19 khi...
“Nói Việt Nam không có văn hóa riêng do sao chép từ Trung Quốc chẳng khác gì nói Nhật Bản...