Sesinizi kaydedin ve bloğu okumaya başlayın.
Ses dönüştürme, bir kişinin konuşmasını, orijinal konuşmanın kelimelerini ve tonlamasını korurken başka bir kişinin tarzında ifade etme görevidir. “Herhangi birinden birine” ses dönüştürme, eğitim sırasında görülmeyen rastgele bir giriş konuşmacısından tek bir sabit konuşmacının tarzında konuşmayı dönüştürür. Ses dönüştürmenin pratik uygulamaları arasında ses sentezi, ses anonimleştirme ve kişisel, yaratıcı veya profesyonel amaçlar için bir kişinin vokal kimliğinin değiştirilmesi bulunmaktadır.
Ses dönüştürmenin temel zorlukları, hedef konuşmacıya benzerlik sağlama ve doğal sounding çıkış oluşturmaktır. Gerçek zamanlı ses dönüştürme, mevcut yüksek kaliteli ses sentezi ağlarının uygunsuz olduğu ek zorluklar sunar: ağın sadece gerçek zamandan daha hızlı çalışması gerekmekle kalmaz, aynı zamanda düşük gecikme ile ve gelecekteki ses bağlamına minimal erişimle de çalışmalıdır. Son olarak, yaygın tüketici kullanımı için tasarlanmış gerçek zamanlı ses dönüştürme ağları, düşük kaynaklı hesaplama ortamlarında da çalışabilmelidir.
LLVC :LOW-LATENCY VOICE CONVERSION
Waveformer, gerçek zamanlı ses çıkarma yapmak üzere tasarlanmışken, LLVC, tüm seslerin tek bir hedef konuşmacı gibi ses çıkarmak üzere dönüştürüldüğü çeşitli konuşmacılardan oluşan yapay bir paralel veri setinde eğitilmiştir. LLVC’nin amacı, model çıktısı ve sentetik hedef konuşma arasındaki algılanabilir farkı en aza indirmektir. LLVC, gecikmesi 20ms’ye kadar düşük olan tüketici CPU’larında sesleri aktarım şeklinde dönüştürebilen ilk açık kaynaklı model olarak sunulmaktadır.
RVC
RVC , 10 dakikalık kısa ses örneklerini alarak yüksek kaliteli ses dönüştürmeleri gerçekleştirebilen yapay zeka destekli bir ses değiştiricisidir. Aslında anlatmak istediğim bunun tam bir teaching olmadığı sadece ses içeriğinin tekrar kodlanması gibi düşünebilirsiniz.
Geleneksel ses değiştiriciler iki veri kümesi hazırlanarak eğitilir.
Bunlardan biri kişinin kendi sesi diğeri ise hedef ses.
RVC ise belirli sesin hedef sese dönüştürülmesini sağlar.
Bu dönüştürme işlemini Nlp’nin Bert modeli gibi yani en temelde bulunan model olan HuBert sayesinde yapıyor. Hubert zaten transformer mimarisi üzerine kurulu bir sistemdir. Hubert özellik çıkarımı için kullanılırken ses üretimi için net_g kullanılır.
net_g’nin iç yapısı çeşitli bileşenlerden oluşur:
- Gömme : HuBERT’ten gelen özellik vektörünü kodlar .
- TextEncoder : perdeyi kodlar. (başka bir sesi aynalamak için)
- PosteriorEncoder :
z
Giriş ses sinyalinin temel özelliklerini yakalayan gizli bir temsil veya özellik vektörü oluşturur. - ResidualCouplingBlock :
z_p
Orijinal girişin dilsel içeriğini korurken hedef sesin özelliklerini de dahil ederek, istenen çıkış sesini üretmek için gerekli değiştirilmiş özellikleri bünyesinde barındıran hesaplar (arka kodlanmış vektör). - GeneratorNSF : İşlenen verilerden PCM üretir.
RVC, dahili olarak adı verilen bir işaret tarafından yönetilen, saha kılavuzu olarak bilinen bir özelliği içerir if_f0
. if_f0
olarak ayarlandığında , net_g’dekiTrue
ses sentezi işlemi sırasında giriş sesinin temel frekansı (f0) ek olarak sağlanır .
f0’ı kullanarak, orijinal sesin tonlamasını (perde gibi) yansıtmak mümkün hale gelir; bu da onu şarkı söyleme ve orijinal melodiyi veya perde desenini korumanın çok önemli olduğu diğer uygulamalar için uygun hale getirir.
Faiss tuning nedir ?
RVC’de, HuBERT tarafından dönüştürülen özelliklerin yerleştirilmesi için, eğitim verilerinden oluşturulan yerleştirmeye benzer yerleştirmeler ararız ve orijinal konuşmaya daha yakın bir dönüşüm elde etmek için bunları karıştırırız. Ancak bu arama saf bir şekilde yapıldığında zaman aldığından, harmanlanmış bir arama kullanılarak yüksek hızlı dönüşüm gerçekleştirilir. Bu bir vektör arama kütüphanesidir.
Giriş sesinin özellik vektörüne mesafe olarak en yakın olan eğitim veri kümesinden özellik vektörlerinin seçilmesiyle çalışır. Giriş sesinin hubert ile ağırlıklı ortalaması alınan sistemlerin orjinal sese daha yakın sonuçlar verdiği gözlenmiştir.
Kısacası faiss kütüphanesi bizlere ses üzerinde yer alan duygu değişimlerinin yansıtılmasını ve daha kolay bir ses dönüşümünü sunuyor.
Uygulama üzerine notlar ve pocket e-book
Bir ses datasını dimension verdiğim pocket e-book sayesinde hem break up hem seperate edebilrisiniz. hali hazırda seperate edilmiş ses datanızı break up ederek 10sn’lik parçalara bölerek modeli eğitebilirsiniz.
Daha önce oluşturmuş olduğum dataset üzerinden ses dönüştürme işlemine hızlıca bir bakış atalım.
datasetimiz 10sn ‘lik break up edilmiş seslerden oluşan bir dataset.
Part-matched (PM): PM özellik çıkarma tekniği, konuşma sinyalinden faz bilgisini çıkarır. Bu bilgi, konuşmacının sesini tanımlamak ve farklı bir sese dönüştürmek için kullanılabilir.
Rmvpe: Polifonik Müzikte Vokal Pitch Tahmini İçin Güçlü Model, Harvest & Dio: Bu özellik çıkarma tekniği, konuşma sinyalinden çeşitli farklı özellikler çıkarır, bunlar arasında pitch, formant frekansları ve enerji bulunur. Bu özellikler, konuşmacının sesini tanımlamak ve farklı bir sese dönüştürmek için kullanılabilir.
Rmvpe_gpu: Rmvpe_gpu özellik çıkarma tekniği, Rmvpe özellik çıkarma tekniğinin GPU hızlandırmalı versiyonudur. Rmvpe özellik çıkarma tekniğinden daha hızlıdır, ancak kullanmak için bir GPU’ya ihtiyaç duyar.
3.adım olarak put together indexler için belirli hücre çalıştırılır ve artık model put together işlemine başlayabiliriz .
Eğitim bittikten sonra arayüz üzerinden ;
klavuz bir ses verilerek dönüştürme işlemi gerçekleştirilir. Bu sayede ai cowl yapabilirsiniz.
Hadi bir pop star olun 😎😎😎
Kaynaklar;
Thank you for being a valued member of the Nirantara family! We appreciate your continued support and trust in our apps.
- Nirantara Social - Stay connected with friends and loved ones. Download now: Nirantara Social
- Nirantara News - Get the latest news and updates on the go. Install the Nirantara News app: Nirantara News
- Nirantara Fashion - Discover the latest fashion trends and styles. Get the Nirantara Fashion app: Nirantara Fashion
- Nirantara TechBuzz - Stay up-to-date with the latest technology trends and news. Install the Nirantara TechBuzz app: Nirantara Fashion
- InfiniteTravelDeals24 - Find incredible travel deals and discounts. Install the InfiniteTravelDeals24 app: InfiniteTravelDeals24
If you haven't already, we encourage you to download and experience these fantastic apps. Stay connected, informed, stylish, and explore amazing travel offers with the Nirantara family!
Source link