Mục lục bài viết
Kinh Nghiệm về Mfcc là gì Mới Nhất
Cập Nhật: 2022-04-11 11:11:14,You Cần tương hỗ về Mfcc là gì. You trọn vẹn có thể lại Thảo luận ở phía dưới để Admin đc tương hỗ.
là tập những frame liên tục nhau, trích chọn đặc trưng MFCC cho ta tập đặc trưng cho mỗiframe tiếng nói này. Tại sao phải phân thành những frame và những frame rõ ràng chúng có đặctrưng thế nào, ta sẽ đề cập tới ở ngay phần tại đây.2.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC 2Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương pháp phổbiến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ thuật này dựatrên việc tiến hành biến hóa để chuyển tài liệu âm thanh nguồn vào (đã được biến hóa Fouriercho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt hơn sự nhạy cảm của tai ngườiđối với âm thanh. Kỹ thuật trích chọn đặc trưng này gồm tiến trình biến hóa liên tục,trong số đó đầu ra của bước biến hóa trước sẽ là nguồn vào của bước biến hóa sau. Đầu vào củaquá trình trích chọn đặc trưng này sẽ là một đoạn tín hiệu tiếng nói. Vì tín hiệu âm thanhsau khi được đưa vào máy tính đã được rời rạc hóa nên đoạn tín hiệu tiếng nói này baogồm bộ sưu tập liên tục nhau, mỗi mẫu là một giá trị thực, thể hiện giá trị biên độ của âmthanh tại thuở nào gian.Trích chọn đặc trưng MFCC gồm sáu bước như trong hình vẽ sau, kết quả là một tập gồm39 giá trị đặc trưng cho từng một frame tiếng nói.Hình 2 (nguồn [2]): Sơ đồ quy trình trích chọn đặc trưng MFCC2.2.1. Pre-emphasisTín hiệu âm thanh thường được thu ở môi trường tự nhiên vạn vật thiên nhiên đời thường, tiếng nói bình thườngcủa một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu của môitrường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể (nghe trọn vẹn có thể dễdàng nhận ra) của tiếng nói khi thu âm, bước thứ nhất của quy trình trích chọn đặc trưng2 Nội dung tìm hiểu thêm từ cuốn Speech and Language Processing, 2007, chapter 9. Tác giả Daniel Jurafsky &Jame H.Martin.8MFCC sẽ xử lý yếu tố này, bằng việc tiến hành tăng cường mức độ của những tần số cao lênnhằm làm tăng tích điện ở vùng có tần số cao – vùng tần số của tiếng nói, một cách dễhiểu là làm tiếng nói to nhiều hơn lên để tác động của những âm thanh môi trường tự nhiên vạn vật thiên nhiên và nhiễu trởthành không đáng kể. Việc tăng cường mức độ của vùng tần số cao lên đồng thời làm chothông tin rõ ràng hơn so với mẫu tiếng nói. Hình sau mô tả trước và sau quy trình Preemphasis của một đoạn tín hiệu âm thanh:Hình 3 (nguồn [2]): Một đoạn tần âm thanh trước và sau Pre-Emphasis2.2.2. WindowingTrong khối mạng lưới hệ thống nhận dạng tiếng nói được trình diễn ở khóa luận này, với mục đíchnâng cao độ đúng chuẩn của việc nhận dạng tiếng, thay vì nhận dạng từng từ riêng không tương quan gì đến nhau, mỗimột từ trong đoạn hội thoại sẽ tiến hành phân tích thành những âm vị (subphone) [7], và hệthống sẽ nhận dạng từng âm vị. Âm vị ở đấy là cty chức năng phát âm của một từ, những âm vị cấuthành tiếng nói, trong tiếng Anh, nó là cty chức năng cấu thành phiên âm của từ (ví dụ nổi bật nổi bật ONE:w-ah-n, âm vị ở đấy là w, ah và n), trong cách phát âm của tiếng Việt, cách viết của từchính là hình thức văn bản của âm vị (ví dụ nổi bật nổi bật “MOT” = “m-oo-t”, âm vị là m, oo và t).Vì nguyên do đó, những đặc trưng nên phải được trích chọn trên từng âm vị, thay vì cả từ hay cảđoạn tiếng nói dài. Windowing là việc cắt đoạn tín hiệu âm thanh nguồn vào ra thành cácmẩu tín hiệu có thời lượng nhỏ, gọi là những frame. Mỗi frame này tiếp sau này sẽ tiến hành nhậndạng nó thuộc âm vị nào. Nói cách khác, một frame sẽ là một tập gồm một số trong bộ sưu tập của tínhiệu ban sơ ta đã đề cập ở phần 2.1.9Một nguyên do khác đã cho toàn bộ chúng ta biết sự thiết yếu của việc windowing là vì tín hiệu âm thanh thay đổirất nhanh, do đó những thuộc tính như biên độ, chu kỳ luân hồi sẽ tạm bợ. Khi tín hiệu âmthanh được cắt ra thành những đoạn nhỏ thì ở mỗi đoạn, trọn vẹn có thể coi tín hiệu đó là ổn định,những đặc trưng của tín hiệu là không đổi theo thời hạn. Hình vẽ sau mô tả quá trìnhWindowing:Hình 4 (nguồn [2]): Minh họa quy trình WindowingĐể tiến hành việc này, toàn bộ chúng ta sử dụng một hành lang cửa số (window) chạy dọc tín hiện âm thanhvà cắt ra những đoạn tín hiệu nằm trong hành lang cửa số đó. Một hành lang cửa số được định nghĩa bằng cácthông số:- Frame size: độ rộng của hành lang cửa số, cũng là độ lớn của frame tín hiệu sẽ tiến hành cắt ra.- Frame shift: bước nhảy của hành lang cửa số, là độ dài đoạn mà hành lang cửa số sẽ trượt để cắt raframe tiếp theo.Mỗi frame tiếp sau này sẽ tiến hành nhân với một thông số, giá trị của thông số này tùy thuộc vào từngloại hành lang cửa số.Trong số đó x[n] là giá trị của mẫu thứ n, y[n] là giá trị của mẫu thứ n sau khoản thời hạn nhân với hệsố, w[n] là thông số cho mẫu thứ n trong frame đó.10Loại hành lang cửa số đơn thuần và giản dị nhất là hành lang cửa số Rectangular, giá trị của những thông số w[n] được cho bởicông thức sau:Nói cách khác, của sổ Rectangular với bước nhảy là frame shift, ta lấy frame size giá trịliên tiếp của tín hiệu làm một frame.Một loại hành lang cửa số khác thông dụng hơn trong trích chọn đặc trưng MFCC là cửa sổHamming. Trong loại hành lang cửa số này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiến dần ra haibiên của frame. Nói cách khác, nếu sử dụng hành lang cửa số Hamming để lấy ra những frame, nănglượng của mỗi frame sẽ triệu tập ở giữa frame, một ưu điểm nữa là những giá trị biên củacửa sổ Hamming tiến dần về 0 sẽ làm bước biến hóa Fourier ngay sau trở nên thuận tiện và đơn thuần và giản dị hơn(với hành lang cửa số Rectangular những giá trị không thay đổi so với mẫu tiếng nói, bên phía ngoài cửa sổnhận giá trị 0, những giá trị sẽ bị tăng đột ngột ở hai biên). Hệ thống nhận dạng trong khóaluận này trình diễn sẽ sử dụng hành lang cửa số Hamming. Biểu thức thông số của hành lang cửa số này là:So sánh hai loại hành lang cửa số Rectangular và HammingHình 5 (nguồn [2]): So sánh Rectangular (trái) và Hamming window (phải)2.2.3. DFT (Discrete fourier transform)Bước biến hóa tiếp theo là tiến hành biến hóa Fourier rời rạc so với từng mẩu tínhiệu đã được cắt ra. Qua phép biến hóa này, tín hiệu sẽ tiến hành đưa về không khí tần số.Công thức của biến hóa Fourier:11Trong đó x[n] là giá trị của mẫu thứ n trong frame, X[k] là một số trong những phức màn biểu diễn cườngđộ và pha của một thành phần tần số trong tín hiệu gốc, N là số mẫu trong một frame.Thông thường người ta sử dụng biến hóa FFT (Fast fourier transform) thay vì DFT. Biếnđổi FFT nhanh hơn nhiều so với biến hóa DFT, tuy nhiên thuật toán này yên cầu giá trị Nphải là một lũy thừa của 2. Hình sau mô tả trước và sau khoản thời hạn biến hóa DFT của một hành lang cửa số:Hình 6 (nguồn [2]): Biến đổi DFT cho một Hamming window2.2.4. Mel filter-ngân hàng nhà nước and logKết quả của quy trình biến hóa Fourier thể hiện tích điện của tín hiệu ở những dảitần số rất khác nhau. Tuy nhiên, tai của người lại không tồn tại sự nhạy cảm như nhau đối vớimọi dải tần số. Do đó việc quy mô hóa tính chất này của tai người trong quy trình tríchchọn đặc trưng làm tăng kĩ năng nhận dạng của khối mạng lưới hệ thống. Trong quy mô trích chọn đặctrưng MFCC, tần số sẽ tiến hành chuyển sang thang đo tần số mel theo công thức:Trong số đó f là tần số ở thang đo thường, fmel là tần số ở thang đo mel. Người ta sử dụng cácbăng lọc để tính những thông số mel. Sử dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ sốmel, và những thông số mel này sẽ là nguồn vào cho quy trình tiếp theo của trích chọn đặc trưngMFCC.12Hình vẽ sau màn biểu diễn quy mô những băng lọc trong thang đo tần số thường thì và thangđo mel:Hình 7 (nguồn [2]): Mô hình những băng lọc trong thang đo tần số thường thì và thang đo melCuối cùng của quá trình này, ta lấy logarit cơ số tự nhiên của phổ tính theo thang đoMel, thao tác này còn có 2 nguyên nhân, một là vì tai người nhạy cảm với âm thanh cường độthấp hơn, hai là làm những giá trị đặc trưng nhỏ đi, tiện cho việc tính toán.2.2.5. Discrete consinse transformBước tiếp theo của việc trích chọn đặc trưng MFCC là biến hóa fourier ngược vớiđầu vào là những thông số phổ mel của bước trước, đầu ra sẽ là những thông số cepstrum (MFCC –Mel Frequency Cepstrum Coefficients).Sau khi tiến hành biến hóa Fourier thì dãy tín hiệu theo thời hạn đã được chuyểnthành phổ tần số, và việc vận dụng những băng lọc tần số mel giúp cô đọng phổ tần số về mộtsố thông số nhất định (bằng với số băng lọc). Các thông số này thể hiện những đặc trưng của nguồnâm thanh như tần số cơ bản, xung âm thanh… Tuy nhiên, những đặc trưng này sẽ không quantrọng so với việc phân biệt những âm rất khác nhau. Thay vào đó, những đặc trưng về bộ máyphát âm (khoang miệng, khoang mũi, thanh quản, hầu) rất thiết yếu cho việc nhận dạngcác âm. Việc tiến hành biến hóa fourier ngược sẽ tương hỗ tách biệt những đặc trưng về nguồn13âm và cỗ máy phát âm từ những thông số (những đặc trưng về cỗ máy phát âm là những thông số đầutiên).2.2.6. Feature extractionTừ những thông số mel thu được từ quy trình trước, thường thì toàn bộ chúng ta chỉ lấy ra 12 hệsố thứ nhất để chọn làm đặc trưng. 12 thông số này chỉ đặc trưng cho những bộ phận của cục máyphát âm. Như vậy toàn bộ chúng ta đã có 12 đặc trưng thứ nhất.Đặc trưng thứ 13 là tích điện của âm. Năng lượng của mỗi khung tín hiệu được tínhngay từ sau bước windowing:Với 13 đặc trưng đó, toàn bộ chúng ta thêm vào 13 đặc trưng delta thể hiện vận tốc thay đổi củacủa âm giữa những khung tín hiệu, được xem bằng công thức:trong số đó d(t) là đặc trưng delta của khung t, c(t+1) và c(t-1) là những đặc trưng phổ củakhung ngay sau và trước khung t; và 13 đặc trưng double delta thể hiện vận tốc thay đổicủa âm giữa những khung tín hiệu. Công thức tính những đặc trưng double delta giống với côngthức tính những đặc trưng delta, khi coi c(t) là giá trị của những đặc trưng delta.2.2.7. Tổng kếtTrích chọn đặc trưng MFCC sẽ thu được những đặc trưng tại đây:- 12 giá trị đặc trưng phổ Mel được biến hóa Fourier ngược- 12 giá trị delta phổ- 12 giá trị double delta phổ- 1 giá trị mức tích điện- 1 giá trị delta mức tích điện- 1 giá trị double delta mức năng lượng14Tổng cộng: 39 đặc trưng cho từng frame tiếng nói.Chương 3. ĐẶC TRƯNG VỀ THANH ĐIỆU CỦA TIẾNG VIỆTỞ chương trước ta đã trình diễn về việc chọn đặc trưng cho tiếng nói tiếng Việt thôngqua mô phỏng cỗ máy phát âm, đó cũng là đặc trưng chung cho những ngôn từ khác. Tuynhiên, tiếng nói tiếng Việt còn tồn tại những điểm lưu ý riêng, đặc trưng và độc lạ và rất khác nhau, việc tìm hiểunhững đặc trưng này và đưa chúng vào phục vụ nhận dạng sẽ làm tăng độ đúng chuẩn toàncục của khối mạng lưới hệ thống nhận dạng tiếng nói.153.1. Khái niệm ngôn điệu, ngữ điệu và thanh điệu 3Nói một cách nôm na, trong ngôn từ nói, “ngôn điệu” là cái mang lại âm sắc chotiếng nói, âm sắc là biểu lộ tự nhiên của giọng nói, mang ý nghĩa nhấn mạnh vấn đề hoặc thểhiện sắc thái tình cảm, lời nói không tồn tại ngôn điệu tựa như lời nói của robot, khônggiống tiếng nói tự nhiên. Các nhà ngôn từ học nhận định rằng thực ra ngôn điệu là yếu tố phủ lênâm tiết những yếu tố trọng âm, thanh điệu, ngữ điệu và trường độ. Vai trò của ngôn điệu rấtquan trọng trong tổng hợp tiếng nói, nếu không xử lý được yếu tố ngôn điệu thì khôngthể tổng hợp được tiếng nói tự nhiên của con người được. Đặc trưng quan trọng nhất củangôn điệu là độ cao, độ dài, độ to, tương ứng là những đại lượng tần số cơ bản F0, thời giancủa âm tiết, âm vị D, và cường độ I.Ngôn điệu của lời nói link ngặt nghèo với khái niệm “ngữ điệu”. Có thể nói ngữđiệu là yếu tố nâng cao hạ thấp của lời nói trong câu, khi xét là một âm tiết (trong tiếng Việtgọi là một tiếng) ngữ điệu thời gian lúc bấy giờ trở thành thanh điệu của âm tiết đó. Đặc trưng chínhcho tính chất này là tần số cơ bản của giọng nói: F0. Việc lấy những giá trị F0 theo thời giantạo thành đường nét F0. Trong lời nói liên tục, đường nét F0 cho từng thanh điệu có cácđặc trưng rất khác nhau, tín hiệu thô ban sơ là dạng thô của đường nét F0, ở chương này, tađi nghiên cứu và phân tích cách làm mịn đường nét F0 cho từng âm tiết riêng không tương quan gì đến nhau, theo như đúng giới hạnban đầu của bài toán.3.2. Tìm đường nét F0 và nghiên cứu và phân tích điểm lưu ý của từng thanh điệu trong tiếng ViệtTrong tiếng Việt, có 6 thanh điệu được sử dụng: thanh ngang, huyền, sắc, hỏi,nặng và ngã. Trong văn học xưa từng xuất hiện luật bằng trắc: thanh bằng chỉ âm tiết cóđường nét có khunh hướng đi ngang hoặc đi xuống (là thanh ngang, huyền) thanh trắc chỉâm tiết có đường nét tăng trưởng (thanh sắc, nặng, ngã), tuy nhiên phân loại như vậy là chưachặt chẽ và khá đầy đủ. Sau đây, ta sẽ đưa ra một cách làm mịn đường nét F0 thể hiện thanhđiệu tiếng nói và nghiên cứu và phân tích điểm lưu ý của từng thanh điệu.3 Nội dung tìm hiểu thêm trong tài liệu: “Mô hình Fujisaki và vận dụng trong phân tích thanh điệu tiếng Việt” của BạchHưng Nguyên, Nguyễn Tiến Dũng.16
Reply
4
0
Chia sẻ
– Một số từ khóa tìm kiếm nhiều : ” Video full hướng dẫn Mfcc là gì tiên tiến và phát triển nhất , Chia Sẻ Link Tải Mfcc là gì “.
Thảo Luận vướng mắc về Mfcc là gì
You trọn vẹn có thể để lại Comment nếu gặp yếu tố chưa hiểu nghen.
#Mfcc #là #gì Mfcc là gì
Bình luận gần đây