Posts

[논문리뷰] Wav2Vec 논문 리뷰

📌 논문 소개 논문 이름 : 논문 링크 : https://arxiv.org/pdf/1904.05862.pdf 핵심 아이디어 : 레이블 된 데이터 없이도 풍부한 음성 특징을 추출할 수 있는 모델 제시 📄 논문 리뷰 0️⃣ Abstract 은 라벨링 되지 않은 데이터를 학습하여 음향모델의 성능을 높이는데 사용되는 (모델이 학습한 특징, 구조 등)을 반환함. 은 다중 합성곱 레이어로 이루어짐. 노이즈 대조 이진 분류를 사용함. 1️⃣ Introduction ◼ 기존 음성 인식 모델과 Wav2Vec의 차이점 1. 대량의 labeled 데이터(음성 오디오 신호가 텍스트로 전사 되어 있는 데이터)를 통해 성능 향상 음성 오디오 데이터 중 labeld 된 데이터를 대량으로 구하기 어려움. 컴퓨터 비전, 자연어처리에서는 대량의 unlabeld 데이터를 사용해 일반적인 을 학습하고, 적은 양의 labeld 데이터를 사용해 에서 모델을 하는 방식을 주로 사용한다. : 모델을 사전 훈련하거나, 사전 …

November 28, 2023

오디오딥러닝

논문리뷰

[논문리뷰] SpecAugument 논문 리뷰

📌 논문 소개 논문 이름 : 논문 링크 : arxiv.org/abs/1904.0877 핵심 아이디어 : 음성 인식을 위한 새로운 증강 기법을 통한 성능 향상 📄 논문 리뷰 ◼ 새롭게 제시한 증강 기법 1. 스펙트로그램 데이터를 특정한 시간 경로로 나눈 뒤, 이를 왜곡시킴.(늘리거나 줄이는 등) 데이터에 약간의 시간적 변화를 주는 것. 2. 입력 스펙트로그램에서 일정 시간 영역을 랜덤하게 가리는 기술. 가리는 영역의 최대 길이를 설정할 수 있고, 이를 통해 지나치게 큰 영역을 가리지 않도록 제어 가능하다. 3. 입력 스펙트로그램에서 일정 주파수 영역을 랜덤하게 가리는 기술. Time Masking과 같이 가리는 영역의 최대 길이를 설정할 수 있고, 이를 통해 지나치게 큰 영역을 가리지 않도록 제어 가능하다. ◼ 새로운 증강 기법을 사용한 전처리 정책 W : 시간 왜곡 매개 변수(에 사용) F : 주파수 마스킹 매개 변수(에 사용) mF : 적용된 주파수 마스킹 수(에 사용)…

November 21, 2023

오디오딥러닝

논문리뷰