- 풍부한 감정적 표현을 포함하여 60,000 시간의 일본 음성 데이터로부터 두 가지 유형의 일본어 음성 인프라 모델 구축
- "Izanami"는 모델을 쉽게 개선 할 수 있으며 감정이 더 높은 감정과 음성 인식 기능을 갖춘 "Kushinada"는 이제 공개 할 수 있습니다
- 소량의 데이터를 사용하여 음성 AI의 구성 및 스프레드에 기여합니다

일본어 음성 온라인 바카라 모델 "Izanami"및 "Kushinada"
일본어 음성 온라인 바카라 모델로 얻은 음성 기능 표현을 사용하여 소량의 교육 데이터로 인해 성능이 낮은 음성 AI의 성능 향상
AIST 바카라 커뮤니티 (이하 "AIST")는 방문 연구원 인 Ogata Jun, 연구팀 책임자이며 고성능 연구원입니다음성 AI우리는 두 가지 유형의 일본 음성 온라인 바카라 모델 인 "Izanami"와 "Kushnada"를 발표했습니다
음성 온라인 바카라 모델은 음성 인식 및음성 감정 인식등에 적용되고 있습니다 음성 온라인 바카라 모델을 구축하려면 대상 언어와 사용되는 장면을 가정하려면 최소 수천 시간의 오디오 데이터가 필요합니다 그러나 독서와 같은 것들과 비교할 때 대화와 같은 오디오 데이터가 적었고 Voice AI는 감정적 표현을 포함한 대화에 오디오가 충분하지 않았습니다
이번에는 60,000 시간에 가장 많은 일본어 음성 데이터를 사용하여 두 가지 유형의 일본 음성 인프라 모델 인 "Kushnada"및 "Izanami"를 구축하고 게시했습니다 이 모델은 일본의 신화의 이름을 따서 명명되었으며, 앞으로 다양한 오디오 AI의 제작자이자 지지자가되기를 희망합니다
"Izanami"는 사용자 데이터를 사용하여 쉽게 개선 할 수 있으며 "Kushinada"는 일본어 음성 감정 인식 및 음성 인식에서 고성능을 제공합니다 여기에는 노인의 목소리와 정서적 표현이 포함 된 대화가 포함됩니다교사 데이터소량 만 있더라도 고성능 음성 AI를 구축 할 수 있습니다 앞으로 우리는 일본 방언의 음성 인식 성능을 향상시키기 위해 노력할 것입니다 지역과 세대의 차이로 인한 음성 AI 성능의 저하 문제를 개선하고 지역 협의회에서 몇 분을 만드는 등 많은 상황에서 사용될 것으로 예상됩니다
이 모델은 AI 모델 공개 플랫폼 포옹 얼굴을 온라인 바카라으로합니다 (https : //huggingfaceco/imprt)에서 다운로드 할 수 있습니다
음성 AI, 음성 및 화자 감정 분석을 전사하는 음성 인식과 같은 음성 AI는 스마트 스피커 및 회의의 전사에 사용됩니다 음성 데이터는 스피커, 감정 및 음향 환경에 따라 특성이 변하는 복잡한 데이터입니다 아나운서가 조용한 환경에서 읽으면 교사 데이터를 쉽게 읽을 수 있습니다감독 학습고성능 음성 AI를 구축 할 수 있습니다 그러나 다양한 세대의 감정적으로 표현적인 연설과 목소리는 충분한 양의 교사 데이터를 제공하지 않았으며 정서적 인식과 음성 인식 성능은 불충분했습니다 이러한 맥락에서 음성 온라인 바카라 모델은 음성 데이터를 분석 할 수있는 일반 목적 AI 모델로 주목을 받고 있습니다 음성 온라인 바카라 모델에는 감독 데이터가 없습니다자기 감독 학습로 구성 할 수 있습니다 음성 온라인 바카라 모델을 통해 얻은 일반 목적 음성 기능 표현을 사용하면 소량의 음성 데이터 및 교사 데이터를 사용하여 고성능 음성 AI를 구성 할 수 있으며, Nursing 시설과 같은 장소에서 음성 AI가 사용될 것으로 예상됩니다
온라인 바카라는 소량의 오디오 데이터에서 고성능 오디오 AI를 구축하기위한 오디오 기반 모델을 연구하고 개발하고 있습니다 우리는 일본어 음성 감정 인식의 성능에서 약 5,000 시간의 일본어 음성 데이터를 사용하여 구성된 일본 음성 기반 모델이 개선 될 수 있음을 확인했습니다 [1] 일본 오디오 데이터는 기쁨, 분노, 슬픔 및 뉴스 프로그램, 드라마 등이 포함됩니다자연스러운 감정적 목소리,감정적 오디오 연기| 포함되어 있습니다 이번에는 약 60,000 시간 동안 오디오 데이터의 12 배를 수집했으며 일본 오디오 온라인 바카라 모델 인 "Izanami"및 "Kushinada"를 개발했습니다
"Izanami"의 개발은 NEDO (국립 연구 및 개발 기관)가 의뢰 한 사람들과 함께 진화하는 "차세대 인공 지능 (문제 번호 : p20006)"의 기술 개발 프로젝트와 온라인 바카라의 정책 예산 프로젝트에 의해 지원되었다 또한,이 결과는 대규모 생성 된 AI 연구 개발 지원 프로그램에 의해 뒷받침되었으며, 이는 특정 기간 동안 온라인 바카라 ABCI 20 (노드라고하는 고성능 컴퓨팅 노드)의 특정 부분을 점유하고 사용할 수있는 기회를 제공합니다
우리는 가장 큰 오디오 데이터 (약 60,000 시간)를 사용하여 일본어 음성 온라인 바카라 모델 "Izanami"및 "Kushnada"를 구축하고 게시했습니다 "Izanami"및 "Kushnada"는 일본의 음성 인식, 언어 합성 및 음성 감정 인식과 같은 응용 프로그램에 적용될 수 있으며 소량의 교사 데이터 만 있더라도 고성능 음성 AI를 만들 수 있습니다 그림 1은 일본어 음성 온라인 바카라 모델을 구축하고 사용하는 방법에 대한 설명을 보여줍니다

그림 1 : 일본어 음성 온라인 바카라 모델을 사용하면 소량의 데이터로 고성능으로 음성 AI를 구축 할 수 있습니다
이전 오디오 온라인 바카라 모델은 주로 영어 연설을 사용하여 학습되었으며 다국어 연설을 사용하여 학습하더라도 소량의 일본어 연설이있었습니다 이 음성 온라인 바카라 모델은 일본어 음성 특성 및 정서적 표현의 처리 및 분석에 적합하지 않았으며, 음성 감정 인식의 성능은 제한적이었습니다 일본어 음성을 사용하여 학습되는 일본어 음성 온라인 바카라 모델로서 지금까지 20,000 시간의 일본어 음성 데이터를 사용하는 모델이 출시되었습니다
이번에는 일본 오디오 온라인 바카라 모델에 대한 교육 데이터로 텔레비전 방송 오디오에 포함 된 모든 오디오에 중점을 두었습니다 뉴스 프로그램과 드라마를위한 텔레비전 오디오에는 기쁨, 분노, 슬픔 및 행복과 같은 감정 향상 목소리와 다양한 세대의 오디오가 포함됩니다 전통적인 일본 오디오 온라인 바카라 모델을 구성 할 때 텔레비전 방송 오디오의 전사 된 부분 만 사용되었습니다 이번에는 약 60,000 시간의 일본 오디오 데이터를 수집했으며, 가장 큰 일본식 오디오 데이터를 수집했으며, 강력한 감정적 표현과 같이 전사하기 어려운 목소리를 포함하여 일본어 음성을 사용하여 학습을위한 일본어 음성 기초 모델을 구축했습니다 건축 방법은 "Izanami"WAV2VEC20"Kushinada"Hubert사용되었습니다 "Izanami"는 Voice AI를 사용하는 필드 데이터로 쉽게 개선 할 수있는 모델입니다 반면, "Kushinada"는 일본의 음성 감정 인식과 음성 인식에서 고성능을 제공합니다 성과 평가의 결과로, 우리는 일본 연기 감정 목소리 (기쁨/분노/슬픔/정규성의 구별되는 음성 감정 인식)에서 "Izanami"에 대해 877%의 정답 8012%, "Kushinada"에 대해 8477%를 달성했습니다 (표 1) 이 성능은 일본어 음성 온라인 바카라 모델을 사용할 때 7065% 정답 속도에 비해 10 점 이상 향상되었습니다 우리는 또한 성능을 다른 일본 온라인 바카라 모델과 비교하여 "Izanami"와 "Kushinada"의 성능이 우수하다는 것을 확인했습니다
우리는 "Izanami"와 "Kushinada"라는 두 가지 유형으로 총 4 개의 일본어 음성 온라인 바카라 모델을 게시 할 예정이며, 이는 모델이 크다는 것을 나타내는 매개 변수의 수와 교육에 사용되는 오디오 데이터의 양이 다릅니다 표 1은 게시 할 일본어 음성 온라인 바카라 모델의 유형과 음성 감정 인식의 성능을 보여줍니다

표 1 : 발표 될 일본어 음성 온라인 바카라 모델의 두 가지 유형 및 음성 감정 인식의 성능
지역과 세대의 음성 AI 간의 성능 차이를 개선하기 위해 일본어 음성 온라인 바카라 모델을 사용하여 일본어 방언에서 음성 인식의 성능을 향상시키기 위해 노력하고 있습니다 [2] 우리가 "kushinada"를 사용하여 일본 방언을 사용하여 대화 목소리의 음성 인식을 사용했을 때, 음성 인식의 성능 지표 인 캐릭터 오류율은 327%였습니다 우리는이 성능이 현재 게시 된 다른 오디오 온라인 바카라 모델을 사용하는 것과 유사하다는 것을 확인했으며 현재 가장 높은 성능이라고 말할 수 있습니다 그러나 표준 일본어 음성이 10%미만의 캐릭터 오류율로 음성 인식을 가지고 있다는 점을 감안할 때 여전히 좋은 성능은 아닙니다 "Kushnada"가 표준 일본 음성 인식에 사용되었을 때, 캐릭터 오류율은 109%였으며, 방언 대화로 인해 성능은 약 22 점으로 악화되었습니다 앞으로는 새로운 방언 오디오 데이터 세트를 구축하고 지역과 세대의 차이로 인해 음성 AI 성능의 저하 문제를 개선하기 위해 노력할 것입니다 우리는 또한 회사 및 대학과 협력하여 Izanami와 Kushinada를 사용하여 소량의 데이터를 사용하는 음성 AI의 건설 및 스프레드에 기여할 것입니다
[1] 출판 : 일본 음향 학회 (2023 년 가을)의 논문 모음
논문의 제목 : 일본어 음성 감정 인식을위한 자체 감독 학습 모델
저자 : Takizawa Daigo, Ogata Jun, Chikai Manabu, Sato Hiroshi
[2] 출판 : 일본 어쿠스틱 협회 (Spring 2025)의 논문 모음
논문 제목 : 대규모 자체 감독 학습 모델을 사용한 일본 방언의 음성 인식
저자 : Takizawa Daigo, Nakamura Tomohiko, Suda Hitoshi, Miyama Kaku