게시 및 게시 날짜 : 2025/03/10

일본 오디오 온라인 바카라 모델 "Izanami"및 "Kushinada"release

-소량의 일본 오디오 데이터를 갖춘 고성능 오디오 AI를 빌드합니다

포인트

  • 풍부한 감정적 표현을 포함하여 60,000 시간의 일본 음성 데이터로부터 두 가지 유형의 일본어 음성 인프라 모델 구축
  • "Izanami"는 모델을 쉽게 개선 할 수 있으며 감정이 더 높은 감정과 음성 인식 기능을 갖춘 "Kushinada"는 이제 공개 할 수 있습니다
  • 소량의 데이터를 사용하여 음성 AI의 구성 및 스프레드에 기여합니다

요약 다이어그램

일본어 음성 온라인 바카라 모델 "Izanami"및 "Kushinada"
일본어 음성 온라인 바카라 모델로 얻은 음성 기능 표현을 사용하여 소량의 교육 데이터로 인해 성능이 낮은 음성 AI의 성능 향상


요약

AIST 바카라 커뮤니티 (이하 "AIST")는 방문 연구원 인 Ogata Jun, 연구팀 책임자이며 고성능 연구원입니다음성 AI우리는 두 가지 유형의 일본 음성 온라인 바카라 모델 인 "Izanami"와 "Kushnada"를 발표했습니다

음성 온라인 바카라 모델은 음성 인식 및음성 감정 인식등에 적용되고 있습니다 음성 온라인 바카라 모델을 구축하려면 대상 언어와 사용되는 장면을 가정하려면 최소 수천 시간의 오디오 데이터가 필요합니다 그러나 독서와 같은 것들과 비교할 때 대화와 같은 오디오 데이터가 적었고 Voice AI는 감정적 표현을 포함한 대화에 오디오가 충분하지 않았습니다

이번에는 60,000 시간에 가장 많은 일본어 음성 데이터를 사용하여 두 가지 유형의 일본 음성 인프라 모델 인 "Kushnada"및 "Izanami"를 구축하고 게시했습니다 이 모델은 일본의 신화의 이름을 따서 명명되었으며, 앞으로 다양한 오디오 AI의 제작자이자 지지자가되기를 희망합니다

"Izanami"는 사용자 데이터를 사용하여 쉽게 개선 할 수 있으며 "Kushinada"는 일본어 음성 감정 인식 및 음성 인식에서 고성능을 제공합니다 여기에는 노인의 목소리와 정서적 표현이 포함 된 대화가 포함됩니다교사 데이터소량 만 있더라도 고성능 음성 AI를 구축 할 수 있습니다 앞으로 우리는 일본 방언의 음성 인식 성능을 향상시키기 위해 노력할 것입니다 지역과 세대의 차이로 인한 음성 AI 성능의 저하 문제를 개선하고 지역 협의회에서 몇 분을 만드는 등 많은 상황에서 사용될 것으로 예상됩니다

이 모델은 AI 모델 공개 플랫폼 포옹 얼굴을 온라인 바카라으로합니다 (https : //huggingfaceco/imprt)에서 다운로드 할 수 있습니다


개발의 사회적 배경

음성 AI, 음성 및 화자 감정 분석을 전사하는 음성 인식과 같은 음성 AI는 스마트 스피커 및 회의의 전사에 사용됩니다 음성 데이터는 스피커, 감정 및 음향 환경에 따라 특성이 변하는 복잡한 데이터입니다 아나운서가 조용한 환경에서 읽으면 교사 데이터를 쉽게 읽을 수 있습니다감독 학습고성능 음성 AI를 구축 할 수 있습니다 그러나 다양한 세대의 감정적으로 표현적인 연설과 목소리는 충분한 양의 교사 데이터를 제공하지 않았으며 정서적 인식과 음성 인식 성능은 불충분했습니다 이러한 맥락에서 음성 온라인 바카라 모델은 음성 데이터를 분석 할 수있는 일반 목적 AI 모델로 주목을 받고 있습니다 음성 온라인 바카라 모델에는 감독 데이터가 없습니다자기 감독 학습로 구성 할 수 있습니다 음성 온라인 바카라 모델을 통해 얻은 일반 목적 음성 기능 표현을 사용하면 소량의 음성 데이터 및 교사 데이터를 사용하여 고성능 음성 AI를 구성 할 수 있으며, Nursing 시설과 같은 장소에서 음성 AI가 사용될 것으로 예상됩니다

 

연구 기록

온라인 바카라는 소량의 오디오 데이터에서 고성능 오디오 AI를 구축하기위한 오디오 기반 모델을 연구하고 개발하고 있습니다 우리는 일본어 음성 감정 인식의 성능에서 약 5,000 시간의 일본어 음성 데이터를 사용하여 구성된 일본 음성 기반 모델이 개선 될 수 있음을 확인했습니다 [1] 일본 오디오 데이터는 기쁨, 분노, 슬픔 및 뉴스 프로그램, 드라마 등이 포함됩니다자연스러운 감정적 목소리,감정적 오디오 연기| 포함되어 있습니다 이번에는 약 60,000 시간 동안 오디오 데이터의 12 배를 수집했으며 일본 오디오 온라인 바카라 모델 인 "Izanami"및 "Kushinada"를 개발했습니다

"Izanami"의 개발은 NEDO (국립 연구 및 개발 기관)가 의뢰 한 사람들과 함께 진화하는 "차세대 인공 지능 (문제 번호 : p20006)"의 기술 개발 프로젝트와 온라인 바카라의 정책 예산 프로젝트에 의해 지원되었다 또한,이 결과는 대규모 생성 된 AI 연구 개발 지원 프로그램에 의해 뒷받침되었으며, 이는 특정 기간 동안 온라인 바카라 ABCI 20 (노드라고하는 고성능 컴퓨팅 노드)의 특정 부분을 점유하고 사용할 수있는 기회를 제공합니다

 

연구 컨텐츠

우리는 가장 큰 오디오 데이터 (약 60,000 시간)를 사용하여 일본어 음성 온라인 바카라 모델 "Izanami"및 "Kushnada"를 구축하고 게시했습니다 "Izanami"및 "Kushnada"는 일본의 음성 인식, 언어 합성 및 음성 감정 인식과 같은 응용 프로그램에 적용될 수 있으며 소량의 교사 데이터 만 있더라도 고성능 음성 AI를 만들 수 있습니다 그림 1은 일본어 음성 온라인 바카라 모델을 구축하고 사용하는 방법에 대한 설명을 보여줍니다

그림 1

그림 1 : 일본어 음성 온라인 바카라 모델을 사용하면 소량의 데이터로 고성능으로 음성 AI를 구축 할 수 있습니다

이전 오디오 온라인 바카라 모델은 주로 영어 연설을 사용하여 학습되었으며 다국어 연설을 사용하여 학습하더라도 소량의 일본어 연설이있었습니다 이 음성 온라인 바카라 모델은 일본어 음성 특성 및 정서적 표현의 처리 및 분석에 적합하지 않았으며, 음성 감정 인식의 성능은 제한적이었습니다 일본어 음성을 사용하여 학습되는 일본어 음성 온라인 바카라 모델로서 지금까지 20,000 시간의 일본어 음성 데이터를 사용하는 모델이 출시되었습니다

이번에는 일본 오디오 온라인 바카라 모델에 대한 교육 데이터로 텔레비전 방송 오디오에 포함 된 모든 오디오에 중점을 두었습니다 뉴스 프로그램과 드라마를위한 텔레비전 오디오에는 기쁨, 분노, 슬픔 및 행복과 같은 감정 향상 목소리와 다양한 세대의 오디오가 포함됩니다 전통적인 일본 오디오 온라인 바카라 모델을 구성 할 때 텔레비전 방송 오디오의 전사 된 부분 만 사용되었습니다 이번에는 약 60,000 시간의 일본 오디오 데이터를 수집했으며, 가장 큰 일본식 오디오 데이터를 수집했으며, 강력한 감정적 표현과 같이 전사하기 어려운 목소리를 포함하여 일본어 음성을 사용하여 학습을위한 일본어 음성 기초 모델을 구축했습니다 건축 방법은 "Izanami"WAV2VEC20"Kushinada"Hubert사용되었습니다 "Izanami"는 Voice AI를 사용하는 필드 데이터로 쉽게 개선 할 수있는 모델입니다 반면, "Kushinada"는 일본의 음성 감정 인식과 음성 인식에서 고성능을 제공합니다 성과 평가의 결과로, 우리는 일본 연기 감정 목소리 (기쁨/분노/슬픔/정규성의 구별되는 음성 감정 인식)에서 "Izanami"에 대해 877%의 정답 8012%, "Kushinada"에 대해 8477%를 달성했습니다 (표 1) 이 성능은 일본어 음성 온라인 바카라 모델을 사용할 때 7065% 정답 속도에 비해 10 점 이상 향상되었습니다 우리는 또한 성능을 다른 일본 온라인 바카라 모델과 비교하여 "Izanami"와 "Kushinada"의 성능이 우수하다는 것을 확인했습니다

우리는 "Izanami"와 "Kushinada"라는 두 가지 유형으로 총 4 개의 일본어 음성 온라인 바카라 모델을 게시 할 예정이며, 이는 모델이 크다는 것을 나타내는 매개 변수의 수와 교육에 사용되는 오디오 데이터의 양이 다릅니다 표 1은 게시 할 일본어 음성 온라인 바카라 모델의 유형과 음성 감정 인식의 성능을 보여줍니다

표 1

표 1 : 발표 될 일본어 음성 온라인 바카라 모델의 두 가지 유형 및 음성 감정 인식의 성능

미래 계획

지역과 세대의 음성 AI 간의 성능 차이를 개선하기 위해 일본어 음성 온라인 바카라 모델을 사용하여 일본어 방언에서 음성 인식의 성능을 향상시키기 위해 노력하고 있습니다 [2] 우리가 "kushinada"를 사용하여 일본 방언을 사용하여 대화 목소리의 음성 인식을 사용했을 때, 음성 인식의 성능 지표 인 캐릭터 오류율은 327%였습니다 우리는이 성능이 현재 게시 된 다른 오디오 온라인 바카라 모델을 사용하는 것과 유사하다는 것을 확인했으며 현재 가장 높은 성능이라고 말할 수 있습니다 그러나 표준 일본어 음성이 10%미만의 캐릭터 오류율로 음성 인식을 가지고 있다는 점을 감안할 때 여전히 좋은 성능은 아닙니다 "Kushnada"가 표준 일본 음성 인식에 사용되었을 때, 캐릭터 오류율은 109%였으며, 방언 대화로 인해 성능은 약 22 점으로 악화되었습니다 앞으로는 새로운 방언 오디오 데이터 세트를 구축하고 지역과 세대의 차이로 인해 음성 AI 성능의 저하 문제를 개선하기 위해 노력할 것입니다 우리는 또한 회사 및 대학과 협력하여 Izanami와 Kushinada를 사용하여 소량의 데이터를 사용하는 음성 AI의 건설 및 스프레드에 기여할 것입니다

 

참조

[1] 출판 : 일본 음향 학회 (2023 년 가을)의 논문 모음
논문의 제목 : 일본어 음성 감정 인식을위한 자체 감독 학습 모델
저자 : Takizawa Daigo, Ogata Jun, Chikai Manabu, Sato Hiroshi

[2] 출판 : 일본 어쿠스틱 협회 (Spring 2025)의 논문 모음
논문 제목 : 대규모 자체 감독 학습 모델을 사용한 일본 방언의 음성 인식
저자 : Takizawa Daigo, Nakamura Tomohiko, Suda Hitoshi, Miyama Kaku

 

사용 가능

13007_13061https : //huggingfaceco/imprt)에서 다운로드 할 수 있습니다


용어집

음성 AI
인간 연설과 대화를 분석하고 생성하는 인공 지능 기술 음성 인식은 텍스트, 음성 감정 인식, 연설에서 감정을 인식하는 음성 감정 인식, 텍스트에서 연설을 생성하는 연설 합성을 인식하는 음성 인식이 있습니다[참조로 돌아 가기]
음성 감정 인식
오디오에서 스피커의 감정을 분석하고 인식하는 기술 그것은 연설의 음향 특징을 분석하고 화자의 감정을 추정합니다[참조로 돌아 가기]
교사 데이터
입력 데이터에 해당하는 정답을 나타내는 데이터 음성 감정 인식에서 Joy/Anger/Sadness/Normal과 같은 범주는 정답으로 사용되며 입력 음성과 쌍을 이룹니다[참조로 돌아 가기]
감독자와의 연구
입력 데이터와 해당 정답 (교사 데이터)을 페어링하여 학습을 포함하는 기계 학습 방법 모델은 정답이 알려지지 않은 입력에 출력 될 수 있도록 교육을받습니다[참조로 돌아 가기]
자기 감독 학습
교육 데이터의 일부를 숨기는 것과 같은 의사 교육 데이터를 만들어 데이터를 감독하지 않고 모델을 훈련시키는 기계 학습 방법 많은 양의 교사 데이터를 준비하는 번거 로움을 없애고 고성능 모델을 허용합니다[참조로 돌아 가기]
자연스러운 감정적 목소리/활동적인 감정적 목소리
자연 감정 소리는 일상적인 대화 나 자연 상황에서 감정이 표현되는 소리를 말합니다 연기 정서적 오디오는 성우와 배우가 연기를 통해 감정을 표현하는 오디오입니다[참조로 돌아 가기]
WAV2VEC20
Meta가 개발 한 기계 학습 방법 인 미국 회사는 동시에 연설을 인코딩하고 예측하는 자체 감독 학습을 제공합니다[참조로 돌아 가기]
Hubert
Meta가 개발 한 기계 학습 방법 인 회사는 자체 지원을 받았으며, 이는 다단계 학습을 통해 음성 인식에 유용한 음성 기능 표현을 인코딩하고 예측합니다[참조로 돌아 가기]


문의

연락처 양식