- 풍부한 감정적 표현을 포함하여 60,000 시간의 스피드 바카라 음성 데이터로 구성되었습니다
- 쉽게 미세 조정할 수있는‘Izanami’와 감정과 음성 인식에 능숙한‘Kushinada’가 공개적으로 제공됩니다
- 소량의 스피드 바카라터를 사용하여 음성 AI의 구성 및 보급에 기여

스피드 바카라어 스피치 파운데이션 모델 "Izanami"및 "Kushinada
스피드 바카라어 스피치 파운데이션 모델에서 얻은 음성의 특징 표현을 사용하여 소량의 교육 데이터에 의해 제한 된 Speech AI의 성능 향상
음성 AI는 전사 연설에 대한 음성 인식 및 화자 감정 분석을 포함한 스마트 스피커 및 회의 전사에 사용됩니다 음성 스피드 바카라터는 스피커, 감정 및 음향 환경에 따라 특성이 다른 복잡한 스피드 바카라터입니다 아나운서가 조용한 환경에서 읽을 때 감독 된 스피드 바카라터는 쉽게 구할 수 있으며 고성능 언어 AI는 감독 된 학습을 통해 구축 할 수 있습니다 그러나 다양한 세대의 풍부한 감정적 표현과 연설을 가진 대화 연설의 경우 교사 스피드 바카라터의 양이 충분하지 않으며 정서적 인식과 음성 인식의 성과는 충분하지 않습니다 이러한 상황에서 Speech Foundation 모델은 음성 스피드 바카라터를 분석 할 수있는 일반 목적 AI 모델로 주목을 받고 있습니다 Speech Foundation 모델은 스피드 바카라터를 표시하지 않고 자체 감독 학습을 통해 구성 할 수 있습니다 Speech Foundation 모델을 통해 얻은 음성의 일반적인 목적 기능 표현을 사용하여 고성능 음성 AI를 소량의 라벨링 된 음성 스피드 바카라터로 구축 할 수 있으며, 이러한 방식으로 내장 된 Speech AI는 간호사와 같은 장소에서 사용될 것으로 예상됩니다
AIST의 연구원들은 스피드 바카라의 두 가지 연설 재단 모델 인 "Izanami"와 "Kushinada"를 발표했습니다
음성 인프라 모델은 음성 스피드 바카라터를 처리하고 분석하기위한 일반적인 목적 AI 모델이며, 이는 음성 인식 및 음성 감정 인식에 점점 더 적용되고 있습니다 Speech Foundation 모델을 구축하려면 대상 언어와 사용되는 장면을 기반으로하는 수천 시간 이상의 음성 스피드 바카라터가 필요합니다 그러나 대화 연설과 같은 언어 스피드 바카라터는 단일 대화식 연설과 비교하여 부족하며, 연설 AI 공연은 감정적으로 풍부한 표현을 포함하는 대화 연설에 불충분했습니다
우리는 기초 모델을 60,000 시간 동안 만들기 위해 가장 큰 스피드 바카라어 음성 데이터를 사용하여 스피드 바카라의 두 가지 연설 재단 모델 인 "Kushinada"와 "Izanami"를 구축하고 발표했습니다 이 모델은 미래에 다양한 유형의 연설 AI의 제작자와 지지자로서 봉사 할 것이라는 희망으로 스피드 바카라 신화의 이름을 따서 명명되었습니다
“Izanami”는 사용자 데이터를 사용하여 쉽게 미세 조정할 수 있으며, "Kushinada"는 스피드 바카라의 음성 감정 인식 및 음성 인식에서 고성능을 보여줍니다 이러한 기능을 사용하면 정서적으로 풍부한 표현이 포함 된 대화 나 대화의 경우와 같이 소량의 레이블이 붙은 데이터 만 사용할 수있는 경우에도 고성능 음성 AI를 구성 할 수 있습니다 앞으로 우리는 스피드 바카라 방언의 음성 인식 성능 향상을 위해 노력할 것입니다 지역 및 세대 차이로 인해 언어 AI의 성능 저하 문제를 개선하고 지역 조립회에서 몇 분 걸리는 등 다양한 상황에서 사용될 것으로 예상됩니다
모델은 AI 모델 게시 플랫폼 포옹 얼굴 (https : //huggingfaceco/imprt).
스피드 바카라어 스피치 파운데이션 모델 "Izanami"및 "Kushinada"는 AI 모델 게시 플랫폼 Hugging Face (https : //huggingfaceco/imprt).