게시 및 게시 날짜 : 2008/10/08

인터넷에서 출시 된 멀티미디어 탐색을위한 음성 실시간 바카라 사이트 시스템

-사전, 문법 및 언어에 대한 제한없이 음성 실시간 바카라 사이트을위한-

포인트

  • 음성 세그먼트와 빠른 일치 처리로 음성을 분해하고 인코딩하여 사전 등록과 같은 유지 보수없이 새로운 컨텐츠를 실시간 바카라 사이트 할 수 있습니다
  • 일반적인 브라우저 화면에서 직접 실시간 바카라 사이트 할 수있는 사용자 인터페이스 개발
  • 멀티미디어 및 기타 오디오 정보를 집이나 직장에서 효율적으로 실시간 바카라 사이트 할 수 있습니다

요약

독립 행정 기관, 독립 산업 과학 및 기술 연구소 [Yoshikawa Hiroyuki의 회장] 정보 기술 연구 부서 [연구 부서 Sekiguchi Tomotsugu의 수석 세키구치 토모츠 구] 음성 정보 처리 그룹 [Kojima Hiroaki] LEE HIROAKI를 통해 직접 실시간 바카라 사이트하는 기술을 개발 한 기술을 개발 한 음성 정보 처리 그룹 [연구 부서 Sekiguchi Tomotsugu] 음성 실시간 바카라 사이트 시스템을위한 데모 사이트입니다 (http : //wwwvoiserjp)가 게시되었습니다

이 시스템은 인터넷의 비디오 사이트 및 오디오 사이트와 같은 멀티미디어 컨텐츠에 포함 된 오디오를 직접 실시간 바카라 사이트하고 콘텐츠에서 키워드를 실시간 바카라 사이트 할 수 있습니다사전를 사용할 필요가 없으며 모든 단어를 무제한 키워드로 사용할 수 있다는 이점이 있습니다 이것은 가능했습니다음성 인식사용을 위해 고유 한 연구가 수행되었습니다유니버설 코드이것은 혁신을위한 기술입니다 이 시스템은 오디오를 "Phosphemelement (sps :서브 포도이트 세그먼트)"라는 미세 단위로 분해되어 인코딩됩니다 이 인코딩 된 Phoneme 세그먼트에서 고유 한 고속 실시간 바카라 사이트 프로세스를 수행함으로써 실제 실시간 바카라 사이트 성능을 달성했습니다 이를 통해 새로운 적절한 명사 및 새로운 단어를 포함하여 많은 양의 멀티미디어 컨텐츠를 실시간으로 실시간 바카라 사이트하여 유지 보수없이 실시간으로 실시간 바카라 사이트 할 수 있습니다 이 기술을 구현함으로써 사용자는 필요한 멀티미디어 정보를 효율적으로 실시간 바카라 사이트하여 지금까지 완전히 활용되지 않은 방대한 양의 멀티미디어 컨텐츠에서 새로운 가치를 창출 할 수있는 가능성을 확장 할 수 있습니다

이 결과는 AIST Open Lab에서 공개 될 예정이며, 2008 년 10 월 20 일부터 21 일까지 AIST Tsukuba Center에서 개최 될 예정입니다

음성으로 인터넷에서 비디오 컨텐츠를 실시간 바카라 사이트하기위한 그림 시스템

인터넷에서 오디오를 통해 비디오 컨텐츠를 실시간 바카라 사이트하는 시스템
(http : //wwwvoiserjp)


개발의 사회적 배경

전 세계에 존재하는 텍스트 정보 및 멀티미디어 정보와 같은 데이터의 양은 크게 증가했으며 2007 년 말 약 250exabyte에 도달했다고합니다 그중에는 인터넷에서 사용할 수있는 엄청난 양의 정보가 있으며, 필요한 정보를 감지하고 효과적으로 활용하기 위해 분류, 분석 및 실시간 바카라 사이트 기술이 증가하고 있습니다 텍스트 데이터와 관련하여 상업용 전체 텍스트 실시간 바카라 사이트 서비스가 인기를 얻었으며 텍스트 정보를 사용하는 편의성이 크게 증가했습니다

그러나 비디오와 같은 멀티미디어 컨텐츠와 관련하여 인터넷에서 비디오 스트리밍 사이트와 집에서 대규모 용량 레코딩 장치의 스프레드에도 불구하고 정보의 양은 극적으로 증가했지만 사용자가 원하는 정보를 실시간 바카라 사이트하려고 할 때 현재 장르 및 요약에 수동 추가입니다태그 정보에 의존하여 실시간 바카라 사이트하는 것 외에는 선택의 여지가 없었으며 효율적인 실시간 바카라 사이트을 어렵게 만듭니다 이러한 문제를 해결하기 위해 멀티미디어 컨텐츠에 포함 된 오디오를 기반으로 실시간 바카라 사이트이 수행됩니다음성 실시간 바카라 사이트 기술에서 관심이 커지고 있습니다

연구 이력

음성 실시간 바카라 사이트 기술로서큰 어휘 연속 음성 인식그런 다음 전체 텍스트 실시간 바카라 사이트을 수행하지만 음성 인식 중에 오해와 인식에 대한 문제가 있습니다 새로운 단어, 알려지지 않은 단어, 적절한 명사 등에 대한 인식 단어 사전에 포함되지 않습니다 이를 다루는 한 가지 방법은 AIST의 정보 기술 연구 부서가 방법을 사용하여 어휘를 추가하고 사용자의 협력을 통해 인터넷을 통해 인식 결과를 수정하는 것입니다Podcastle(Podcastle) "시스템이 발표되었습니다 (발표가 발표되어 2008 년 6 월 12 일)

반면에,이 연구에서는 큰 어휘 음성 인식을위한 프레임 워크 대신 사운드가 인코딩 된 다음 사전 문제를 해결하기 위해 일치하는 기술이 채택되었습니다 사운드를 표현하는 코드는 일반적으로 사용되는 음소와 같은 로마 알파벳 표기법에 해당하는 단위로 사용되지 않고 1980 년대 이후 1980 년대 이래로 1980 년대 이후 Tsukuba의 대학 교수가 독립적으로 연구 해 온 음소 세그먼트를 기반으로 한 보편적 코드를 사용합니다 또한 ITO Yoshiaki (현재 Iwate Precepctural University의 부교수)와의 공동 연구를 통해 우리는 더 빠른 일치 알고리즘을 만들고 있습니다

이번에는이를 통합하여 일반적인 브라우저에서 액세스 할 수있는 실용적인 멀티미디어 실시간 바카라 사이트 시스템을 생성했습니다

연구 컨텐츠

이 연구에서 우리는 음소 세그먼트 (SPS)를 기반으로 정의 된 "범용 코드 시스템"을 설계했는데, 이는 언어 정보를 음소보다 더 상세하게 유지하는 가장 작은 단위로 고안되었습니다 이 가장 작은 장치를 기본으로 사용하면 실시간 바카라 사이트 처리 중 정확도 악화가 억제되어 사전없이 실시간 바카라 사이트이 가능합니다 실시간 바카라 사이트 대상 데이터베이스와 실시간 바카라 사이트 키워드는 모두 범용 코드 시스템으로 변환되며 코드 간 일치하는 것이 정량화되고 일치합니다 또한 처리 방법을 일치시키기위한 고속 처리 알고리즘을 개발했습니다 이를 통해 단어 등록이 필요하지 않은 "어휘가없는"실시간 바카라 사이트 시스템을 실현했습니다

또한 사전은 전통적인 음성 인식에 필수적이기 때문에 처리 할 언어에 크게 의존했지만 보편적 코드 시스템은 국제적인 발음 기호를 기반으로 음소 적으로 정의되므로 언어 독립적 기술입니다 따라서 여러 언어와 방언에 쉽게 적용 할 수 있습니다 과거와 마찬가지로 텍스트뿐만 아니라 음성으로 실시간 바카라 사이트어를 입력 할 수 있습니다 이 기능을 사용하면 키보드를 입력하는 데 어려움이있는 노인 및 장애인과 같은 정보가 열악한 사람들에게도 쉽게 액세스 할 수있는 멀티미디어 정보 서비스를 제공 할 수 있습니다

그림 1 은이 연구에서 개발 된 새로운 음성 인식 및 실시간 바카라 사이트 기술을 사용하여 인터넷에서 멀티미디어 컨텐츠의 컨텐츠를 만들기 위해 개발되고 게시 된 멀티미디어 배포 시스템의 구성을 보여줍니다

음성으로 인터넷에서 비디오 컨텐츠를 실시간 바카라 사이트하기위한 그림 시스템

그림 1 : 오디오 및 텍스트를 사용하여 인터넷에서 비디오, 오디오 등을 실시간 바카라 사이트하기위한 시스템 구성

또한 그림 2의 음성 실시간 바카라 사이트 기술의 또 다른 예로서 왼쪽의 화면은 AIST의 홍보 비디오에 대한 발음 수준 실시간 바카라 사이트어 "Sansouken"을 입력하여 실시간 바카라 사이트 결과를 보여줍니다 실시간 바카라 사이트어가 후보 실시간 바카라 사이트 결과로 발언 된 시간에 해당하는 비디오를 표시하면보고 싶은 장면을 쉽게 찾을 수 있습니다 오른쪽의 화면은 전화가 전화로 녹화 된 음성에서 키워드를 입력하여 녹음 된 핀 포인트 라인을 실시간 바카라 사이트하고 호출 정보 및 음성 파형을 표시하면서 오디오를 재생하는 화면입니다 실제 목소리를 실시간 바카라 사이트하고들을 수 있으므로 진술의 내용을 쉽고 정확하게 확인할 수 있습니다

인터넷에서 오디오로 비디오 컨텐츠를 실시간 바카라 사이트하는 시스템 화면

호출 녹음 데이터에서 특정 통화 콘텐츠가 감지 된 예제

그림 2 (볼륨) 멀티미디어 컨텐츠에서 오디오에 의존하여 특정 장면을 감지하는 예
(하단) 호출 녹음 데이터에서 특정 통화 컨텐츠 감지의 예

이 기술의 기능은 다음과 같이 요약 될 수 있습니다

  1. 사전을 필요로하지 않고 등록되지 않은 단어 문제 해결
  2. 여러 언어를 지원하기 쉬운
  3. 방언 및 비 천연 스피커에 사용할 수 있습니다
  4. 큰 어휘 사전이 필요하지 않기 때문에 컴팩트 시스템
  5. 노인 및 장애인과 같은 약한 정보를 가진 사람들에게도 쉽게 액세스 할 수 있습니다
  6. 일반 브라우저에서 사용할 수 있습니다

    이러한 기능을 통해 음성 실시간 바카라 사이트 기술의 유지 보수 문제를 해결하고 실용적으로 다목적 성을 높이고 광범위한 응용 프로그램에 적용 할 수있게되었습니다

미래 계획

앞으로, 우리는 사용자가 광범위한 방식으로 테스트를 사용하도록 장려함으로써 효과를 계속 검증하고 실제 사용을 향상시킬 것입니다 또한 시연 시스템의 결과를 활용 함으로써이 연구에서 개발 된 음성 실시간 바카라 사이트 기술을 개선 할 계획이며 멀티미디어 분류 및 요약과 같은 기존의 텍스트 기반 음성 실시간 바카라 사이트 기술 및 기술을 통합하여보다 실용적인 멀티미디어 실시간 바카라 사이트 기술을 개발할 계획입니다 또한,이 계획은 데모 시스템을 통해 다양한 분야로부터 평가 내용을 제공하고 정보를 연구 및 개발에 다시 공급함으로써 실제 사용을 촉진하는 것입니다

이 기술의 적용, 인터넷 및 가정 외에도이 기술은 콜센터, 방송 및 교육의 콜 레코딩 시스템의 음성 실시간 바카라 사이트 기능을 포함하여 광범위한 응용 프로그램을 가질 것으로 예상되며, 이는 많은 양의 멀티미디어 컨텐츠를 보유하고 있으며 판매 및 배포합니다


터미널 설명

◆ 사전
이것은 음성 인식 대상이되는 단어 목록입니다 그것은 단어와 발음을 묘사하는 일련의 음소와 발음 상징으로 구성됩니다 일반적으로 인식 시스템이 인식 할 수있는 모든 단어 (사람 이름과 적절한 명사 포함)를 포함해야합니다[참조로 돌아 가기]
◆ 음성 인식
컴퓨터는 인간이 사용하는 단어를 분석하고 음성 언어 내용을 문자 텍스트 (예 : 일본 Kana Kanji 문장과 같은 출력)로 변환합니다 또는이 기술에는 말하는 컨텐츠의 의도에 따라 장치 운영 (예 : 로봇 명령)과 같은 처리를 수행하는 것이 포함됩니다[참조로 돌아 가기]
◆ 유니버설 코드
국제 발음 기호 (IPA :국제 음성 알파벳)를 기반으로,이 코드는 음성 인식을위한 기술 처리에 적합하도록 확장 되었으며이 연구 및 개발에서 다음 SPS 코드 시스템을 나타냅니다[참조로 돌아 가기]
◆ Phosem Fragment (sps :서브 포나이티 세그먼트)
그것은 보컬 단위로 사용되는 상징적 시스템 중 하나입니다 사운드 특성은 많은 현재 시스템에서 사용되는 음소 기호보다 짧으며 음향 특성으로 컴팩트하여 사운드의 특성을 반영하여보다 정확한 표현을 허용합니다[참조로 돌아 가기]
◆ Exabyte
데이터 용량을 나타내는 단위 중 하나 킬로 바이트 (KB, 103), 메가 바이트 (MB, 106), 기가 바이트 (GB, 109), Terabytes (TB, 1012), 페타 바이트 (PB, 1015), exabyte (eb, 1018)[참조로 돌아 가기]
◆ 태그 정보
이것은 비디오, 오디오 및 비디오의 내용에 관한 정보를 설명하고, 방송 시간, 공연자, 플롯 시니피스 등의 방송 시간, 공연자, 플롯 시니피스 등의 음악 파일 및 TV 프로그램에 대한 아티스트 이름, 앨범 이름, 릴리스 날짜 등의 내용을 이해하고 정보를 구성하는 데 도움이되는 텍스트 데이터입니다[참조로 돌아 가기]
◆ 음성 실시간 바카라 사이트 기술
오디오가 포함 된 컨텐츠에서 실시간 바카라 사이트하려는 발화 오디오가 포함 된 부품을 추출하는 기술 멀티미디어 컨텐츠에서 정보를 실시간 바카라 사이트하기위한 기술에 대한 사회적 요구가 커지면서 많은 연구 프로젝트가 수행되었지만 사전은 많은 전통적인 방법에 필수적이었습니다[참조로 돌아 가기]
◆ 큰 어휘 연속 음성 인식
수만 단어의 대규모 어휘를 포함한 음성 인식은 자동 설명 시스템과 같은 연속적인 연설을위한 것입니다 이 목적을위한 시스템은 일반적으로 음향 특징이 음소 단위로 모델링되는 음향 모델, 단어간에 단어가 작성되는 단어 사전 및 단어 간의 연결에 대한 지식을 설명하는 언어 모델로 구성됩니다[참조로 돌아 가기]

관련 기사


문의

연락처 양식