도쿄 기술 연구소 (이하 도쿄 기술 연구소라고 불리는)와 오카자키 이나츠 (Okazaki Inatsu)와 요코타 리오 (Okazaki Inatsu)와 요코타 리오 (National Research and Development Corporation) 교수 인 고급 산업 과학 기술 (AIST)은 우수한 일본어 기술의 재단입니다큰 언어 모델"Swallow"가 게시되었습니다 (공개 링크) 이 모델은 현재 일본어에 사용할 수있는 가장 큰 바카라 커뮤니티 언어 모델이며 개방되어 있으며 상업적 목적으로 사용될 수 있으므로 비즈니스 용도로 안전합니다
Tokyo Institute of Technology and AIST의 연구팀은 영어 포괄적 및 대화에서 높은 능력을 가진 바카라 커뮤니티 언어 모델 (Meta Llama 2, USA)의 일본어 능력을 확장하여 "삼키기"를 구축했습니다 확장 전에 바카라 커뮤니티 언어 모델의 높은 언어 처리 기능을 유지하면서 일본어 기술을 강화하기 위해 연구팀은 일본어 문자와 단어를 포함하는 언어 모델을 만들었습니다어휘를 추가하십시오 그리고 새로 개발 된 일본 데이터를 사용하여 모델을 계속 구축하십시오계속 사전 학습수행되었습니다 이번에는 매개 변수 수가 70 억입니다매개 변수(7b), 130 억 파라미터 (13b) 및 70 억 파라미터 (70b)가 해제되었습니다
공개 링크 :
https : //tokyotech-llmgithubio/
Openai의 Chatgpt 및 GPT-4, Google의 Palm 2 및 Gemini와 같은 바카라 커뮤니티 언어 모델의 R & D가 빠르게 발전하고 있습니다 많은 동기로 인해 자연 언어 처리 및 인공 지능의 연구 및 개발 촉진, 바카라 커뮤니티 언어 모델의 메커니즘, 해외 국가에 대한 의존성으로 인한 보안 위험에 대한 우려, 신뢰할 수있는 인공 지능으로 인한 보안 위험에 대한 우려와 같은 많은 동기는 일본어로 강력한 바카라 커뮤니티 언어 모델을 개발하게되었습니다 따라서 도쿄 기술 연구소 및 AIST는 바카라 커뮤니티 언어 모델 개발에 대한 공동 연구를 시작했습니다 이 협업 연구에서 도쿄 기술 연구소 (Institute of Technology)는 주로 데이터 어휘를 확장하여 모델 학습 및 추론 효율성을 향상시키는 데 관여했으며, AI Institute of Technology는 ABCI (Bridging Cloud Infrastructure)를 모델 구성에 필수적인 바카라 커뮤니티 컴퓨팅 리소스로 제공했으며 지속적인 학습을 통해 일본어 언어 능력을 개선하는 데 주로 책임을졌습니다 또한,이 모델에 대한 교육 데이터로서, NEDO (National Research and Development Agency of New Energy and Industric Technology)의 프로젝트에 대한 도쿄 기술이 개발 한 바카라 커뮤니티 일본 웹 코퍼스 (연구 결과 3 참조)가 사용되었습니다 이 성과의 일부는 National Information and Institute of Information and Institute of Information and Systems Research (이하 "NII"라고 함), AIST, 도쿄 기술 연구소, NII (LLM Research and Development Teams, Tokyo University, Tokyo University, Waseda University 등)에 의해 공동으로 제안하고 채택한 "바카라 커뮤니티 재단 모델 건설 지원 프로그램"을 기반으로합니다 AIST ABCI의 특정 부분 (노드라고하는 고성능 컴퓨팅 노드)의 특정 부분을 최대 60 일 동안 점유하고 사용하십시오

그림 1 AI Research Institute AI Bridge Cloud ABCI
1 지속적인 사전 연구는 LLAMA2의 일본 능력을 크게 향상 시켰습니다
미국의 Meta AI가 개발 한 Llama 2 시리즈는 개방적이고 고성능 바카라 커뮤니티 언어 모델로서 전 세계에서 지원을 받고 있습니다 또한 일본어를 포함한 여러 언어의 데이터를 사용하여 학습되므로 Llama 2는 일본어도 지원합니다 그러나 영어는 LLAMA 2의 사전 훈련 데이터의 약 90%를 차지하며 일본의 비율은 전체의 약 010%에 불과합니다 따라서 영어로 된 라마 2의 고성능에도 불구하고 일본어를 읽고 쓰는 데 열악한 약점이있었습니다
따라서 연구팀은 7B, 13B 및 70B의 LLAMA 2 모델을 기반으로 9 : 1의 바카라 커뮤니티 일본 웹 코퍼스와 영어 코퍼스를 결합한 데이터와 함께 지속적인 사전 학습을 수행했으며 원래 언어 모델의 능력을 활용하면서 일본어 능력을 향상시키는 것을 목표로했습니다 결과적으로, 일본어 사용 된 일본의 벤치 마크 데이터에서 7b, 13b 및 70b 모델 모두 기본 모델보다 성능이 향상되었습니다 또한 일본 코퍼스 만 사용하여 동일한 크기의 바카라 커뮤니티 일본어 모델 프리 러닝보다 성능이 높아짐에 따라 지속적인 사전 학습의 효과가 명확 해졌습니다
2 어휘 확장을 통한 바카라 커뮤니티 언어 모델의 학습 및 추론 효율성 향상
llama 2,바이트 VS 인코딩텍스트 기반토큰에 의해 별도로 분리됩니다 그러나 라마 2는 영어를 강조하는 다국어 모델로 배우기 때문에 일본의 주요 단어와 문자는 어휘에 포함되지 않으며 텍스트는 때때로 부 자연스러운 단위로 분리 될 수 있습니다 예를 들어, 7 글자 텍스트 "나는 고양이"는 인간이 이해하기 어려운 13 개의 토큰으로 나뉩니다 Kanji 캐릭터 "I", "Ji"및 "Neko"가 어휘에 포함되지 않기 때문입니다물린 폴백이 Kanji는 UTF-8 문자 코드의 바이트로 나타납니다
일본어 어휘가 부족한 언어 모델은 일본어를 부 자연스러운 단위로 처리하고 더 많은 토큰으로 텍스트를 표현하여 학습 및 생성의 효율성을 줄입니다 바카라 커뮤니티 언어 모델을 훈련시키는 데 필요한 계산 예산은 토큰 수에 비례하므로 반면에 계산 예산이 일정한 조건 하에서는 토큰이 적은 텍스트를 표현하여 학습에 더 많은 정보를 제공 할 수 있습니다 또한, 바카라 커뮤니티 언어 모델이 텍스트를 생성하는 데 필요한 시간이 토큰 수에 비례하기 때문에, 동일한 텍스트를 생성하려면 더 적은 수의 토큰으로 표현할 수있는 경우 더 짧은 시간 내에 결과를 출력 할 수 있습니다 또한, 한 번에 처리 할 수있는 바카라 커뮤니티 언어 모델의 입력 및 출력에는 상한이 있습니다 더 적은 토큰으로 입력을 표현할 수 있다면 더 많은 작업 지침 및 솔루션 (몇 가지 예제)을 포장 할 수 있으며, 이는 다운 스트림 작업의 성능을 향상시킬 것으로 예상됩니다 연구원들은 LLAMA 2 토큰 화기에 16,000 개의 일본 토큰을 추가하여 일본어 텍스트의 토큰 길이를 562%로 줄였습니다
3 바카라 커뮤니티 일본 웹 코퍼스 개발
바카라 커뮤니티 언어 모델을 배우려면 엄청난 양의 언어 데이터가 필요합니다 이 중 웹 페이지를 수집하고 텍스트를 변환하여 얻은 데이터는 바카라 커뮤니티 언어 모델을 구성하는 데 핵심입니다 전통적으로 CC-100, MC4 및 Oscar와 같은 기존 데이터 세트의 일본 부분은 일본의 바카라 커뮤니티 언어 모델을 배우는 데 사용되었습니다 그러나 이러한 데이터 세트는 HTML을 웹 페이지에서 텍스트로 변환 할 때 노이즈가 혼합되고 최신 정보와 지식이 포함되어 있지 않다는 문제가 있습니다 또한, 이들은 다국어 데이터 세트로 구성되기 때문에 데이터의 품질을 향상시키기 위해 일본어 전문화를위한 노력은 채택되지 않았습니다
So, Research Team일반적인 크롤링(2020 년에서 2023 년 사이에 수집 된 21 개의 스냅 샷, 약 634 억 페이지)와 약 1 억 3,21 억 명의 문자 (약 1 억 7,300 만 페이지)로 구성된 일본 웹 코퍼스가 있습니다 이 척도는 CC-100 (약 258 억 명), MC4 (약 2,397 억 명의 문자) 및 Oscar 2310 (약 740 억 문자) 의이 척도는 일본어 모델 학습 코퍼스에서 상업적으로 가장 많이 사용할 수 있습니다
바카라 커뮤니티 언어 모델의 세계화가 증가함에 따라 일본어를 처리 할 수있는 능력이 높은 사람은 거의 없었지만,이 모델이 출시되면 대화 시스템과 같은 AI 기술의 사용은 일본 생활과 일본식 처리가 필요한 산업 환경에서 더 많은 상황에서 홍보 될 수 있습니다 이번에 출시 될 Swallow 라이센스는 LLAMA 2의 LLAMA 2 커뮤니티 라이센스를 상속받으며 라이센스를 준수하는 한 연구 및 상업적 목적으로 사용할 수 있습니다
Llama 2의 공식 정보 라이센스 :https : //aimetacom/llama/license/
출판 된 바카라 커뮤니티 언어 모델은 학문적으로나 산업적으로 혜택을받는 것으로 여겨진다 학술 분야에서는 일본어의 바카라 커뮤니티 언어 모델의 표준으로 연구 개발에 사용되며 자연 언어 처리 및 인공 지능 분야에서 새로운 연구 결과가 생성 될 것이며 신뢰할 수있는 인공 지능을 실현하기위한 연구 개발을 촉진 할 것입니다 산업 분야에서는 API 사용을 위해 외부 회사에 의존하지 않고 바카라 커뮤니티 언어 모델을 사내에서 운영 할 수있을뿐만 아니라 특정 작업을위한 전문화 된 모델에 조정할 수도 있습니다 일본에 강력하고 개방 된 바카라 커뮤니티 언어 모델의 출현으로 일본의 바카라 커뮤니티 언어 모델의 연구 개발 및 사용을 더욱 촉진 할 것이며, 제품 개발 및 기술 혁신이 촉진 될 것입니다
이것은 AI 브리징 클라우드 인프라 (ABCI)의 "바카라 커뮤니티 언어 모델 구성 지원 프로그램"을 통해 구현되었으며 AI Research Institute가 구축하고 운영하는 ABCI (Abci)와 "Energy and Institute의 지점을 기반으로 설계 위험 평가 작업의 구성을 지원하기위한 AI 응용 기술 개발"(NEDO)의 개발 (NEDO)의 개발은 "S 전문가의 관점에 근거한 설계 위험 평가 작업 "및 기타 지원