도쿄 과학 대학교 (Science Tokyo)* 오카자키 이나츠 교수의 연구 팀과 고급 산업 과학 기술 연구소 (AST)의 고급 산업 과학 기술 연구소 (AIST)의 Yokota Rio 교수, 국가 연구 및 개발 기업의 우수한 일본어 언어 기술을 보유하고 있습니다큰 언어 모델(터미널 1) "바카라"시리즈의 최신 버전 인 "Llama 31 바카라"가 출시되었습니다 (공개 링크 참조) 이번에는 80 억매개 변수(항 2, 8b), 각각 70 억 개의 매개 변수 (70b) 크기에 대해베이스 (기본) 모델(터미널 3) 및지시 모델(터미널 4), 총 4 가지 유형의 모델이 출시되었습니다 이 모델은 바카라 31 라이센스에 따라 사용할 수 있으므로 상업용 사용뿐만 아니라 다른 모델의 개선에도 사용할 수 있습니다
Science Tokyo 및 AIST 연구팀은 언어 이해, 세대 및 대화의 능력이 높은 대규모 언어 모델 (Meta 바카라 31, USA)의 많은 능력을 잃지 않고 일본어를 이해, 생성 및 전달하는 능력을 향상 시켰습니다 특히, 80 억 개의 매개 변수 모델은 동일한 크기의 기존 대규모 언어 모델보다 일본의 이해와 세대 기능이 높다는 것이 확인되었습니다 일본어와 영어 모두에서 고성능을 달성하기 위해 연구팀은 학습에 사용되는 일본 웹 코퍼스의 규모와 품질을 높이고 교육 조정 데이터를 자동으로 생성하기 위해 노력했습니다
게시 된 링크 :
https : //바카라-llmgithubio/llama31-바카라jahtml
* 2024 년 10 월 1 일, 도쿄 의료 및 치과 대학 및 도쿄 기술 연구소는 과학 도쿄가되기 위해 합병되었습니다
Science Tokyo 및 AIST 연구팀은 높은 언어 이해, 생성 및 대화 기능을 보여주는 대규모 언어 모델을 구축하는 방법과 메커니즘을 명확히하기 위해 일본어에 저항력이있는 대규모 언어 모델을 목표로 연구 및 개발에 관한 연구를 해왔습니다 2023 년 12 월 연구팀이 발표 한 대규모 언어 모델 바카라는 2024 년 3 월에 발표 된 Swally-MS 및 바카라-MX와 2024 년 7 월에 발표 된 Llama 3 바카라는 많은 사용자로부터 지원을 받았으며 학업 및 비즈니스에 적용되고 있습니다 동시에, 개방형 대규모 언어 모델의 개발은 일본과 해외의 연구 기관과 회사에서 발전했으며, 사전 훈련 데이터의 규모와 품질을 높이고 합성 데이터를 활용하고 대규모 언어 모델 학습 효율성을 향상시키는 등 높은 능력을 보여주는 대규모 언어 모델을 개발하기위한 노하우 연구팀은 또한 일본인의 대규모 웹 코퍼스 (참조 1)를 구축하는 방법을 발표했습니다계속 사전 학습9809_10125
이를 위해, 연구팀은 AI 브리징 클라우드 인프라 (ABCI : AI 브리징 클라우드 인프라, 그림 1)에서 구현 된 "대규모 생성 AI 연구 및 개발 지원 프로그램"으로부터 지원을 받았으며 ABCI (36 고성능 계산 모드를 호출 할 수있는 특정 부분을 차지할 수있는 기회를 가졌다) 또한, 모델 학습 데이터로서, 대규모 일본 웹 코퍼스 (연구 결과 1 참조)는 국가 연구 및 개발 회사의 새로운 에너지 및 산업 기술 개발 기관 (NEDO) 프로젝트에 따라 도쿄 기술 연구소 (현재 도쿄 과학 대학)에 의해 개발되었습니다

그림 1 AI Research Institute AI Bridge Cloud ABCI
1 일본 웹 코퍼스의 더 크고 높은 품질
연구팀에서일반적인 크롤링(6)에서 배포 된 전체 아카이브 (2013 년에서 2023 년 사이에 수집 된 94 개의 스냅 샷)에서 일본어 텍스트를 독립적으로 추출하고 개선하는 일본 웹 코퍼스 (바카라 Corpus 버전 2)를 건설했습니다 이 척도는 바카라 Corpus 버전 1 (참조 1)의 약 4 배이며, 현재까지 바카라 모델을 구성하는 데 사용되었습니다 (코퍼스 구조 시점에 대상이 된 총 웹 페이지 수를 비교 함) 또한 대규모 언어 모델 학습에 적합한 웹 페이지를 신중하게 선택하십시오중복 제거(7)는 코퍼스 개선을 더 쉽게 만들 수 있지만 바카라 Corpus 버전 2에서는이 프로세스 흐름이 역순으로 변경되어 시행 착오를 나중에 수행 할 수 있도록했습니다 이 순서대로 코퍼스를 구축하면 필요한 처리 시간과 저장 용량이 증가하여 복제를 제거하기가 어렵지만 모든 일본 페이지 쌍을 분해하는 데 약 한 달을 소비했습니다 중복 제거 후 일본 웹 페이지의 크기는 32 조 문자 (19 억 페이지)였습니다
바카라 Corpus 버전 1 Hiragana 백분율 및 캐릭터 수와 같은 휴리스틱 규칙을 사용하여 신중하게 선택한 웹 페이지 Llama 31 바카라 모델 구성에서, 우리는 이러한 규칙의 유용성을 조사하고 대규모 언어 모델을 학습에 적합한 규칙 만 선택했습니다 또한 Wikipedia는 대규모 언어 모델에 대한 "교육적 가치"가 높은 것으로 간주되며 웹 페이지의 교육적 가치를 자동으로 추정하는 머신 러닝을 사용하여 분류기를 구축했습니다 수학 및 코딩의 데이터와 함께 이러한 기준을 사용하여 신중하게 선택된 텍스트 데이터를 혼합하여 약 2 천억 개의 토큰으로 구성된 교육 데이터를 형성하는 데 사용되었으며, 이는 LLAMA 31 바카라의 지속적인 사전 학습에 사용되었습니다 그림 2에서 볼 수 있듯이 LLAMA 31 바카라 8B (질문 응답, 번역, 산술, 일반 교육 문제, 코드 생성 등을 포함한 10 개의 작업)에 대한 일본의 이해력 및 세대 작업에 대한 평균 점수는 04905, LLAMA 3 바카라 (04717)의 이전 버전의 평균 점수에서 약 2 점을 올렸습니다 2024 년 10 월)

그림 2 주요 기본 모델에 대한 일본 이해력 및 생성 작업에 대한 평균 점수 (8b 이하)
2 합성 데이터를 통한 개선 된 대화 능력
대규모 언어 모델의 대화 능력을 향상시키는 열쇠는 다양하고 복잡한 지침과 유용하고 유창한 응답으로 구성된 교육 데이터로 지시를 조정하는 것입니다 이상적으로는 대규모 언어 모델에 대한 질문에 대한 데이터를 수집하고 적절한 응답을 제공 한 데이터를 구성하는 것이 바람직하지만, 이는 엄청난 시간과 노력이 필요합니다 연구원들은 대화 기능이 높은 대화 기능이 높은 기존 대규모 언어 모델의 반응을 모방하여 짧고 저렴한 방식으로 교육 데이터를 구성하는 접근 방식을 채택했습니다 구체적으로, 인간과 대규모 언어 모델 간의 상호 작용 이력을 포함하는 LMSYS-Chat-1M 데이터 세트의 지침은 일본어로 번역되었으며, 바카라 31 405B 명령을 사용하여 응답 진술이 자동으로 생성되었으며, 이는 오픈 모델 중에서 가장 높은 수준의 대화를 가지고 있습니다 또한 바카라 31 건설 방법론에 따라 바카라 31 70B 지시에서 자동으로 선호도를 점수하기 전에 여러 응답 문을 생성하는 독창성을 채택하여 최상의 응답 문을 선택했습니다 또한, 중복 지시문, 기계 지시문 및 불필요한 반복이 포함 된 응답을 감지하고 삭제함으로써 데이터 품질이 향상되었습니다
위의 방법을 사용하여 구성된 원래 합성 데이터 외에도 기존 데이터를 사용하고 LLAMA 31 바카라에 대한 지침 조정을 구현했습니다 결과적으로, 대화 능력을 측정하는 일본 MT 벤치에서 LLAMA 31 바카라 8B는 LLAMA 3 바카라 8B Terruct에 비해 평균 점수를 약 56 점 (04766에서 05327)으로 개선하여 8B 이하의 대규모 언어 모델에서 최고 수준의 대화 성능을 달성했습니다 (그림 3) 또한 Llama 3 바카라 지침에는 영어 및 영어 혼합 응답으로 쉽게 응답 할 수있는 문제가 있었지만 모방 대상을 LLAMA 31 405B로 변경함으로써 자동 생성 된 데이터에 포함 된 일본어의 비율을 신중하게 조사했으며 이제는 많은 응답이 일본어로 반환되었습니다

그림 3 주요 명령어 튜닝 모델의 성능 (8B 이하, 일본 이해력 및 세대 작업에 대한 점수 순서)
3 지속적인 사전 학습 중 영어 능력 유지
지속적인 사전 학습을 통해 대규모 언어 모델의 일본어 능력을 강화할 때, 대규모 언어 모델이 원래 가지고있는 능력 (주로 영어를 이해하고 생성하는 능력) 예를 들어, LLAMA 2 7B에서 바카라 7B에서 7B에서 연속적인 사전 학습은 평균 영어 이해력과 세대 작업에서 61 점 감소한 반면 LLAMA 2 70B는 바카라 70B에서 27 포인트 감소했습니다 일본어에서 대규모 언어 모델을 가르치려면 영어 개선 능력이 감소하고 있다고 가정 할 필요가 있지만 산술 추론, 일반 교육 및 코드 생성과 같은 작업은 영어로 얻은 능력이 일본어로 이전 될 수 있으므로 원래 능력을 유지하는 것이 바람직합니다 (참조 2)
LLAMA 31 바카라의 개발을 진행하면서 일반 교육 작업 및 코드 생성 작업의 성능을 향상시키기위한 교육 데이터를 선택했습니다 결과적으로, 우리는 일반 교육 작업에 영향을 미치는 DataComp-Baseline과 같은 데이터 세트와 코드 생성 작업에 영향을 미치는 Stack V2를 채택하기로 결정했습니다 또한 예비 실험에서 최적의 데이터 세트 공식을 탐색했을 때, LLAMA 31 8B에서 LLAMA 31 바카라 8B에 이르는 연속적인 사전 학습은 영어 이해력과 생성 작업의 평균 점수를 06 포인트로 줄였으며, 14 점의 개선은 LLAMA 31 70B에서 라마 31 Swally 70B에서 달성되었습니다 그림 4는 레이더 차트에서 바카라 7B 및 LLAMA 31 바카라 8B의 지속적인 전후 학습 전후의 영어 이해력 및 세대 작업의 점수를 보여줍니다 바카라 7b는 각 작업에 대해 눈에 띄는 점수 감소를 보여주고 LLAMA 31 바카라 8B는 점수 감소를 억제합니다 데이터 세트 선택 및 조합에 대한 이러한 지식은 일본어와 영어에 저항력이있는 대규모 언어 모델을 구축하는 방법을 모색하는 데 중요한 성과입니다

그림 4 영어 이해력 및 생성 작업 점수는 지속적으로 사전 학습 전후에
(왼쪽은 원래 삼키기, 오른쪽은 바카라 31 삼키기)
4 분산 병렬 학습의 처리 속도 향상
대규모 언어 모델 교육은 많은 GPU를 사용하여 분산 병렬 학습을 사용합니다 사용 된 GPU의 수를 늘리면 모델 학습의 전반적인 처리 속도가 더 빠르지 만 GPU 간의 통신은 병목 현상이며 GPU 당 처리 속도 (계산 효율)는 감소하는 경향이 있습니다 따라서 우리는 계산 및 통신을 신중하게 대체하여 계산 효율의 감소를 줄이기위한 노력을 도입했습니다 이 외에도 분산 된 병렬 학습 설정을 재검토하고 LLAMA 31 바카라 학습을위한 최상의 설정을 탐색했습니다 그림 5는 LLAMA 31 바카라 (tflop/s, 8), 즉, 계산 효율이 표시되었다 그림 5에서 볼 수 있듯이Microbatchsize = 2 (9)는 128GPU (16 개의 노드)로 대규모 언어 모델을 학습 할 때 8GPU (1 node)로 학습 할 때 계산 효율 (1849 tflop/s)이 달성 될 수 있음을 확인했습니다
또한 GPU의 수가 증가했을 때 학습을 예기치 않게 중단 할 수있어 대규모 언어 모델의 학습 효율이 감소 할 수 있습니다 LLAMA 31 바카라의 지속적인 사전 학습에서 통신 설정을 조정함으로써 학습이 의도하지 않게 중간에 중단 된 사례의 수를 성공적으로 줄이고 계산 자원 사용의 효율성을 높였습니다

그림 5 ABCI A100 (40GB)의 GPU 수를 늘릴 때 계산 효율성
출판 된 대규모 언어 모델은 학문적으로나 산업적으로 혜택을받는 것으로 여겨진다 자연 언어 처리 및 인공 지능 분야에서 새로운 연구 결과를 창출하는 것 외에도 신뢰할 수있는 인공 지능을 실현하기위한 연구 개발을 촉진 할 것입니다 산업 분야에서는 API를 사용하기 위해 외부 회사에 의존하지 않고도 자신의 대규모 언어 모델을 운영 할 수있을뿐만 아니라 특정 작업을 위해 특화된 모델로 조정할 수도 있습니다 일본어와 영어에 강력하고 개방 된 대규모 언어 모델의 출현은 일본의 대규모 언어 모델의 연구 개발 및 사용을 더욱 촉진 할 것이며, 우리는 제품 개발 및 기술 혁신이 촉진 될 것이라고 생각합니다
AIST 정책 예산 프로젝트 "물리적 영역에 대한 AI 인프라 모델에 대한 R & D,"NEDO (National Research and Robots) (NEDO)의 "차세대 인공 지능 및 로봇 (JPNP18002)의 핵심이 될 통합 기술의 개발", "AI 응용 프로그램의 개발을 기반으로 한 결정의 개발을 기반으로 한 결정의 개발에 대한 의사 결정에 대한 의사 결정에 대한 의사 결정에 대한 의사 결정을 기반으로 한 통합 기술 개발" 사람들, "생성 된 AI 모델의 투명성과 신뢰성을 보장하기 위해"교육 문화, 스포츠, 과학 기술의 보조금 프로젝트 "및 기타 지원을 보장하기 위해 연구 개발 센터를 공식화했습니다
[1] Naoaki Okazaki, Kakeru Hattori, Hirai Shata, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota 및 Sakae Mizuki 큰 언어 모델을위한 대형 일본 웹 코퍼스 구축 안에언어 모델링에 관한 첫 번째 회의 (COLM), 2024 년 10 월
[2] Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota 및 Naoaki Okazaki 클리닝 간 LLM 적응을위한 지속적인 사전 훈련 : 일본어 기능 향상 안에언어 모델링에 관한 첫 번째 회의 (COLM), 2024 년 10 월
[3] Saito Koshiro, Mizuki Sakae, Oi Seiya, Nakamura Yasushi, Shioya Taihei, Maeda Koki, Ma Youmi, Hattori Sho, Fujii Kazuki, Okamoto Takumi, ishigeki 리오, 오카자키 직관 일본어 텍스트를 배우는 LLM의 중요성 정보 처리 협회 261 자연 언어 처리 연구 학회 연구 보고서 (2024-NL-261), 12, pp 1–15, 2024 년 9 월 (우수 연구 상)