정보마당

현대엔지비가 제공해 드리는 소식을 만나 보세요

  1. 홈으로
  2. 정보마당
  3. 모빌리티 트렌드

모빌리티 트렌드

일본 Turing, 복수 언어에 대응하는 멀티모달 학습 라이브러리 공개

  • 작성일

    2023-09-14
  • 조회수

    506

0

자율주행차를 개발 및 판매하는 Turing은 9월 7일, 일본어 등의 복수 언어에 대응하는 멀티모달(Multimodal, 텍스트나 이미지, 동영상 등 여러 종류의 데이터를 한번에 처리할 수 있는 기술)한 학습 라이브러리 “Heron”을 공개했다. 소스 코드의 라이선스는 Apache License 2.0으로 연구 및 상용 이용이 가능하다.

더불어 최대 700억 파라미터의 학습이 완료된 모델군 등도 공개하고 있다.

                    
▲ 멀티모달 학습 라이브러리 “Heron”

 

대규모 언어 모델(LLM)은 대량의 텍스트 데이터를 학습에 사용함으로써 폭넓은 지식과 인간과 같은 응답이 가능하다. LLM에 대한 입력(혹은 출력)은 일반적으로 텍스트에 한정되기 때문에, 이미지 등을 직접 이용할 수 없다는 문제가 있다. 이를 해결하기 위해 이미지와 언어 등의 복수의 입력 소스를 취급하는 것을 “멀티모달”이라고 부른다.

Heron은 각 모듈을 추가 학습하기 위한 학습 코드와 일본어를 포함한 데이터셋, 학습이 완료된 모델군으로 구성된다. 이미지 인식 모델과 대규모 언어 모델(LLM)을 연결해서, 이미지를 입력에 사용할 수 있게 된다. 예를 들어, Heron으로 학습한 AI 모델은 이미지에 어떤 것이 포함되어 있는지 정확하게 파악하면서 앞 질문을 포함한 문맥을 이해하면서 이미지에 대해 대답할 수 있다.

Heron의 학습 라이브러리에서는 학습하는 LLM을 자유롭게 변환할 수 있다. Turing은 “기존 언어 모델의 성능을 활용하면서 향후 개발 및 공개되는 새로운 LLM에 대해서도 쉽게 대응할 수 있는 유연성이 있다”고 설명했다.

공개 중인 학습이 완료된 모델군은 “Llama 2-chat(700억 파라미터)”, “ELYZA-Llama 2(70억 파라미터)”, “Japanese StableLM(70억 파라미터)” 등을 베이스로 Heron으로 추가학습하고 멀티모달화 시킨 것이다. 이들 모델은 데모 페이지도 웹으로 공개하고 있다.

그 밖에도 주석 텍스트나 Q&A로 구성되는 약 15만 장의 이미지 및 텍스트의 영문 데이터셋을 독자적으로 일본어 번역한 일본어 이미지 및 텍스트 정보의 데이터셋도 공개했다. Turing은 “대화형식의 멀티모달 학습용 대규모 일본어 데이터셋의 공개는 세계 최초”라고 설명했다.

자율주행차를 개발하는 Turing이 멀티모달 AI를 개발한 이유는 무엇일까. Turing은 “완전 자율주행을 실현하려면 사람과 동등한 수준 이상으로 이 세계를 이해한 자율주행 AI가 필요하다고 생각하고 있다”고 개발 배경을 설명했다.

이번에 공개한 멀티모달 모델의 학습 기술과 노하우를 활용해서 완전 자율주행 기술 개발을 추진할 방침이다


목록