본문 바로가기

데이터&AI/LLM45

[ LLM 공부] Mixture of Experts (MoE) 쉽게 이해하기! 이번 포스팅은 유튜브 영상을 보고 Mixture of Experts LLM (MoE) 에 대하여 학습한 영상을 정리하고자합니다~~ Mixture of Experts (MoE) 의 정의 MoE 모델은? - 언어 모델을 더 작고 특화된 하위 모델, 즉 전문가 모델들로 분해할 수 있다는 점에 기반을 두고 있다. - 이 전문가 모델들은 각자 특정 부분을 처리하는 데 "특화되어 있어" 전체적인 계산 효율과 자원 할당을 개선 MoE 의 역사는? > 2017년의 'Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer' (by google Brain)에서 시작 논문분석!! - 1 - 원문 URL : https://arxiv.org.. 2024. 4. 12.
AI모델(GPT4)로 그림 및 사진 읽기 with python 오늘은 GPT로 그림및 사진읽기!! 에 대하여 알아보겠습니다!! 사용할 모델은 openai의 GPT 모델인 gpt-4-vision-preview 입니다!! 1. URL 기반으로 그림 읽기!!! target url을 설정하고 해당 이미지를 읽어와서 해석하게합니다!! 아래 URL의 이미지를 읽어보게하겠습니다 https://mblogthumb-phinf.pstatic.net/20110105_214/dapapr_1294200472447D2cs9_JPEG/noname08.jpg?type=w420 import openai openai.api_key = '{내 openai key}' my_image_url = 'https://mblogthumb-phinf.pstatic.net/20110105_214/dapapr_12.. 2024. 3. 26.
일론머스크의 AI, xAI의 오픈소스 LLM 사용해보기 (grok) 2024년 3월 17일!!! 일론머스크가 만든 AI 회사인 xAI에서 초거대 언어모델 grok을 오픈소스로 공개했습니다~!! ㅁ 그록의 간단한 소개 - 파라미터: 3,140억 개 (314B) - 아키텍처: 혼합 전문가 8개(MoE) - 전문가 활용: 토큰 당 2개의 전문가 사용 - 레이어: 64 Architecture: Mixture of 8 Experts (MoE) Experts Utilization: 2 experts used per token - 어텐션 헤드: 쿼리에 48개, 키/값에 8개 - 임베딩 크기: 6,144 - 토큰화: 131,072개 토큰 - 추가 기능: 회전 임베딩 (RoPE): 긴 시퀀스 처리를 위한 효율적인 방법 활성화 분할과 8비트 양자화: 하드웨어 가속을 통한 효율적인 학습과 .. 2024. 3. 19.
OpenAI !! 새로운 text 임베딩 모델 출시 (text-embedding-3) OpenAI에서 저렴한 가격의 새로운 텍스트 임베딩 모델이 출시되어 소개포스팅을 작성하고자합니다! 1. text-embedding-3-small : 작고 효율적인모델 새로운 text-embedding-3-small 모델 : 2022년 12월 출시된 text-embedding-ada-002 모델보다 성능이 크게 향상된 작고 효율적인 텍스트 임베딩 모델 더 강력한 성능: 다국어 검색 벤치마크(MIRACL)에서는 평균 점수가 31.4%에서 44.0%로, 영어 작업 벤치마크(MTEB)에서는 평균 점수가 61.0%에서 62.3%로 증가 더 저렴한 가격: 이전 모델인 text-embedding-ada-002에 비해 5배 저렴한 가격(1,000 토큰당 $0.00002)으로 제공 * 이전 모델인 text-embeddi.. 2024. 2. 17.