LLM모델의 메카 허깅페이스!!
이 Huggingface를 방문해 보면!! 여러 모델들일 확인할 수 있는데요~~
오늘은 이 모델들의 이름을 이해하는 방법에 대하여 알아보겠습니다!!!
가장 대표적인 메타의 llama 모델명으로 알아보아요!!
Llama-3.1-8B-Instruct
위 형식을 보면 4가지로 구성이되어있습니다!!
{모델명}-{버전}-{파라미터수}-{Instruct여부}
1. Llama - 모델명
- 모델명!!! 여기서 Llama는 Meta에서 개발한 대형 언어 모델 시리즈로, 다양한 자연어 처리 작업이 가능하다!!
- 그 외에도 GPT-4 (OpenAI), Claude (Anthropic), Falcon (TII), Mistral (Mistral AI), Grok (xAI), Qwen(알리바바) 등이 있음!!
2. 3.1 - 버전명!!! 따라서 위 모델은 가장 최근 공개된 3.1 모델임을 알수 있습니다
Llama 기준, 이 외에도 LLaMA 1(23.2월), LLaMA 2(23.7월), LLaMA 3(24.4월), LLaMA 3.1(23.7월) 공개됨!!
3. 8B-모델의 파라미터수
- 8B는 8 빌리언으로!! 80억 개의 파라미터를 가지고 있다는 뜻.
- 파라미터 수는 모델의 성능과 연관이 있으며, 더 많은 파라미터를 가진 모델은 복잡한 언어 패턴을 더 잘 학습하고 이해할 수 있습니다.
- 요즘 모델들을 보면 가장 경량화된 1.5B / 만만한 8B / 대규모의 72B 요런식으로 하고있어요!!
4. Instruct!!! 오늘의 핵심!!!!
- Instruct가 있는것이 있고 없는것이 있습니다!!!
- 없는것은!! 일반적인 언어 패턴을 학습하여 모든 종류의 텍스트 생성에 적합한 범용 모델입니다.
- 한편, 있는것( -Instruct ) 은!! 는 사용자 명령에 반응하는 특화된 훈련을 통해, 명령에 더 정확하게 답하거나, 특정 작업을 수행하는 데 최적화된 모델입니다.
- 즉!! chatgpt 같이 대화형을할떄에는 instruct가 더 적합합니다!!
Instruct에 대하여 더 알아보기!!
1. Instruction-tuning이란?
Instruction-tuning은 모델이 사용자 지시나 명령(예: 질문, 명령어 등)에 더 잘 반응하도록 훈련하는 과정을 뜻함!!.
이 과정에서는 모델이 명령어와 그에 따른 응답 쌍으로 이루어진 데이터셋을 학습합니다.
이를 통해 모델은 사용자가 던지는 질문이나 지시를 더 잘 이해하고, 그에 맞는 정확하고 적절한 응답을 생성할 수 있게 됩니다. 즉 대화형으로 더 적합해짐!!
예시: "미국수도가 어디인가요?" 와 같은 질문을 할떄
Instruct 가 아닌 모델은 일반적인 텍스트 예측 모델로서 질문을 단순히 텍스트로 이해하고, 답을 제대로 도출하지 못할 수 있음
하지만, Instruct 모델은 이런 질문에 대해 "미국의 수도는 워싱턴 D.C.입니다"와 같은 정확한 답변을 제공할 수 있습니다. 이는 모델이 명령어와 질문에 답하는 방식으로 훈련되었기 때문
Instruction-tuning의 주요 효과(요약)
- 명령을 이해하고 처리하는 능력이 크게 향상
- 사용자가 명령이나 질문을 던졌을 때 더 직관적이고 정확한 답변을 제공
- 질문-답변, 요약, 작업 지시 등의 상호작용이 필요한 작업에서 더 강력한 성능을 발휘
그럼, instruct 모델이 더 좋은데,, 왜 일반 모델도 있을까??
Instruction-tuning의 단점은??
1. 지시의 품질에 의존 : Instruct 모델은 사용자의 명령이나 지시를 이해하고 처리하는 데 중점을 두기 때문에, 지시가 명확하지 않거나 모호하면 부정확한 결과를 생성할 수 있음!! 불완전하거나 잘못된 지시를 주면, 모델도 그에 따라 잘못된 응답을 제공할 가능성이 큽니다.
2. 일반적인 텍스트 생성 작업에 덜 최적화: Instruct 모델은 주로 지시를 따르는 작업에 최적화되어 있기 때문에, 오히려 일반적인 텍스트 생성에서는 성능이 떨어질 수 있음. 예를 들어, 창의적인 글쓰기나 자유로운 텍스트 생성을 할 때는 일반적인 LLM에 비해 제한된 응답을 제공할 수 있습니다.
3. 추론 능력의 한계 : Instruct 모델이 지시를 잘 따르도록 설계되었지만, 복잡한 추론이나 장기적인 상호작용에서는 한계가 있을 수 있움!! 모델이 명령에 대한 답변을 빠르게 제공하더라도, 심층적인 이해가 필요한 문제나 복잡한 논리적 추론을 요구하는 작업에서는 만족스러운 성능을 보이지 않을 수 있습니다.
4. 훈련 데이터 의존성: Instruct 모델은 Instruction-tuning 과정에서 특정 명령-응답 쌍을 학습하기 때문에, 훈련 데이터의 품질과 다양성에 크게 의존합니다. 훈련된 데이터가 특정 범위나 주제에만 한정되어 있을 경우, 그 밖의 질문이나 지시에 대해서는 적절한 답변을 제공하지 못할 수 있습니다.
5. 자원 소모(만들기 어려움, 사용자입장에선 상관 X) : Instruct 모델은 일반 LLM에 비해 추가적인 훈련 과정이 필요하므로, 더 많은 컴퓨팅 자원과 시간이 소요됩니다. 이로 인해, 모델을 훈련시키거나 업데이트하는 데 더 많은 비용이 발생할 수 있습니다.
일반 모델과 Instruct 모델 한줄 요약!!
일반모델 | -Instruct 모델 | |
훈련 방식 | 일반적인 언어 데이터 학습 | 명령어와 지시에 따른 학습 (Instruction-tuning) |
주요 사용 사례 | 텍스트 생성, 번역, 일반적인 NLP 작업 | 질문-답변, 명령어 처리, 명확한 작업 지시 |
응답의 정확성 | 응답이 다소 모호하거나 일반적일 수 있음 | 명확하고 지시 중심적인 응답 제공 |
상호작용의 성격 | 개방형 질문에 적합 | 명령과 지시를 따르는 작업에 적합 |
'데이터&AI > LLM' 카테고리의 다른 글
Qwen2.5를 사용해보기!!! (feat 한국어실력 확인!! qwen2와의 비교 ) (4) | 2024.10.06 |
---|---|
네가 그렇게 수학을 잘하니? Qwen2.5-Math (feat. 오픈소스 LLM) (2) | 2024.10.04 |
구글!! 쌀아있네!! 오픈소스 gen-AI gemma2의 놀라운 한국어 실력 (feat. ollama) (2) | 2024.08.29 |
[DCLM] 애플의 LLM 모델 사용해보기 (feat. 19금!?) (0) | 2024.08.18 |
[프롬포트엔지니어링]wikipedia 검색해서 gpt로 글쓰기!! (feat. wikipediaapi, 사육신) (1) | 2024.07.14 |
댓글