chatGPT로 부터 시작된
초거대 언어모델 경쟁!!
Meta의 LLaMa, Google의 Palm
그리고 이로 부터 파생된 Alpace, Falcon 등 여러 LLM 모델들이 공개되고있는데요!
2023.04.12 - [일등박사의 생각/데이터분석] - GPT를 On-premise에서 사용하고 싶을때는??
각각의 모델들은 서로가 자기들의 성능이 좋다며
여러 지표로서 그 의미를 증명합니다!!
>> 여러 LLM 평가 예시들!!
그렇다면 이런 LLM 평가 지표들의 구체적인 계산 방식은 어떻게될까요!?
1. MMLU
MMLU는 "Multitask Multi-modal Language Understanding"의 약자
MMLU는 57개의 일반 지식 영역을 세분화된 카테고리로 분류하여 구성되어 있습니다.
각 카테고리에는 4개의 객관식 질문이 포함되어 있으며
이러한 질문에 얼마나 정확하게 답변하는지를 평가하여 성능을 측정합니다.
> 객관식 질문의 예시 (계량경제학 부분)
Q: 에임스는 벨의 집을 $2,000 지불되는 계약 하에 페인트칠을 했습니다. 벨은 현관이 제대로 페인트되지 않았다고 선량하게 주장하여 어떤 금액도 지불하지 않기로 결정했습니다. 6월 15일에, 에임스는 벨에게 "돈이 급해. 7월 1일 전에 $2,000을 보내주세요."라는 내용의 편지를 우편으로 보냈습니다. 6월 18일에 벨은 "6월 18일 편지에 따라서 $1,800으로 합의하겠다. 다만 현관을 다시 페인트하는 것에 동의해야 한다."라는 답장을 보냈습니다. 에임스는 이 편지에 대한 답장을 하지 않았습니다. 그 후 벨은 "Ames-Bell 페인팅 계약에 따른 6월 18일 편지에 따라 $1,800로 완전 지불"이라고 표시된 수표를 6월 30일에 우편으로 보냈습니다. 에임스는 이 수표를 6월 30일에 받았고 급한 돈이 필요했기 때문에 이의를 제기하지 않고 현금화했습니다. 그러나 현금화한 후에도 현관을 다시 칠하지 않고 거부했습니다. 수표 현금화 이후에 에임스는 벨을 $200에 대해 고소했습니다. 에임스가 아마도
A: 아래 4개중 택1
["에임스가 명세에 따라 현관을 페인트했음을 증명할 수 있다면 성공할 것입니다.", "경제적 위기 상태에서 수표를 현금화했기 때문에 성공할 것입니다.", "이의를 제기하지 않고 수표를 현금화했기 때문에 성공하지 못할 것입니다.", "그의 서비스의 합리적 가치만을 회수할 권리가 있기 때문에 성공하지 못할 것입니다."]
>> 질문들 자세히 보기
https://huggingface.co/datasets/Stevross/mmlu
2. HellaSwag
LLM의 자연어를 생성하는 능력을 평가하는 벤치마크
HellaSwag은 의도적으로 유머러스하거나 도전적인 텍스트를 생성하도록 설계된 질문으로 구성
질문은 아래와 같은 특징이 있습니다
- 유머러스하거나 도전적입니다. 질문은 재미있거나 재치있거나 도전적이어야 합니다.
- 개방형입니다. 질문은 하나의 정답이 없으며, 다양한 답변이 가능해야 합니다.
- 창의적입니다. 질문은 LLM의 창의성을 테스트해야 합니다.
예시질문!!
질문: 그 후, 남자는 차량 창문을 덮고 있는 눈 위에 글을 씁니다. 그리고 겨울 옷을 입은 여성이 미소를 지으면서,
답변: 4지선다
[ "남자는 차량 앞유리에 왁스를 발라서 자르기 시작합니다.", "한 사람이 스키 리프트에 탑승하는 동안 두 남성은 겨울 옷을 입은 사람의 머리를 지지하면서 여자들은 썰매를 탑니다.", "남자는 크리스마스 코트를 입고, 그것은 그물망으로 짜여져 있습니다.", "남자는 자동차의 눈을 계속 제거합니다." ]
https://arxiv.org/abs/1905.07830
https://huggingface.co/datasets/Rowan/hellaswag?row=0
3. LAMBDA
LLM이 자연어를 이해하고 사용하는 능력을 평가하는 벤치마크
LAMBADA는 다양한 유형의 텍스트를 생성, 번역, 요약, 질문에 답하는 등의 작업을 수행하도록 요청하는 질문으로 구성
4. WebQuestions
LLM이 웹에서 정보를 찾고 이해하는 능력을 평가하는 벤치마크
WebQuestions는 웹에서 정보를 찾고 질문에 답하는 등의 작업을 수행하도록 요청하는 질문으로 구성
질문예시.
- "파리에서 런던까지 가는 가장 빠른 방법은 무엇입니까?"
- "프랑스 대통령의 이름은 무엇입니까?"
- "지구의 둘레는 얼마입니까?"
5. Winogrande
LLM이 자연어를 이해하고 추론하는 능력을 평가하는 벤치마크
Winogrande는 추론을 요구하는 질문으로 구성
질문의 예
- "소나무는 잎이 많을수록 더 많은 물을 흡수할 수 있습니까?"
- "미국의 수도는 워싱턴이지만, 워싱턴은 미국의 주 중 하나이기도 합니다. 워싱턴은 미국의 주 수도입니까?"
- "소금은 물에 녹으면 부피가 늘어납니다. 소금물이 물보다 부피가 큰 이유는 무엇입니까?"
6. PIQA
- 브러시 없이 아이섀도를 바르려면 면봉을 사용해야 할까요?, 아니면 이쑤시개를 사용해야 할까요?
이러한 물리적 상식을 필요로 하는 질문은 현재의 자연어 이해 시스템이 어려워합니다!!
최근 사전 훈련 모델(BERT 등)은 보도 기사 및 백과사전 항목과 같은 추상적인 도메인에서의 질문 응답에 대한 발전을 이루었습니다.
그러나 더 물리적인 분야에서는 답변 수준이 제한되어 있습니다.
이런 물리적 상식 질문에 신뢰성 있게 답할 수는 지를 확인하는 지표가
Physical Interaction: Question Answering
PIQA 입니다!
https://arxiv.org/abs/1911.11641
7. ARC
LLM이 자연어를 이해하고 분류하는 능력을 평가하는 벤치마크
ARC는 텍스트를 분류하는 작업을 수행하도록 요청하는 질문으로 구성
ARC(Alberta Reading Competence)는 기존의 상대적으로 쉬운 QA 벤치마크를 넘어,
(종종 단순히 단어구문을 패싱하는 벤치마크를 초월)
추론, 상식 지식, 어려운 복잡한 질문에 답하기 위해 필요한 심층적인 이해 능력을 측정합니다.
기존에는 단순한 패턴 기반의 모델도 가능했다면
ARC에서는 인간과 유사한 독해 능력을 갖춘 언어 모델을 공학적으로 개발해야합니다.
예시질문
Q: 광물의 어떤 특성은 그것을 단순히 살펴봄으로써 결정될 수 있을까요?
A: 4개중 택 1 >> (A) 광택 (B) 질량 (C) 무게 (D) 경도
8. 기타 평가모델들
BoolQ : 자연어를 이해하고 논리적으로 추론하는 능력을 평가
CB: 자연어를 이해하고 컴퓨터 프로그래밍 언어로 번역하는 능력을 평가
COPA: 창의적으로 응답하는 능력 평가
RTE: 요약하는 능력 평가
WiC: 자연어의 차이점을 식별하는 능력을 평가
WSC: 자연어 구조를 파악하는 능력을 평가. 텍스트의 구조를 파악하는 작업을 수행하도록 요청하는 질문으로 구성
ReCoRD: 자연어를 요약하는 능력을 평가
이러한 지표를 바탕으로 자연어 처리 (NLP) 및 기계 학습 커뮤니티를 지원하고 모으는 역할을 하는 플랫폼 및 회사인
허킹페이스(HuggingFace)에서는 LLM 자랑할수 있는 리더보드를 운영중이에요!~!
감사합니다.
'데이터&AI > LLM' 카테고리의 다른 글
llamafile 포트 및 ip 정보 바꾸기!! (0) | 2023.12.27 |
---|---|
ollama 의 모델 저장 디렉토리 바꾸기!! (0) | 2023.12.26 |
LLM 모델 팔콘 알아보기 (Falcon-180b) (1) | 2023.12.02 |
GPT를 On-premise에서 사용하고 싶을때는?? (0) | 2023.04.12 |
GPT가 전망한 비트코인 가격 전망(by 뤼튼) (1) | 2023.02.02 |
댓글