본문 바로가기
데이터&AI/LLM

초거대언어모델(LLM) 의 성능평가지표 (feat. MMLU, Helloswag)

by 일등박사 2023. 12. 1.

 

chatGPT로 부터 시작된

초거대 언어모델 경쟁!!

 

Meta의 LLaMa, Google의 Palm

그리고 이로 부터 파생된 Alpace, Falcon 등 여러 LLM 모델들이 공개되고있는데요!

 

2023.04.12 - [일등박사의 생각/데이터분석] - GPT를 On-premise에서 사용하고 싶을때는??

 

GPT를 On-premise에서 사용하고 싶을때는??

GPT의 시대입니다. 하루가 다르게 다양한 기술들이 나오고 있습니다 GPT plugin 이 개발되어 적시성을 필요로하는 데이터도 바로바로 GPT를 통해 볼 수 있게되고 GPT-Index(LLaMa-index)를 통하여 PDF, 위키

drfirst.tistory.com

 

각각의 모델들은 서로가 자기들의 성능이 좋다며

여러 지표로서 그 의미를 증명합니다!!

 

>> 여러 LLM 평가 예시들!!

 

그렇다면 이런 LLM 평가 지표들의 구체적인 계산 방식은 어떻게될까요!?

 


1. MMLU

MMLU는 "Multitask Multi-modal Language Understanding"의 약자

MMLU는 57개의 일반 지식 영역을 세분화된 카테고리로 분류하여 구성되어 있습니다.

각 카테고리에는 4개의 객관식 질문이 포함되어 있으며

이러한 질문에 얼마나 정확하게 답변하는지를 평가하여 성능을 측정합니다.

 

> 객관식 질문의 예시 (계량경제학 부분)

 

 Q: 에임스는 벨의 집을 $2,000 지불되는 계약 하에 페인트칠을 했습니다. 벨은 현관이 제대로 페인트되지 않았다고 선량하게 주장하여 어떤 금액도 지불하지 않기로 결정했습니다. 6월 15일에, 에임스는 벨에게 "돈이 급해. 7월 1일 전에 $2,000을 보내주세요."라는 내용의 편지를 우편으로 보냈습니다. 6월 18일에 벨은 "6월 18일 편지에 따라서 $1,800으로 합의하겠다. 다만 현관을 다시 페인트하는 것에 동의해야 한다."라는 답장을 보냈습니다. 에임스는 이 편지에 대한 답장을 하지 않았습니다. 그 후 벨은 "Ames-Bell 페인팅 계약에 따른 6월 18일 편지에 따라 $1,800로 완전 지불"이라고 표시된 수표를 6월 30일에 우편으로 보냈습니다. 에임스는 이 수표를 6월 30일에 받았고 급한 돈이 필요했기 때문에 이의를 제기하지 않고 현금화했습니다. 그러나 현금화한 후에도 현관을 다시 칠하지 않고 거부했습니다. 수표 현금화 이후에 에임스는 벨을 $200에 대해 고소했습니다. 에임스가 아마도

 

 A: 아래 4개중 택1

["에임스가 명세에 따라 현관을 페인트했음을 증명할 수 있다면 성공할 것입니다.", "경제적 위기 상태에서 수표를 현금화했기 때문에 성공할 것입니다.", "이의를 제기하지 않고 수표를 현금화했기 때문에 성공하지 못할 것입니다.", "그의 서비스의 합리적 가치만을 회수할 권리가 있기 때문에 성공하지 못할 것입니다."]

 

>> 질문들 자세히 보기

https://huggingface.co/datasets/Stevross/mmlu

 

Stevross/mmlu · Datasets at Hugging Face

[ "prevail, because he is the sole owner of Lawnacre. ", "prevail if, but only if, the cotenancy created in Celeste and Donald was a tenancy by the entirety. ", "not prevail if he had knowledge of the conveyance prior to Celeste's death.", "not prevail, be

huggingface.co

 

 

2. HellaSwag

LLM의 자연어를 생성하는 능력을 평가하는 벤치마크

HellaSwag은 의도적으로 유머러스하거나 도전적인 텍스트를 생성하도록 설계된 질문으로 구성

질문은 아래와 같은 특징이 있습니다

  • 유머러스하거나 도전적입니다. 질문은 재미있거나 재치있거나 도전적이어야 합니다.
  • 개방형입니다. 질문은 하나의 정답이 없으며, 다양한 답변이 가능해야 합니다.
  • 창의적입니다. 질문은 LLM의 창의성을 테스트해야 합니다.

예시질문!!

질문: 그 후, 남자는 차량 창문을 덮고 있는 눈 위에 글을 씁니다. 그리고 겨울 옷을 입은 여성이 미소를 지으면서,

 

답변: 4지선다

[ "남자는 차량 앞유리에 왁스를 발라서 자르기 시작합니다.", "한 사람이 스키 리프트에 탑승하는 동안 두 남성은 겨울 옷을 입은 사람의 머리를 지지하면서 여자들은 썰매를 탑니다.", "남자는 크리스마스 코트를 입고, 그것은 그물망으로 짜여져 있습니다.", "남자는 자동차의 눈을 계속 제거합니다." ]

https://arxiv.org/abs/1905.07830

 

HellaSwag: Can a Machine Really Finish Your Sentence?

Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the

arxiv.org

 

https://huggingface.co/datasets/Rowan/hellaswag?row=0

 

Rowan/hellaswag · Datasets at Hugging Face

Subset default (60k rows) Split train (39.9k rows)validation (10k rows)test (10k rows)

huggingface.co

 

 

3. LAMBDA

LLM이 자연어를 이해하고 사용하는 능력을 평가하는 벤치마크

LAMBADA는 다양한 유형의 텍스트를 생성, 번역, 요약, 질문에 답하는 등의 작업을 수행하도록 요청하는 질문으로 구성

 

 

 

4. WebQuestions

LLM이 웹에서 정보를 찾고 이해하는 능력을 평가하는 벤치마크

 WebQuestions는 웹에서 정보를 찾고 질문에 답하는 등의 작업을 수행하도록 요청하는 질문으로 구성

 

질문예시.

  • "파리에서 런던까지 가는 가장 빠른 방법은 무엇입니까?"
  • "프랑스 대통령의 이름은 무엇입니까?"
  • "지구의 둘레는 얼마입니까?"

5. Winogrande

LLM이 자연어를 이해하고 추론하는 능력을 평가하는 벤치마크

 Winogrande는 추론을 요구하는 질문으로 구성

 

질문의 예

  • "소나무는 잎이 많을수록 더 많은 물을 흡수할 수 있습니까?"
  • "미국의 수도는 워싱턴이지만, 워싱턴은 미국의 주 중 하나이기도 합니다. 워싱턴은 미국의 주 수도입니까?"
  • "소금은 물에 녹으면 부피가 늘어납니다. 소금물이 물보다 부피가 큰 이유는 무엇입니까?"

 

6. PIQA

 

- 브러시 없이 아이섀도를 바르려면 면봉을 사용해야 할까요?, 아니면 이쑤시개를 사용해야 할까요?

 

이러한 물리적 상식을 필요로 하는 질문은 현재의 자연어 이해 시스템이 어려워합니다!!

최근 사전 훈련 모델(BERT 등)은 보도 기사 및 백과사전 항목과 같은 추상적인 도메인에서의 질문 응답에 대한 발전을 이루었습니다.

그러나 더 물리적인 분야에서는 답변 수준이 제한되어 있습니다.

이런  물리적 상식 질문에 신뢰성 있게 답할 수는 지를 확인하는 지표가 

Physical Interaction: Question Answering

PIQA 입니다!

 

https://arxiv.org/abs/1911.11641

 

PIQA: Reasoning about Physical Commonsense in Natural Language

To apply eyeshadow without a brush, should I use a cotton swab or a toothpick? Questions requiring this kind of physical commonsense pose a challenge to today's natural language understanding systems. While recent pretrained models (such as BERT) have made

arxiv.org

 

7. ARC

LLM이 자연어를 이해하고 분류하는 능력을 평가하는 벤치마크

ARC는 텍스트를 분류하는 작업을 수행하도록 요청하는 질문으로 구성

 

ARC(Alberta Reading Competence)는 기존의 상대적으로 쉬운 QA 벤치마크를 넘어,

(종종 단순히 단어구문을 패싱하는 벤치마크를 초월)

추론, 상식 지식, 어려운 복잡한 질문에 답하기 위해 필요한 심층적인 이해 능력을 측정합니다. 

기존에는 단순한 패턴 기반의  모델도 가능했다면

ARC에서는 인간과 유사한 독해 능력을 갖춘 언어 모델을 공학적으로 개발해야합니다.

 

예시질문

Q: 광물의 어떤 특성은 그것을 단순히 살펴봄으로써 결정될 수 있을까요?

A: 4개중 택 1 >> (A) 광택 (B) 질량 (C) 무게 (D) 경도

 

 

The ARC Benchmark: Evaluating LLMs' Reasoning Abilities | Deepgram

Learn more about the Abstraction and Reasoning Corpus (ARC) benchmark for large language model and general AI benchmarking....

deepgram.com

 

 

8. 기타 평가모델들

 이 외에도 LLM을 평가하는 다양한 모델을이 지속 해서 발표되고있습니다!!
 

BoolQ :  자연어를 이해하고 논리적으로 추론하는 능력을 평가

CB: 자연어를 이해하고 컴퓨터 프로그래밍 언어로 번역하는 능력을 평가

COPA:  창의적으로 응답하는 능력 평가

RTE:  요약하는 능력 평가

WiC: 자연어의 차이점을 식별하는 능력을 평가

WSC:  자연어 구조를 파악하는 능력을 평가. 텍스트의 구조를 파악하는 작업을 수행하도록 요청하는 질문으로 구성

ReCoRD: 자연어를 요약하는 능력을 평가

 

 


이러한 지표를 바탕으로 자연어 처리 (NLP) 및 기계 학습 커뮤니티를 지원하고 모으는 역할을 하는 플랫폼 및 회사인

허킹페이스(HuggingFace)에서는 LLM 자랑할수 있는 리더보드를 운영중이에요!~!

감사합니다.

 

댓글