본문 바로가기
728x90

주제495

LLM의 요약을 잘했는지 평가하는 방법! ROUGE 점수! (with python code) 점수의 타입!!   chatgpt이후로!LLM을 통한 요약, 변역에 정말 효과적이어서 많은 분들이 사용하고 있는데요~~이때 정말 요약을 잘하는걸까? 에 대하여어떤 모델이 더 요약을 잘할까? 를 평가하는 지표가 있어 오늘 소개하고자합니다!!   바로 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 점수!!! 인데요!! 이 ROUGE 점수가 어떻게 계산되는지,python 코드로 이 점수를 구하는 방법을 오늘 알아보겠습니다!!ROUGE 점수의 타입 및 평가방법!ROUGE 점수는 요약 성능을 평가하는 주요 지표입니다.요약 결과 내의 텍스트가 기준 텍스트와 얼마나 일치하는지를 측정합니다. ROUGE는 주로 n-그램(연속된 단어의 집합) 일치를 기반으로 하는 .. 2024. 11. 9.
openai API의 RAG하기!! (2)-여러개 파일!!+html (tool_call 기능 중 Assistants File Search) 2024.11.05 - [데이터&AI/LLM] - openai API로만 RAG하기!! (1) (tool_call 기능 중 Assistants File Search)지난 포스팅에서 텐센트의 사업보고서.pdf 를 기반으로,openai의 API의 file search 기능을 활용해보았습니다!!이번에는 이 file_search의 기능을 더 자세히 알아보도록 하겠습니다!! 0. 미션이번엔 지난 tencent의 사업보고서외에도 삼성전자 사업보고서, 테슬라 사업보고서를 함께 vector화하여!!이중에서 필요한 정보를 추출해보겠습니다!!  ※ 질문!! pdf html도?? file search에서 가능한 파일타입은!!?공식 홈페이지에 따르면 아래와 같이 pptx, docx 등 다양한 파일들을 지원합니다!!  Supp.. 2024. 11. 8.
openai API로만 RAG하기!! (1) (tool_call 기능 중 Assistants File Search) 예전 포스팅에서 RAG에 대하여 알아보았습니다!!! 이미 아시겠지만!!RAG(정보 검색 및 생성, Retrieval-Augmented Generation)란!!언어 모델(예: GPT-3)과 정보 검색 엔진을 결합하여 보다 신뢰성 있는 텍스트 생성 결과를 제공하는 접근 방식으로  주어진 질문에 답할 때, 외부 문서에서 관련 정보를 검색, 이를 기반으로 텍스트를 생성하는것이었습니다!2024.03.05 - [데이터&AI/langchain] - [langchain공부] embedding된 Vector를 mongoDB에 저장하기 [langchain공부] embedding된 Vector를 mongoDB에 저장하기2024.02.05 - [데이터&AI/langchain] - [langchain공부] Vectorstor.. 2024. 11. 7.
reddit의 wallstreets로 보는 2024 미국대선!! 최근 포스팅에서 reddit의 데이터 수집을 알아보았는데요~! 2024.10.31 - [데이터&AI/LLM] - reddit의 서브레딧(wallstreetbets) 데이터 모으고 분석하기!! (with python + GPT vision/text) reddit의 서브레딧(wallstreetbets) 데이터 모으고 분석하기!! (with python + GPT vision/text)지난 포스팅에서 미국의 게시판 reddit의 best글을 가져오는 작업을 해보았습니다!! 2024.09.12 - [데이터&AI/데이터분석] - Reddit 데이터 수집하기 using API (PYTHON) Reddit 데이터 수집하기 using API (PYTHON)안drfirst.tistory.com 이 내용을 바탕으로 이번 .. 2024. 11. 6.
728x90