본문 바로가기
728x90

데이터&AI150

[langchain공부]Retriever의 고급기법 (feat. Ensemble, bm5,Sparse, dense) 1. Retriever 종류: Sparse Retriever vs Dense Retriever 1. 개념 Retriever는 대규모 텍스트 데이터에서 질의와 관련된 정보를 검색하는 데 사용되는 모델 2가지로 구분 2. Sparse Retriever : 텍스트 데이터를 벡터로 변환하여 저장, 질의 벡터와의 유사성을 기반으로 문서 검색 >> TF-IDF와 같은 기법으로 텍스트 데이터를 벡터화 진행 장점: 효율적인 메모리 사용 빠른 검색 속도 높은 확장성 질문과 같은 단어만 선택!!!! 단점: 낮은 정확도 (but 같은 직접적 단어만 고를떄는 좋다) 의미론적 정보 손실 3. Dense Retriever : 텍스트 데이터를 임베딩 벡터로 변환하여 저장, 질의 벡터와의 유사성을 기반으로 관련 문서 검색 >> BE.. 2024. 2. 10.
[langchain공부] Input 텍스트가 너무 길때~~ Text Spitter!? (feat. RecursiveCharacterTextSplitter) 내가 질문한 내용을!! GPT에 보내고 답변하기!! RAG의 기본입니다!! from langchain_openai import ChatOpenAI llm = ChatOpenAI(openai_api_key = '{내api키}') my_text = """ 구글이 새로운 영상 생성형 인공지능(AI) 모델을 공개했다. 챗GPT로 시장의 게임 체인저가 된 오픈AI에 가려졌던 구글의 AI 역량이 다시 주목받고 있다. 지난달 25일 구글은 영상 생성 AI ‘루미에르’를 선보였다. 기존에 공개된 영상 생성 AI에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다. 루미에르에는 구글이 개발한 신기술인 ‘시공간 U-넷’이 적용됐다. 영상 전체를 한 번에 처리하는 기술이다. 기존의 영상 생성 AI는 시간-.. 2024. 2. 9.
[langchain공부] RetrievalQA. 긴 문서에서 원하는 답변 찾기3 (feat. similarity, mmr, similarity_score_threshold,hybrid) 지난 포스팅 까지 RetrievalQA를 활용하여 긴 문서에서 답변찾기 실습, 2024.02.06 - [일등박사의 생각/데이터&AI] - [langchain공부] Retriever. 긴 문서에서 원하는 답변 찾기1 (feat. RetrievalQA, 문서 검색, html) [langchain공부] Retriever. 긴 문서에서 원하는 답변 찾기1 (feat. RetrievalQA, 문서 검색, html) 오늘은 langchain 의 꽃!!! Retriever를 활용해보겠습니다!! 우선 이 기술은 어떨떄 활용할까요!? Retrieval의 뜻 자체가 검색이라는 뜻으로, 엄청 긴 PDF, html 등의 문서가 있고 그 문서에서 필요한 내용만 drfirst.tistory.com 답변 찾는 방식의 체인 타입(C.. 2024. 2. 8.
[langchain공부] RetrievalQA. 긴 문서에서 원하는 답변 찾기2 (feat. stuff, map_reduce, refine, map_rerank) 지난 포스팅에서 RetrievalQA 함수 사용하는 방법을 알아보았습니다!! 2024.02.06 - [일등박사의 생각/데이터&AI] - [langchain공부] Retriever. 긴 문서에서 원하는 답변 찾기1 (feat. RetrievalQA, 문서 검색, html) [langchain공부] Retriever. 긴 문서에서 원하는 답변 찾기1 (feat. RetrievalQA, 문서 검색, html) 오늘은 langchain 의 꽃!!! Retriever를 활용해보겠습니다!! 우선 이 기술은 어떨떄 활용할까요!? Retrieval의 뜻 자체가 검색이라는 뜻으로, 엄청 긴 PDF, html 등의 문서가 있고 그 문서에서 필요한 내용만 drfirst.tistory.com 그런데!! 이 중 chain ty.. 2024. 2. 7.
728x90