본문 바로가기
728x90

데이터&AI/langchain22

[langchain공부]gpt와 함께하는 few shot learning ! (feat. python) Few-Shot Learning 이란!? Few-Shot Learning은 적은 양의 데이터로도 새로운 작업을 학습하도록 인공지능 모델을 훈련하는 기법 반적인 머신러닝 모델은 방대한 양의 데이터를 필요로 하지만, Few-Shot Learning은 새로운 개념이나 카테고리를 빠르게 학습하도록 모델을 설계하여 데이터 부족 문제를 해결 Few-Shot Learning의 주요 특징: 적은 양의 학습 데이터: 새로운 작업을 학습하기 위해 필요한 데이터가 매우 적음 빠른 학습 속도: 새로운 개념을 빠르게 이해하고 적용할 수 있습니다. 일반화 능력: 학습된 개념을 새로운 상황에 적용할 수 있습니다. Few-Shot Learning의 활용 분야: 자연어 처리: 새로운 단어나 문장의 의미를 학습 컴퓨터 비전: 새로운 물.. 2024. 2. 24.
[langchain공부]유로 임베딩 모델 사용하기!? (feat. OpenAI ada) 많이 사용하는 huggingface의 BERT 모델! model_huggingface = HuggingFaceEmbeddings(model_name = 'jhgan/ko-sroberta-multitask' , model_kwargs = {'device':'cpu'} , encode_kwargs = {'normalize_embeddings' : True}) 위와 같은 방식으로 로드하는데요!! 그런데,, 조금더 큰 dimension (1536, 허깅페이스는768) 에서 분석을 하고싶다 신뢰할 수 있는 모델을 사용하고싶다 검증된 서비스로 사용하고싶다!! 나는 유료의 안정적인 서비스가 필요하다. 혹은,, 나는 돈이 너무 많다~! 허깅페이스가 싫다 등등 의 사유로 유로 embedding모델을 사용하고 싶을 수 있.. 2024. 2. 13.
[langchain공부]Retriever의 고급기법 (feat. Ensemble, bm5,Sparse, dense) 1. Retriever 종류: Sparse Retriever vs Dense Retriever 1. 개념 Retriever는 대규모 텍스트 데이터에서 질의와 관련된 정보를 검색하는 데 사용되는 모델 2가지로 구분 2. Sparse Retriever : 텍스트 데이터를 벡터로 변환하여 저장, 질의 벡터와의 유사성을 기반으로 문서 검색 >> TF-IDF와 같은 기법으로 텍스트 데이터를 벡터화 진행 장점: 효율적인 메모리 사용 빠른 검색 속도 높은 확장성 질문과 같은 단어만 선택!!!! 단점: 낮은 정확도 (but 같은 직접적 단어만 고를떄는 좋다) 의미론적 정보 손실 3. Dense Retriever : 텍스트 데이터를 임베딩 벡터로 변환하여 저장, 질의 벡터와의 유사성을 기반으로 관련 문서 검색 >> BE.. 2024. 2. 10.
[langchain공부] Input 텍스트가 너무 길때~~ Text Spitter!? (feat. RecursiveCharacterTextSplitter) 내가 질문한 내용을!! GPT에 보내고 답변하기!! RAG의 기본입니다!! from langchain_openai import ChatOpenAI llm = ChatOpenAI(openai_api_key = '{내api키}') my_text = """ 구글이 새로운 영상 생성형 인공지능(AI) 모델을 공개했다. 챗GPT로 시장의 게임 체인저가 된 오픈AI에 가려졌던 구글의 AI 역량이 다시 주목받고 있다. 지난달 25일 구글은 영상 생성 AI ‘루미에르’를 선보였다. 기존에 공개된 영상 생성 AI에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다. 루미에르에는 구글이 개발한 신기술인 ‘시공간 U-넷’이 적용됐다. 영상 전체를 한 번에 처리하는 기술이다. 기존의 영상 생성 AI는 시간-.. 2024. 2. 9.
728x90