728x90 Transformer4 RMSNorm과 Layer Normalization 비교하기 오늘의 주제 요약!! LN은 합창단의 각 파트가 아름다운 화음을 만들도록 돕는 합창 지휘자라면, RMSNorm은 오케스트라 전체의 연주를 조율하여 감동적인 교향곡을 완성하는 오케스트라 지휘자와 같다!! 1. Layer Normalization - 신경망의 각 층에서 입력 데이터의 정규화를 수행하는 방법 - 합창단의 각 파트별 음량을 조절하는 것과 같음!! 소프라노, 알토, 테너, 베이스 각 파트의 음량이 너무 크거나 작으면 전체적인 화음이 깨지게 되기에 LN은 각 파트의 음량을 적절히 조절하여 전체적인 화음을 아름답게 만드는 역할을 함 입력 데이터:입력 데이터 𝑥=[𝑥1,𝑥2,...,𝑥𝑑] 의 𝑑차원 벡터. 평균 계산: 각 샘플의 평균을 계산3. 분산 계산:샘플의 분산을 계산4. 정규화: .. 2024. 6. 28. qwen2 모델 톺아보기 (feat. llama3 모델과의 비교!) 2024.06.23 - [데이터&AI/LLM] - 알리바바의 llm 모델 qwen2 사용해보기 (feat.놀라운 한국어실력) 알리바바의 llm 모델 qwen2 사용해보기 (feat.놀라운 한국어실력)여러가지 오픈소스 모델들을 알아보고있었습니다.2024.05.29 - [데이터&AI/LLM] - 내 서버에서 llama3 실행하기!! (feat. ollama) 내 서버에서 llama3 실행하기!! (feat. ollama)이전 포스팅에서 ollama를 활용하여 ldrfirst.tistory.com 오늘은 지난번 사용해 보았던 qwen2 모델을 llama3모델과 비교하여 분석해보겠습니다~~ 1. Qwen2 모델 구조 확인하기from transformers import AutoModelForCausalLM, .. 2024. 6. 24. Solar 오픈소스 모델 활용해서 ON-premise LLM 만들기 안녕하세요!지난 포스팅에서는 Upstage의 솔라 모델을 API로 활용하는 법을 배웠었는데요!2024.05.16 - [데이터&AI/LLM] - upstage의 llm 모델 Solar 사용하기!! (feat. 성킴 대표님 강의) upstage의 llm 모델 Solar 사용하기!! (feat. 성킴 대표님 강의)2024.05.16 - [데이터&AI/LLM] - [2024.5.16]SNU x Upstage LLM 세션① : 컴공과 교수님들의 강의!! [2024.5.16]SNU x Upstage LLM 세션① : 컴공과 교수님들의 강의!!https://kiise.or.kr/conference/conf/147/ 한국정보과학회 - 학drfirst.tistory.com 오늘은 Upstage에서 개발한 SOLAR-10.. 2024. 6. 13. LLM 모델 팔콘 알아보기 (Falcon-180b) 오늘은 HuggingFace에 TII가 소개한 초거대언어모델(LLM)인 Falcon 180B를 알아보고자합니다!! ㅁ 모델 소개 및 배경 Falcon 180B는 현재까지 공개된 오픈소스 모델중 최고라고할수 있습니다!! 약 1800억 개의 매개변수를 가진 가장 큰 개방된 언어 모델로 기존에 공개되었던 Falcon 40B의 확장된 버전으로 다중 쿼리 어텐션( multiquery attention ) 같은 혁신을 바탕으로 개발되었습니다 모델 제작시에는 딥러닝 클라우드 서비스인 Amazon SageMaker를 바탕으로 최대 4096개의 GPU를 동시에 사용, 3.5조 개의 토큰으로 훈련되었습니다. (Llama 2보다 2.5배 더 크고 4배 더 많은 컴퓨팅으로 훈련되었다는 것을 의미합니다.) ㅁ 성능비교 Falc.. 2023. 12. 2. 이전 1 다음 728x90