AI모델(GPT4)로 그림 및 사진 읽기 with python

728x90

오늘은 GPT로 그림및 사진읽기!!

에 대하여 알아보겠습니다!!

사용할 모델은 openai의 GPT 모델인

gpt-4-vision-preview

입니다!!

1. URL 기반으로 그림 읽기!!!

target url을 설정하고 해당 이미지를 읽어와서 해석하게합니다!!

아래 URL의 이미지를 읽어보게하겠습니다

https://mblogthumb-phinf.pstatic.net/20110105_214/dapapr_1294200472447D2cs9_JPEG/noname08.jpg?type=w420

import openai
openai.api_key = '{내 openai key}'
my_image_url = 'https://mblogthumb-phinf.pstatic.net/20110105_214/dapapr_1294200472447D2cs9_JPEG/noname08.jpg?type=w420'
my_prompt = '이미지가 어떤 내용인지 해석해줘'
client = openai.OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": my_prompt},
        {
          "type": "image_url",
          "image_url": {
            "url": my_image_url,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

그 결과는!? 아래와 같았습니다!!^^

이 사진은 편대를 이룬 여러 대의 전투기가 비행하는 모습을 포착한 것으로 보입니다. 
흑백 사진으로 판단해볼 때 과거의 군사 역사에서 중요한 시점을 나타내는 것 같습니다.
사진에 있는 전투기들은 2차 세계 대전 당시 사용되었던 것으로 보이는데, 
이는 전투기의 디자인과 마킹으로 추측할 수 있습니다. 
기체에 적힌 알파벳과 숫자 조합은 특정 부대와 항공기의 식별 번호를 나타낼 수 있습니다.
이러한 사진은 당시 전쟁의 공중전과 항공 기술, 그리고 군사 작전을 기록한 역사적 자료로 중요한 가치가 있을 수 있습니다.

2. 내 컴퓨터의 이미지 기반으로 그림 읽기!!!

내 디렉토리 내의 이미지를 읽고싶자면!?

아래 패키지의 역할이 추가로 필요합니다! base64는 이미지를 encode하여 코드로 바꿔주는역할을 하지요~~

import base64

위 이미지를 jinshi.jpg로 저장하고 읽어보겠습니다~!

import base64
import requests
import openai

openai.api_key = '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'
image_path = 'jinshi.jpg'
my_prompt = '이미지가 어떤 내용인지 해석해줘'
client = openai.OpenAI()


    
# Function to encode the image
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Getting the base64 string
base64_images = [encode_image(image_path)]
# OpenAI에 요청 보내기
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": my_prompt}
        ] + [{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}} for base64_image in base64_images]
    }
]

response = client.chat.completions.create(
    model="gpt-4-vision-preview",
    messages=messages,
    max_tokens=1000
)


print(response.choices[0].message.content)

그 결과!!! 아래와 같이 이미지를 잘 읽어오네요~!^^

제시된 이미지는 중국 시안에 위치한 유명한 병마용(兵馬俑)의 모습입니다. 
이 병마용은 중국 첫 번째 황제인 진시황의 무덤을 지키기 위해 만들어졌으며, 
대규모의 테라코타(점토로 만든) 병사, 말, 전차 등으로 구성된 병사들이 정렬해 있는 모습을 볼 수 있습니다. 
이 유적은 1974년에 농민들에 의해 우연히 발견된 이후로 중국 고대사의 중요한 증거이자 세계 유산으로 평가받고 있습니다.

ㅁ 참고 : https://platform.openai.com/docs/guides/vision

728x90

저작자표시 비영리 동일조건

'데이터&AI > LLM' 카테고리의 다른 글

llama3 무료로 쉽게 사용해보기 (feat. huggingface) (1)	2024.04.19
[ LLM 공부] Mixture of Experts (MoE) 쉽게 이해하기! (1)	2024.04.12
일론머스크의 AI, xAI의 오픈소스 LLM 사용해보기 (grok) (1)	2024.03.19
OpenAI !! 새로운 text 임베딩 모델 출시 (text-embedding-3) (1)	2024.02.17
[OpenAI] GPT-3.5-turbo 가격인하!! (24.2.16~) (0)	2024.02.16

일등박사의 연구소

AI모델(GPT4)로 그림 및 사진 읽기 with python

1. URL 기반으로 그림 읽기!!!

2. 내 컴퓨터의 이미지 기반으로 그림 읽기!!!

'데이터&AI > LLM' 카테고리의 다른 글

댓글

티스토리툴바

AI모델(GPT4)로 그림 및 사진 읽기 with python

1. URL 기반으로 그림 읽기!!!

2. 내 컴퓨터의 이미지 기반으로 그림 읽기!!!

'데이터&AI > LLM' 카테고리의 다른 글

관련글

댓글

티스토리툴바