LangChain-StoryBot-main

ChatGPT-LLM

스토리봇 - 유아용 동화 스토리봇 (유아용 동화 읽기, 번역 도우미)

  1. 프로젝트 개요

스토리봇은 ChatGPT 기반의 유아용 동화 스토리봇입니다. 이 프로젝트는 다음과 같은 주요 기능을 제공합니다:

또한, 이 모델은 PDF 문서를 학습시켜 콘텐츠를 이해하고 처리하는 기능을 갖추고 있습니다.

  1. 목표:
    • 유아들을 대상으로 한 유창한 동화 읽기 및 상호작용 서비스 개발
    • 상상력을 자극하고 언어 능력 향상을 도모하는 동화 스토리봇 구현
    • ChatGPT 모델에 PDF 학습을 통해 다양한 동화를 구현할 수 있는 환경 제공
  2. 기능 설명:
    • 동화 읽어주기 기능: ChatGPT 모델을 활용하여 다양한 동화를 실시간으로 읽어주는 기능
    • 질의응답하기 기능: 유아들이 동화 내용에 대해 질문을 하고, ChatGPT 모델이 답변을 제공하는 기능
    • 역할놀이 기능: 유아들이 동화의 캐릭터 역할을 맡고, ChatGPT 모델이 상호작용하여 역할놀이를 도와주는 기능
    • 동화 요약 기능: ChatGPT 모델을 사용하여 동화의 주요 내용을 요약하여 제공하는 기능
    • 번역 기능: ChatGPT 모델을 활용하여 다양한 언어로 동화를 번역하는 기능

기술 스택

Langchain을 쓰는 이유?

하나의 prompt만 가지고 답을 구하는건 이미 기존 LLM에서도 충분히 좋은 성능을 낼 수 있었습니다. 예를 들면 문서를 “요약”한다던지, 유사한 문서를 “검색” 한다던지 이런 기능들은 이미 충분히 좋은 모델들이 많이 나와있습니다. 하지만 진짜 사람이 생각하는 것처럼 “추론”을 하는 관점에서는 약점이 많았습니다.

Langchain을 사용한다면, agent를 사용하여 “문제”를 “추론”하고 여러 개의 작은 sub-task로 분할하는게 가능합니다. 각 단계마다 context를 유지하기 위해 어떤 도구를 사용해야하는지 결정하고 memory, prompt 등 다양한 기능들을 사용하여 원하는 결과를 만들어내게 할 수 있습니다.

https://jayhey.github.io/deep learning/2023/04/23/langchain/

일정

  1. 기획 및 환경 설정 (1일):
    • 프로젝트 목표 및 요구사항 정의
    • 필요한 라이브러리 및 도구 설치
    • Jetson Nano 설정 및 연결
  2. 데이터 수집 및 전처리 (1일):
    • 유아용 동화 데이터 수집
    • 데이터 전처리 (텍스트 정제, 포맷 변환 등)
  3. 언어 모델 학습 (1일):
    • ChatGPT 모델 학습 데이터 준비
    • ChatGPT 모델 학습 및 튜닝
    • 학습된 모델 저장 및 테스트
  4. PDF 문서 학습 (1일):
    • PDF 문서를 텍스트로 변환하여 벡터 데이터베이스에 등록
    • 벡터 데이터베이스 구축 및 검색 기능 테스트
  5. 음성 처리 기능 추가 (1일):
    • 음성 인식 기능 구현
    • 음성을 텍스트로 변환하여 질의응답 기능에 통합
    • 음성 출력 기능 구현
  6. 기능 통합 및 최적화 (1일):
    • 각 기능을 통합하여

사용자 친화적인 인터페이스 제공

향후 계획

기대 효과

  1. 참고 자료:
    • OpenAI ChatGPT 모델 문서 : https://openai.com/models/chatgpt
    • PDF 학습 관련 라이브러리 및 도구 문서 : pdfloader
    • colab link : https://colab.research.google.com/drive/1TONWO7bAg8Lkn4jprdBf5D-Go7C1N1w1?usp=sharing

2023 DX Challenge Hackathon

스크린샷 2023-07-19 오후 10 59 26

해커톤 진행 시 어려웠던 점은 무엇인가?

어떻게 보충(보강)해야 하는가?

성공시키기 위해서는 무엇을 해야할 것인가?

  1. 기술
    • 심사위원이 말이 입출력된 것을 직관적으로 확인하기가 어렵다.
    • 지연
    • 다양한 방법으로 디버깅
    • 주제가 너무 하드웨어에 집중되어 있으며 langchain 등의 기능들은 심사위원들이 알지 못하는 예도 있고, 기존에 상용화된 시스템과 차이점을 느끼지 못함 (기가지니 및 대화형 인공지능시스템 )
  2. 기능
  1. 발표, 데모
  1. 보고서