ChatGPT나 Claude를 이미 쓰고 있는데, Robotext가 왜 필요한가요?

Robotext는 독자적인 AI가 아닙니다. Claude, GPT, Gemini 같은 최고 수준의 AI 기술을 잘 활용해서 실제 업무를 처리해주는 시스템입니다. AI는 똑똑한데 실행은 사람이 해야 했던 부분을 Robotext가 대신합니다.

어떤 메신저에서 사용할 수 있나요?

카카오톡, 텔레그램, WhatsApp, Discord를 지원합니다.

데이터 보안은 어떻게 되나요?

모든 데이터는 전용 장비(로컬)에 저장됩니다. 클라우드에 데이터가 올라가지 않아 유출 위험이 없습니다.

AI가 이전 대화를 기억하나요?

네. RAG 기술로 모든 대화를 저장하고 활용합니다. 3개월 전에 말한 거래처 단가 조건도 기억합니다.

AI 전문장비 임대는 어떤 서비스인가요?

AI 자동화에 최적화된 전용 장비를 임대해드립니다. 설치, 소프트웨어 세팅, 운영, 유지보수까지 모두 포함됩니다.

어떤 업무를 자동화할 수 있나요?

정산/회계 처리, 이메일 분류·발송, CS 자동 응대, 블로그/SNS 포스팅, 주문·재고 관리, 광고 데이터 수집·분석, 보고서 자동 생성 등 반복적인 사무 업무 대부분을 자동화할 수 있습니다.

소규모 기업도 도입 가능한가요?

물론입니다. 오히려 1인 기업이나 소규모 팀에서 효과가 큽니다.

업무 자동화를 위한 프롬프트 설계 5가지 원칙

문제 정의: 대화형 프롬프트와 자동화 프롬프트는 다르다

ChatGPT에서 "이 문서 요약해줘"라고 쓰는 것과, 매일 500건의 고객 문의를 자동 분류하는 프롬프트는 완전히 다른 설계가 필요하다.

구분	대화형 프롬프트	자동화 프롬프트
실행 주체	사람이 직접 입력	시스템이 자동 실행
실행 빈도	수시, 비정기	수백~수천 건/일
출력 형식	자유 텍스트 OK	반드시 구조화 (JSON)
오류 허용도	높음 (사람이 판단)	낮음 (다음 시스템이 파싱)
평가 방식	주관적 만족도	객관적 지표 (정확도, F1)

자동화 프롬프트는 **"사람이 읽는 글"이 아니라 "시스템이 실행하는 명세서"**다. 아래 5가지 원칙은 실제 업무 자동화 프로젝트에서 검증된 설계 패턴이다.

원칙 1: 역할 정의 — System Prompt 설계

System Prompt는 에이전트의 "직무 기술서"다. 누구인지, 무엇을 하는지, 무엇을 하지 않는지를 명확히 정의한다.

나쁜 예시

당신은 도움이 되는 AI 어시스턴트입니다.

좋은 예시

SYSTEM_PROMPT = """
당신은 B2B SaaS 회사의 고객 문의 분류 전문가입니다.
 
## 역할
- 고객 이메일을 분석하여 카테고리와 우선순위를 분류합니다
- 분류 결과를 JSON 형식으로 반환합니다
 
## 분류 카테고리 (정확히 아래 값 중 하나)
- billing: 결제, 요금, 청구서 관련
- technical: 버그, 오류, 기술 지원
- feature_request: 기능 요청, 개선 제안
- account: 계정 관련 (비밀번호, 권한, 탈퇴)
- other: 위 카테고리에 해당하지 않는 경우
 
## 우선순위 기준
- critical: 서비스 중단, 데이터 손실
- high: 업무 차질, 결제 문제
- medium: 불편하지만 우회 가능
- low: 일반 문의, 기능 요청
 
## 제약 조건
- 분류만 수행합니다. 고객에게 직접 응답하지 마세요
- 확실하지 않으면 confidence를 0.5 이하로 설정하세요
- 개인정보(이름, 전화번호)는 출력에 포함하지 마세요
"""

핵심은 "하지 말아야 할 것"까지 명시하는 것이다. LLM은 지시하지 않은 행동을 종종 한다.

원칙 2: 구조화된 입출력 — JSON Schema + Pydantic

자동화 파이프라인에서 LLM의 출력은 다음 시스템이 파싱해야 한다. "자유 텍스트"로 받으면 파싱 실패가 반드시 발생한다.

Pydantic으로 출력 스키마 정의

from pydantic import BaseModel, Field
from typing import Literal
from openai import OpenAI
 
class EmailClassification(BaseModel):
    """고객 이메일 분류 결과"""
    category: Literal["billing", "technical", "feature_request", "account", "other"]
    priority: Literal["critical", "high", "medium", "low"]
    confidence: float = Field(ge=0, le=1, description="분류 확신도 (0~1)")
    summary: str = Field(max_length=100, description="핵심 내용 한 줄 요약")
    requires_human: bool = Field(description="사람 검토 필요 여부")
 
client = OpenAI()
 
def classify_email(email_text: str) -> EmailClassification:
    """이메일을 구조화된 형태로 분류"""
    response = client.beta.chat.completions.parse(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": email_text}
        ],
        response_format=EmailClassification  # Structured Outputs
    )
    return response.choices[0].message.parsed
 
# 실행
result = classify_email("결제가 두 번 됐는데 환불해주세요!")
print(result.model_dump_json(indent=2))
# {
#   "category": "billing",
#   "priority": "high",
#   "confidence": 0.95,
#   "summary": "이중 결제 발생, 환불 요청",
#   "requires_human": true
# }

OpenAI의 Structured Outputs(response_format)와 Anthropic의 Tool Use를 활용하면, LLM이 스키마에 맞는 JSON만 출력하도록 강제할 수 있다. 파싱 실패율이 사실상 0%가 된다.

원칙 3: Few-shot 예시로 정확도 높이기

규칙으로 설명하기 어려운 판단 기준은 예시로 보여주는 것이 가장 효과적이다.

FEW_SHOT_EXAMPLES = """
## 예시 1
입력: "API 호출 시 500 에러가 발생합니다. 로그를 첨부합니다."
출력: {"category": "technical", "priority": "high", "confidence": 0.92, "summary": "API 500 에러 발생", "requires_human": false}
 
## 예시 2
입력: "다음 달부터 Enterprise 플랜으로 업그레이드하고 싶습니다."
출력: {"category": "billing", "priority": "medium", "confidence": 0.88, "summary": "Enterprise 플랜 업그레이드 문의", "requires_human": false}
 
## 예시 3
입력: "대시보드에 팀 단위 통계를 볼 수 있는 기능이 있으면 좋겠습니다."
출력: {"category": "feature_request", "priority": "low", "confidence": 0.95, "summary": "팀 단위 통계 대시보드 기능 요청", "requires_human": false}
 
## 예시 4 (경계 사례)
입력: "안녕하세요 잘 부탁드립니다"
출력: {"category": "other", "priority": "low", "confidence": 0.60, "summary": "구체적 내용 없는 인사 메시지", "requires_human": true}
"""

Few-shot 설계 팁:

일반적인 사례 2~~3개 + 경계 사례(edge case) 1~~2개 포함
예시가 너무 많으면(10개+) 오히려 성능 저하 — 3~5개가 최적
실제 운영 데이터에서 오분류된 사례를 예시에 추가하면 가장 효과적

원칙 4: 가드레일 설정 — 거부 조건과 에스컬레이션

자동화 시스템에서 가장 위험한 것은 "자신 있게 틀리는" LLM이다. 모를 때 모른다고 하도록, 위험할 때 사람에게 넘기도록 설계해야 한다.

GUARDRAIL_RULES = """
## 거부 조건 (반드시 requires_human: true로 설정)
1. 법적 분쟁 가능성이 있는 내용 (소송, 법적 조치 언급)
2. 개인정보 유출 가능성 (주민번호, 카드번호 등 포함)
3. 자해/자살 암시가 포함된 메시지
4. 분류 확신도(confidence)가 0.7 미만인 경우
 
## 에스컬레이션 규칙
- critical 우선순위 → Slack #urgent 채널 즉시 알림
- requires_human: true → 담당자 이메일 + 대시보드 플래그
- 동일 고객의 3회 이상 연속 문의 → VIP 에스컬레이션
"""
 
async def process_with_guardrails(email: str) -> dict:
    """가드레일이 포함된 처리 파이프라인"""
    result = classify_email(email)
 
    # 가드레일 체크
    if result.confidence < 0.7:
        result.requires_human = True
 
    if result.requires_human:
        await notify_human(result)  # Slack/이메일 알림
 
    if result.priority == "critical":
        await send_urgent_alert(result)  # 긴급 알림
 
    return result.model_dump()

원칙 5: 평가와 반복 — 자동 테스트, A/B 비교

프롬프트는 코드처럼 테스트해야 한다. "느낌"으로 판단하면 운영 중 품질이 서서히 저하된다.

자동 평가 테스트

import pytest
 
# 테스트 데이터셋 (실제 운영 데이터에서 추출)
TEST_CASES = [
    {
        "input": "결제가 안 됩니다. 카드 오류라고 뜹니다.",
        "expected_category": "billing",
        "expected_priority": "high"
    },
    {
        "input": "API 응답이 너무 느립니다. 타임아웃이 자주 발생해요.",
        "expected_category": "technical",
        "expected_priority": "high"
    },
    {
        "input": "엑셀 내보내기 기능을 추가해주세요.",
        "expected_category": "feature_request",
        "expected_priority": "low"
    },
]
 
@pytest.mark.parametrize("case", TEST_CASES)
def test_email_classification(case):
    result = classify_email(case["input"])
 
    assert result.category == case["expected_category"], \
        f"카테고리 오분류: {result.category} != {case['expected_category']}"
    assert result.priority == case["expected_priority"], \
        f"우선순위 오분류: {result.priority} != {case['expected_priority']}"
    assert 0 <= result.confidence <= 1

평가 지표 대시보드

from collections import Counter
 
def evaluate_prompt_version(test_dataset: list, prompt_version: str) -> dict:
    """프롬프트 버전별 성능 평가"""
    correct = 0
    total = len(test_dataset)
    errors = []
 
    for case in test_dataset:
        result = classify_email(case["input"])  # 현재 프롬프트 버전으로 실행
 
        if result.category == case["expected_category"]:
            correct += 1
        else:
            errors.append({
                "input": case["input"][:50],
                "expected": case["expected_category"],
                "actual": result.category,
                "confidence": result.confidence
            })
 
    return {
        "version": prompt_version,
        "accuracy": correct / total,
        "total": total,
        "correct": correct,
        "error_details": errors
    }
 
# 실행 예시
# v1 = evaluate_prompt_version(dataset, "v1.0_basic")
# v2 = evaluate_prompt_version(dataset, "v2.0_few_shot")
# → v2 accuracy 87% vs v1 accuracy 72% → v2 채택

평가 벤치마크 예시

프롬프트 버전	정확도	Confidence 평균	에스컬레이션 비율
v1.0 (기본)	72%	0.78	31%
v2.0 (+few-shot)	87%	0.84	22%
v3.0 (+가드레일)	85%	0.82	28%
v3.1 (+경계사례)	91%	0.86	19%

v3.0에서 정확도가 살짝 떨어진 것은 가드레일이 "확실하지 않은 것을 사람에게 넘기도록" 설계되었기 때문이다. 정확도만 보면 v2.0이 나아보이지만, 운영 안전성 관점에서는 v3.1이 최적이다.

도구 활용

도구	용도	가격
Anthropic Workbench	Claude 프롬프트 실험, 비교	무료 (API 비용만)
LangSmith	LLM 호출 추적, 평가 데이터셋 관리	무료 티어 있음
PromptLayer	프롬프트 버전 관리, A/B 테스트	$29/월~
Braintrust	프롬프트 평가, CI/CD 통합	무료 티어 있음

특히 LangSmith는 프롬프트 변경 → 자동 평가 → 성능 비교를 하나의 파이프라인으로 구축할 수 있어, 운영 중인 자동화 시스템의 프롬프트 관리에 적합하다.

5가지 원칙 요약

┌──────────────────────────────────────────────────────┐
│               프롬프트 설계 5원칙                       │
│                                                      │
│  1. 역할 정의  ─── "누구"이고 "무엇"을 하는가          │
│       │                                              │
│  2. 구조화 I/O ─── JSON Schema로 입출력 고정           │
│       │                                              │
│  3. Few-shot   ─── 3~5개 예시로 판단 기준 시연         │
│       │                                              │
│  4. 가드레일   ─── 모를 때 거부, 위험하면 에스컬레이션   │
│       │                                              │
│  5. 평가 반복  ─── 테스트 → 지표 → 개선 루프           │
│                                                      │
│  ※ 원칙 순서대로 적용하면 정확도 72% → 91% 향상 가능    │
└──────────────────────────────────────────────────────┘

결론

업무 자동화에서 프롬프트는 "한 번 쓰고 끝"이 아니라 코드처럼 버전 관리하고, 테스트하고, 배포하는 자산이다. 5가지 원칙을 순서대로 적용하면, 초기 72% 수준의 정확도를 91% 이상으로 끌어올릴 수 있다. 특히 Structured Outputs와 가드레일의 조합은 "자신 있게 틀리는 AI"를 "모를 때 사람에게 묻는 AI"로 바꿔준다.

프롬프트 설계부터 평가 파이프라인 구축까지 함께 하고 싶다면 → 기술 상담 신청

업무 자동화를 위한 프롬프트 설계 5가지 원칙

업무 자동화를 위한 프롬프트 설계 5가지 원칙

문제 정의: 대화형 프롬프트와 자동화 프롬프트는 다르다

원칙 1: 역할 정의 — System Prompt 설계

나쁜 예시

좋은 예시

원칙 2: 구조화된 입출력 — JSON Schema + Pydantic

Pydantic으로 출력 스키마 정의

원칙 3: Few-shot 예시로 정확도 높이기

원칙 4: 가드레일 설정 — 거부 조건과 에스컬레이션

원칙 5: 평가와 반복 — 자동 테스트, A/B 비교

자동 평가 테스트

평가 지표 대시보드

평가 벤치마크 예시

도구 활용

5가지 원칙 요약

결론

우리 회사, 어디부터 자동화할 수 있을까?

관련 글

카카오톡 API → AI 에이전트 → 업무 실행 파이프라인

Mac Mini로 사내 AI 서버 만들기 — 실전 가이드

단일 에이전트 vs 멀티 에이전트 — 언제 뭘 쓰나

AI 자동화 인사이트를 받아보세요