Fact Explorer는 회의록, 보고서, 법률문서 등 비정형 텍스트를 AI로 분석하여
엔티티, 이벤트, 주장, 관계를 자동 추출하고 지식 그래프로 시각화합니다.
비정형 텍스트에서 다음 5가지 구조화된 데이터를 식별하고 연결합니다
분석의 출발점. 회의록, 보고서, 기사 등 원본 텍스트와 메타데이터
인물, 조직, 장소, 법안, 정책 등 문서에 등장하는 고유한 대상
시간·장소가 있는 사건. 회의, 표결, 정책 발표, 사고 등
주어-서술어-목적어 구조의 진술. 사실·의견·예측을 신뢰도와 근거와 함께 기록
엔티티 간의 연결. 소속, 제안, 반대, 질의-답변 등 12가지 관계 유형
간단한 예시 문장으로 각 단계에서 어떤 일이 일어나는지 보여드립니다
○김민수 의원 존경하는 도민 여러분, 현재 우리 도의 청년 실업률은 12.5%로 전국 평균보다 높습니다. 저는 청년창업지원센터 설립 조례안을 발의하여 이 문제를 해결하고자 합니다. 도지사님의 입장을 묻겠습니다.
텍스트를 정리하고 분석 가능한 단위로 분할합니다
{
"normalizedText": "김민수 의원: 존경하는 도민 여러분, 현재 우리 도의 청년 실업률은 12.5%로...",
"chunks": [
{ "index": 0, "content": "김민수 의원의 도정질문 발언", "charCount": 142 }
],
"metadata": { "totalChars": 142, "totalChunks": 1, "language": "ko" }
}문서의 유형, 카테고리, 핵심 키워드를 자동 판별합니다
{
"documentType": "회의록",
"category": "정치",
"keywords": ["청년 실업", "창업지원센터", "조례안", "도정질문"],
"summary": "김민수 의원이 청년 실업률 문제를 지적하며 청년창업지원센터 설립 조례안 발의 의사를 밝히고 도지사에게 입장을 질의함",
"confidence": 0.95
}엔티티, 이벤트, 주장(SPO), 관계를 추출합니다 — 가장 핵심적인 단계
| 주어 | 서술어 | 목적어 | 유형 | 신뢰도 |
|---|---|---|---|---|
| 김민수 의원 | 주장하다 | 청년 실업률 12.5% | 사실 | 0.90 |
| 김민수 의원 | 발의하다 | 청년창업지원센터 설립 조례안 | 사실 | 1.00 |
| 김민수 의원 | 질의하다 | 도지사의 입장 | 의견요청 | 0.85 |
중복 엔티티를 병합하고 정규화된 이름으로 통일합니다
{
"mergeLog": [
{
"merged": ["도지사", "도지사님"],
"into": "박완수 도지사",
"reason": "동일 직책 참조, 컨텍스트상 경남도지사로 확인"
}
],
"resolvedEntities": [
{ "canonical": "김민수 의원", "type": "PERSON", "mentions": 3 },
{ "canonical": "박완수 도지사", "type": "PERSON", "mentions": 1 },
{ "canonical": "경상남도의회", "type": "ORGANIZATION", "mentions": 1 },
{ "canonical": "청년창업지원센터 설립 조례안", "type": "BILL", "mentions": 1 }
]
}추출 결과의 품질을 5개 카테고리로 평가합니다
추출된 데이터를 노드와 엣지로 변환하여 지식 그래프를 생성합니다
{
"nodes": [
{ "id": "e1", "label": "김민수 의원", "type": "entity" },
{ "id": "e2", "label": "경상남도의회", "type": "entity" },
{ "id": "e3", "label": "박완수 도지사", "type": "entity" },
{ "id": "ev1","label": "조례안 발의", "type": "event" },
{ "id": "c1", "label": "청년실업률 12.5%","type": "claim" }
],
"edges": [
{ "source": "e1", "target": "e2", "label": "소속" },
{ "source": "e1", "target": "e3", "label": "질의" },
{ "source": "e1", "target": "ev1","label": "제안" },
{ "source": "e1", "target": "c1", "label": "주장" }
]
}Datalog 규칙으로 새로운 사실을 추론하고, 문서 간 연결을 발견합니다
{
"derivedFacts": [
{
"statement": "김민수 의원은 경상남도의회를 통해 박완수 도지사에게 간접적으로 연결됨",
"basedOn": ["김민수→경남도의회(소속)", "경남도의회→도지사(감독)"],
"confidence": 0.88
}
],
"insights": [
{
"insight": "청년 실업 관련 조례안이 발의됨 — 향후 관련 정책 변화 가능성",
"category": "trend",
"relevance": 0.82
},
{
"insight": "도지사에 대한 직접 질의 — 행정부 대응 모니터링 필요",
"category": "risk",
"relevance": 0.75
}
]
}경상남도의회 제428회 본회의 회의록(2025.11.27)에서 발췌한 실제 데이터입니다
○김구연 의원 존경하는 330만 도민 여러분! 유계현 부의장님과 선배 동료 의원 여러분! 박완수 지사님과 박종훈 교육감님을 비롯한 공직자 여러분! 반갑습니다. 지리산, 섬진강, 남해 바다가 있는 삼포지향 하동군 출신 김구연 의원입니다. 지금 경남에는 두 가지 큰 전환이 동시에 진행되고 있습니다. 하나는 시장 경쟁 속에서 구조조정이 진행되고 있는 자동차 부품 산업의 전환이고, 또 다른 하나는 국가 에너지 정책에 따라 일정과 방식이 이미 결정된 석탄화력발전소의 단계적 폐쇄입니다. 제11차 전력수급 기본계획에 따르면 2026년부터 2031년까지 하동, 삼천포 지역의 석탄화력발전소 14기 중 10기가 순차적으로 폐쇄될 예정입니다.
| 주어 | 서술어 | 목적어 | 유형 | 신뢰도 |
|---|---|---|---|---|
| 김구연 의원 | 주장 | 석탄화력발전소 14기 중 10기가 2026~2031년 순차 폐쇄 예정 | 사실 | 1.00 |
| 김구연 의원 | 지적 | 경남에 자동차 부품 산업 전환과 석탄화력 폐쇄가 동시 진행 | 사실 | 0.95 |
| 김구연 의원 | 요구 | 정의로운 전환 정책 수립 필요 | 의견 | 0.80 |
다양한 조직과 상황에서 Fact Explorer를 활용할 수 있습니다
회의록에서 의원별 발언·입장·질의를 자동 추출하여 의정활동 분석, 정책 추적, 상충되는 발언 감지
기사·보도자료에서 주장을 SPO 구조로 분리하고 근거를 추적. 교차 문서 모순 자동 탐지
정책 보고서, 사업 계획서에서 핵심 엔티티와 관계를 추출하여 이해관계 네트워크 시각화
법률문서, 판례에서 조문 간 참조 관계와 적용 사례를 지식 그래프로 구축
논문, 보고서에서 연구 주제 간 연결고리와 트렌드를 자동 추출하여 문헌 분석 가속화
회의록, 이메일, 내부 문서에서 의사결정 이력과 담당자를 추적하는 조직 지식 베이스 구축
엔터프라이즈급 안정성과 확장성을 갖춘 기술 기반
Next.js 16 · React 19 · TypeScript · Tailwind CSS v4 · Cytoscape · Three.js
LLM 기반 7단계 파이프라인 · Qwen3 임베딩(4096차원) · 하이브리드 검색(BM25+kNN)
PostgreSQL 16 + pgvector · Neo4j 5 (그래프) · OpenSearch 2.17 (검색) · Redis 7
Soufflé Datalog · Apache Jena Fuseki (RDF/SPARQL) · OWL 온톨로지 · SHACL 검증
BullMQ 큐 · 자동 재시도 · DLQ(실패 큐 관리) · HITL 리뷰 게이트
PROV-O 출처 추적 · ISO 25059 모델 카드 · 5축 품질 게이트 · 사람 검증
Fact Explorer를 가능하게 만드는 세 가지 핵심 기술을 사례와 함께 소개합니다
RAG(Retrieval-Augmented Generation)는 AI가 답변할 때 관련 문서를 먼저 검색하여 참고하는 기술입니다. 하지만 일반 RAG와 Fact Explorer의 GraphRAG는 근본적으로 다릅니다.
| 비교 항목 | 일반 RAG | GraphRAG (Fact Explorer) |
|---|---|---|
| 검색 방식 | 텍스트 청크 유사도 검색 | 하이브리드 검색(BM25+벡터) + 그래프 N-hop 탐색 |
| 컨텍스트 단위 | 비정형 텍스트 조각 | 구조화된 엔티티, 주장, 관계 |
| 멀티홉 질의 | 불가 — A와 C의 관계를 알려면 A→B→C를 모두 포함하는 청크가 필요 | 그래프 탐색으로 최대 3홉까지 자동 확장 |
| 모순 탐지 | 불가 | Datalog 규칙으로 주장 간 상충 자동 발견 |
| 교차 문서 | 하나의 뭉치로 취급 | 글로벌 엔티티 매칭 + 문서 간 관계 추적 |
| 투명성 | 블랙박스 — 어떤 문서를 참고했는지만 표시 | 도구 호출 이력 + 근거 엔티티/주장 추적 + 추론 증명 트리 |
Fact Explorer의 GraphRAG는 질문의 복잡도를 자동 판별한 뒤, 최대 7번의 반복 루프에서 아래 도구들을 조합합니다.
BM25(키워드) + kNN(의미) 하이브리드 검색. RRF(Reciprocal Rank Fusion)로 두 결과를 합산하여 정확도와 의미 모두를 잡습니다.
Neo4j에서 1~3홉 그래프 확장. 시작 엔티티에서 관계를 따라가며 연결된 엔티티, 이벤트, 주장을 발견합니다.
Datalog 규칙으로 미리 추론된 사실을 조회합니다. 모순, 영향력 네트워크, 정책 연결 등 논리적 관계를 반환합니다.
특정 문서의 요약, 분류, 전체 텍스트, 추출된 엔티티/주장 등 원본 컨텍스트를 제공합니다.
여러 문서에 등장하는 동일 인물/기관을 글로벌 엔티티 DB에서 검색합니다. “박완수 도지사가 언급된 모든 회의록”을 찾을 수 있습니다.
Datalog는 “만약 A가 참이고 B가 참이면, C도 참이다”라는 논리 규칙으로 새로운 사실을 자동 추론하는 언어입니다. SQL이 “저장된 데이터를 조회”한다면, Datalog는 “저장된 데이터로부터 새 데이터를 만들어냅니다”. Fact Explorer는 Soufflé 엔진을 사용하여 추출된 지식 그래프에서 사람이 발견하기 어려운 관계를 자동으로 도출합니다.
각 규칙은 추출된 엔티티·관계·주장을 입력받아, 사람이 직접 읽어도 발견하기 어려운 새로운 사실을 만들어냅니다.
추출된 엔티티·관계·주장이 Soufflé에 입력되면, 규칙이 동시에 적용되어 모든 가능한 추론 결과를 한번에 도출합니다.
주장 간 상충 판별에는 임베딩 유사도(코사인 ≥0.85)와 한국어 부정 키워드 탐지가 활용됩니다.
추출된 지식을 대시보드, 그래프, 대화형 AI로 탐색하고 인사이트를 발견합니다
대시보드에서 전체 추출 현황을 한눈에 파악합니다. 문서, 엔티티, 주장, 관계, 추론 결과의 통계와 분포를 실시간으로 모니터링합니다.
추출된 엔티티와 관계를 시각적으로 탐색합니다. 노드를 선택하면 연결된 관계가 하이라이트되고, 점선은 Datalog 추론으로 발견된 간접 관계를 나타냅니다.
노드를 클릭하면 연결된 엣지가 하이라이트됩니다. 위 그래프에서 직접 클릭해 보세요.
DAGRE(계층형), FCOSE(힘 기반), D3-Force(방사형) 버튼으로 배치를 전환해 보세요.
점선(추론 관계)을 켜고 끌 수 있어 원본 데이터만 집중 분석 가능합니다.
자연어로 질문하면 벡터 검색, 그래프 탐색, 추론 조회를 자동으로 조합하여 근거가 있는 구조화된 답변을 생성합니다.
서로 다른 문서에서 추출된 엔티티와 주장을 나란히 비교합니다. 공유 엔티티는 하이라이트되어 입장 변화, 관계 변동을 즉시 파악할 수 있습니다.
Datalog 추론 엔진이 발견한 모순, 영향력 네트워크, 정책 체인 등의 인사이트를 신뢰도 점수와 함께 표시합니다. 각 인사이트는 증명 트리(Proof Tree)로 논리적 추론 경로를 추적할 수 있습니다.
HITL 리뷰, ISO 준수, 감사 추적으로 AI 결과의 투명성과 책임성을 보장합니다
모든 추출 결과는 사람이 검증합니다. 엔티티, 주장, 관계를 항목별로 승인하거나 거부하고, 인라인 편집으로 AI 결과를 직접 수정할 수 있습니다.
엔티티, 주장, 관계를 개별적으로 승인하거나 거부. 거부된 항목은 자동 제외
엔티티 이름, 유형, 주장 내용을 직접 수정. AI 추출 결과를 사람이 정교화
Step 5 품질 점수 80점 미만 시 자동으로 HITL 리뷰로 전환. 40점 미만은 강제 승인 필요
AI 신뢰성 국제 표준 9가지 카테고리 전체에서 “적합” 판정을 받았습니다. 각 카테고리는 실제 구현된 코드와 아키텍처로 뒷받침됩니다.
모델 카드, 파이프라인 스키마, PROV-O 출처 추적 공개
추론 증명 트리, 5축 품질 평가 근거 제공
HITL 단계별 승인/거부/편집, 품질 게이트 자동 분기
Clerk 인증, 보존 기간 정책, 삭제 요청 지원
폴백 매트릭스, Zod 입력 검증, DLQ 장애 격리
API Rate Limiting, 감사 로그, PgBouncer 접근 차단
편향 자동 탐지, Shannon/Simpson 다양성 지수 평가
PROV-O 출처 추적, LLM 메트릭 실시간 수집
Graceful Degradation, 재시도, 원자적 잠금
모든 파이프라인 활동, HITL 리뷰 결정, 품질 게이트 결과가 감사 로그로 기록됩니다. 42단계 검수 가이드를 통해 체계적으로 AI 신뢰성을 검증합니다.
5개 카테고리, 총 42개 검수 항목으로 AI 시스템의 신뢰성을 체계적으로 검증합니다.
ISO/IEC 25059 기반 모델 카드로 AI 모델의 특성, 용도, 한계, 알려진 편향을 투명하게 공개합니다.
Fact Explorer에 대해 궁금한 점을 확인하세요
범용 AI는 질문에 답을 생성하지만, Fact Explorer는 구조화된 데이터를 추출합니다. 단순한 텍스트 요약이 아니라 엔티티·주장·관계를 SPO(주어-서술어-목적어) 구조로 분리하고, 이를 지식 그래프에 저장하여 교차 검증, 추론, 시각화가 가능합니다.
모든 추출 결과는 5축 품질 게이트(완전성·정확성·일관성·구체성·근거품질)를 통과해야 합니다. 80점 미만은 자동으로 사람 검토(HITL)로 넘어가며, 모든 단계에서 PROV-O 기반 출처 추적이 기록됩니다. 근거 없는 주장은 신뢰도 점수로 명확히 구분됩니다.
현재 한국어에 최적화되어 있으며, 특히 지방의회 회의록 형식에 특화된 파서를 갖추고 있습니다. 파이프라인 자체는 다국어를 지원하도록 설계되었으나, 현재 프롬프트와 엔티티 유형은 한국어 도메인에 맞추어져 있습니다.
SPARQL 엔드포인트와 REST API를 제공하므로, 기존 BI 도구나 데이터 분석 시스템에서 추출된 지식 그래프를 직접 쿼리할 수 있습니다. RDF/OWL 표준을 따르므로 시맨틱 웹 생태계와 호환됩니다.
단일 문서는 청크 분할을 통해 길이 제한 없이 처리됩니다. 회의록의 경우 회기별 세션 단위로 자동 분할되어 각각 독립적으로 추출 파이프라인을 통과합니다. BullMQ 큐 기반으로 동시에 여러 문서를 병렬 처리할 수 있습니다.
회의록, 보고서, 논문, 법률문서, 연설문, 뉴스 기사 등 텍스트 기반 문서를 처리합니다. 문서 유형은 자동 분류되며, 각 유형에 맞는 추출 전략이 적용됩니다. 특히 회의록은 화자 분리, 질의-답변 매칭 등 전용 파서가 지원됩니다.
콘솔 대시보드에서 문서·엔티티·주장·관계 현황을 한눈에 파악하고, 인터랙티브 그래프에서 노드와 관계를 직접 탐색할 수 있습니다. GraphRAG 채팅으로 자연어 질문을 하면 벡터 검색·그래프 탐색·추론 조회를 자동 조합하여 근거 기반 답변을 생성합니다. 교차 문서 비교로 동일 인물의 입장 변화나 문서 간 관계를 발견하고, 인사이트 대시보드에서 모순·영향력·정책 체인 등 Datalog 추론 결과를 확인할 수 있습니다.
ISO/IEC TR 24028 기반 9가지 신뢰성 카테고리(투명성·설명가능성·제어가능성·개인정보보호·안전성·보안·공정성·책임성·견고성) 전체에서 '적합' 판정을 받았습니다. 모든 추출 단계에서 HITL(Human-in-the-Loop) 리뷰로 항목별 승인/거부/편집이 가능하고, PROV-O 기반 출처 추적으로 감사 추적이 완전합니다. 42단계 검수 가이드를 통해 개인정보보호·보안·공정성·투명성·견고성 5개 영역을 체계적으로 검증합니다.