CEO
니체 읽던 ‘백신 소년’, 30년 묵은 글로벌 검색 난제 풀다 [이코노 인터뷰]
- 정재필 코그니카 대표
전공 서적 대신 철학 원서 읽던 괴짜 개발자
“점수 대신 확률로”…검색 표준의 틀을 깨다
[이코노미스트 최영진 기자] 1990년대 초반 한 초등학생에게 학교가 개방한 컴퓨터실은 별천지였다. 어쩌면 그의 인생을 결정한 강렬한 기억일 것이다. 그는 10살 때 카세트테이프 기록 방식의 컴퓨터로 어셈블리 언어를 독학하면서 컴퓨터에 빠져들기 시작했다. 그 이유는 “내가 정한 규칙대로 세상을 하나 만드는 느낌”을 주는 신문물이었기 때문이다. 또한 컴퓨터가 가진 수학적인 논리 구조가 자신과 잘 맞는다는 것을 알게 해줬다.
1996년 중학교 2학년 때 당시 ‘5대 컴퓨터 백신’으로 불린 ‘재필 백신’을 개발해 무료로 공개했고, 고등학교 1학년 때 정보올림피아드 대회에서 대상을 타면서 그의 이름이 알려지기 시작했다. 당시 대상을 수상하면 흔히 말하는 유수 대학의 의대에도 진학할 수 있는 특권이 있었지만, 그는 일찌감치 카이스트(KAIST) 전산학과 입학을 결정했다.
고교 2, 3학년 때 그는 카이스트에서 배워야 할 전공을 선행 학습을 하는 시간으로 사용했다. 카이스트 입학 후에는 대학 전공 서적과 함께 현대 철학의 사상가라고 평가받는 니체·비트겐슈타인·소쉬르 등의 현대 철학의 대가들의 원서를 읽는 데 시간을 썼다. 그는 “전공 서적 대신 인문학과 철학 원서를 읽을 수 있던 것은 고교 시절 대학 전공 과목을 미리 공부했기 때문”이라며 웃었다.
그는 학부 과정을 약 1년간 이수한 후, 병역 특례 근무를 위해 NHN에 합류하며 학업을 중단했다. 대학 졸업장을 따는 대신 개발자로 살아가기로 한 이 학생은 30년 뒤, 인공지능(AI) 시대에 맞는 새로운 검색 알고리즘 ‘BB25’를 설계했다. BM25가 30여 년간 표준으로 쓰이는 동안 제기된 한계를 확률 기반으로 재정의한 접근이다. 그가 개발자들의 인스타그램으로 평가받는 ‘깃허브’(GitHub)에 공개한 논문과 코드는 전 세계 검색엔지니어들로부터 주목을 받고 있다.
7.3점과 100점 사이, 그 모호함을 확률로 해결
이 스토리의 주인공은 정재필 코그니카 대표다. 그는 BB25 개발에 성공한 이유를 “철학을 공학에 적용해 난제를 풀 수 있었다”고 알 듯 모를 듯한 난제를 기자에게 다시 던졌다. 코그니카는 정 대표가 2023년 창업한 리서치(연구개발) 스타트업이다. 코그니카는 정 대표를 포함해 연구개발자 2명과 관리자 1명밖에 없는 스타트업이다.
BB25는 1994년 발표된 검색 엔진의 기본 알고리즘인 BM25(Best Matching 25)에 이어 새롭게 등장한 벤치마크이다. 정 대표가 혼자서 80만줄 이상의 코드를 짠 코그니카 DB에 탑재된 핵심 기술 중 하나이다.
BM25는 공식이 단순하지만 성능이 좋고, 별도의 학습(훈련 데이터) 없이도 바로 작동한다. 또한 검색 결과에서 ‘단어가 얼마나 나오나’ ‘문서에 몇 번 나왔나’ 등의 결과물이 바로 나오기 때문에 검색 결과를 설명하기 쉽다는 장점이 있다. 30여년 동안 BM25가 대표적인 검색 알고리즘으로 사용된 이유다. 구글이나 마이크로소프트, 네이버 등의 검색 플랫폼을 운영하는 빅테크 기업들은 이 알고리즘에 자신들의 기술력을 더해서 검색 결과를 높여주고 있는 셈이다.
정 대표는 BM25에 대해 “문제는 BM25의 점수가 만점이라는 것이 없기 때문에 검색 결과 점수가 7.3점이 나오거나 100점이 나오거나 해도 이 검색 결과물이 어떤 게 더 좋다라는 것을 평가하기 어렵다”고 지적했다. ‘삼성 주가’로 검색했을 때 검색 결과가 7.3점이 나오는 것과 ‘반도체 수출’로 검색했을 때 7.3점이 전혀 다른 의미라는 것이다. 심지어 검색 결과 점수가 100점이 나왔다고 해도 이게 정확도와 관련성이 완벽하다는 것을 말하지 않는 것이다. 어떤 검색 결과에서는 이보다 더 높은 점수가 나올 수 있기 때문이다. 정 대표는 “BM25 알고리즘은 1~100점처럼 범위가 정해져 있지 않기 때문에 7.3점이 나왔을 때 이게 관련성이 높은 것인지 낮은 것인지를 판단할 수 없었다”고 지적했다.
정 대표가 개발한 BB25는 30년 동안의 난제를 확률로 변환시켜 해결했다. 통계를 적용해 BM25의 점수를 0~1 사이의 확률값으로 변환하면서 “이 문서가 검색어와 관련이 있을 확률이 73%다” 등의 해석이 가능해진 것이다. 비교 기준이 없던 기존 점수를 73%와 같은 확률로 변환하면서 검색 결과의 합산이나 비교, 순위 매기기가 가능해진 것이다.
정 대표는 BM25를 대체하는 새로운 모델을 구축하는 대신, BM25의 점수 체계 자체를 수학적으로 재해석했다. 수차례의 실패 끝에 특정 조건 하에서 전개된 베이즈 확률 수식이 BM25 수식과 동일하다는 사실을 증명했다. 이를 바탕으로 산출 점수를 0에서 1 사이의 확률값으로 변환하는 BB25를 완성했다.
확률 변환을 통해 “해당 문서가 검색어와 관련 있을 확률이 73%와 같은 직관적 해석이 가능해졌다”고 정 대표는 설명했다. 또한 “사과 2개와 오렌지 3개를 더하기 위해 각각의 고유 영양소 단위로 환산하여 결합하는 원리”라고 서술했다. 쉽게 말해 단위가 확률로 통일됨에 따라 AI 벡터 검색 점수와의 결합이 임의의 가중치 없이 수학적 근거를 바탕으로 이루어지게 된 셈이다. 또한 검색 결과의 품질을 사전 확률로 측정할 수 있어 정확도가 낮은 문서를 대규모언어모델(LLM)에 입력하기 전 차단할 수 있어 환각 현상을 방지할 수 있게 됐다.
1600줄 분량 핵심 코드 깃허브에 게재…엠텝 관리자가 먼저 연락
정 대표는 해당 알고리즘의 수학적 증명을 담은 논문과 1600줄 분량의 핵심 코드를 깃허브에 게재하면서 전 세계 검색엔지니어들의 주목을 받았다. 이를 공개한 이후 2개월 만에 해외에서 먼저 반응이 나타났다. 글로벌 텍스트 임베딩 모델 성능 평가 플랫폼인 허깅페이스 엠텝(MTEB)의 관리자가 그에게 직접 연락을 했다. 수학 전공자인 엠텝의 관리자는 정 대표의 논문과 코드를 검토한 후, BB25를 엠텝의 공식 베이스라인(Baseline)에 채택하겠다는 의사를 전달하며 실제 구동을 위한 코드 이관 작업을 요청한 것이다. 정 대표는 “기존 BM25 검색 알고리즘은 AI 시대의 변화를 잘 보여주지 못했는데, BB25가 AI 시대의 검색이 가야 할 방향성을 제시한 것이다”라면서 “
엠텝의 베이스라인은 오픈AI, 구글 등 글로벌 빅테크 기업들이 자사 AI 모델의 검색 성능을 평가할 때 비교 기준으로 삼는 공식 지표다. 특정 알고리즘이 베이스라인으로 채택된 것은 해당 분야의 국제 표준 규격으로 인정받는 것과 동일한 기능을 수행한다. 대규모 연구팀이나 빅테크 기업이 아닌 1인 개발자가 작성한 코드가 30년간 업계의 단일 기준이었던 BM25와 나란히 글로벌 검색 AI의 새로운 공식 기준으로 등록된 것이다.
그가 30년 동안 풀지 못했던 난제를 해결한 이유를 “인문학 연구를 통해 논리적인 근거를 찾을 수 있었기 때문”이라고 단언했다. 그의 이런 자부심은 개인 기술 블로그를 보면 확인할 수 있다. 그는 기술적인 담론을 다루는 개인 블로그를 영어로 작성하고 있는데, 매번 현대 철학자의 담론을 인용하고 있다.
코그니카는 개발자 2명과 제품 관리자 1명으로 운영된다. 현재까지 뮤렉스파트너스 등으로부터 8억원의 투자를 유치했다. 뮤렉스파트너스의 포트폴리오 기업인 중고차 매매 단지 시스템에 AI 및 코그니카 데이터베이스를 결합하는 기술 컨설팅을 수행하면서 창업 이후 빠르게 매출을 기록했다.
정 대표는 오픈소스 기반의 기술 확산을 최우선 목표로 삼고 있다. 향후 코그니카 데이터베이스의 축소된 버전을 개발자 생태계에 무료로 배포할 계획이다. 단기적인 수익 창출보다 다수의 오픈소스 프로젝트에 코그니카 DB가 채택되는 것을 성과 지표로 설정했다. 정 대표는 “글로벌 검색 인프라에 BB25 알고리즘이 적용되면, 해당 기술을 특정 기업 도메인에 최적화하기 위한 기술 자문 및 커스터마이징 수요가 자연스럽게 창출될 것”이라고 자신했다. 코그니카는 당분간 리서치 성과를 기반으로 한 기술 리더십 확보에 집중할 것임을 재차 강조했다.
ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지






![혹시 밥 친구가 필요하세요?... 그렇다면 오늘은 ‘이자반’ [김지혜의 ★튜브]](https://img.edailystarin.co.kr/data/isp/image/2026/04/19/isp20260419000032.400.0.png)
!['2NE1' 맏얻니의 샤넬♥...셀럽의 출국룩 가격은? [얼마예요]](https://image.economist.co.kr/data/ecn/image/2026/04/18/ecn20260418000015.400.0.png)
당신이 좋아할 만한 기사
브랜드 미디어
브랜드 미디어
“비트코인 400만개 양자공격에 취약”…코인 급락 충격
세상을 올바르게,세상을 따뜻하게일간스포츠
일간스포츠
이데일리
‘주스 아저씨’ 故 박동빈, 오늘(1일) 발인…동료들 추모 속 영면
대한민국 스포츠·연예의 살아있는 역사 일간스포츠일간스포츠
일간스포츠
일간스포츠
160조 자금 떠났다...韓 디지털자산 시장 경고등
세상을 올바르게,세상을 따뜻하게이데일리
이데일리
이데일리
"잘 사고 잘 키우고 잘 팔았다"…글랜우드PE, 종합대상 영예
성공 투자의 동반자마켓인
마켓인
마켓인
큐로셀, 韓 첫 CAR-T 승인…상업화 관건은?
바이오 성공 투자, 1%를 위한 길라잡이팜이데일리
팜이데일리
팜이데일리