|
|
|
|
|
 |
추천 검색 랭킹 중 하나를 개선해야 한다면 어떤 지표로 무엇부터 보겠나요
이 프로젝트에서 제가 얻은 가장 큰 배움은, 추천은 모델보다 정책이라는 점입니다.
데이터와 모델만으로 끝내지 않고, 서비스 구조로 연결하는 것.
데이터 처리, 모델링과 서빙, 서비스 개발, 그리고 운영과 품질입니다.
예를 들어 리뷰 기반 속 성 추출을 상품 상세 개선과 연결하거나, 검색 쿼리 정규화로 특정 카테고리 전환을 올리거나, CS보조도구로 상담원의 처리 시간을 줄이는 형태의 결과를 만들 수 있습니다.
저는 무엇을 만들지보다, 어떻게 운영 가능한 형태로 남길지를 더 중요하게 생각합니다.
가장 먼저 만들고 싶은 것은 검색과 추천의 "품질을 바꾸는 데이터 파이프라인 "입니다.
모델을 바로 바꾸기보다, 먼저 데이터가 무엇을 말하고 있는지 정리해야 빠르게 개선이 가능합니다.
|
|
|
 |
대학이나 교육과정에서 모델을 만들고 끝나는 프로젝트는 많지만, 실제 현업에서는 모델보다 파이프라인, 데이터 품질, 배포와 모니터링, 운영정책이 성패를 갈랐습니다.
첫 번째 프로젝트는 패션 상품 검색 품질을 개선하는 실험형 검색시스템 구축입니다.
사용자가 덜 헤매기 시작했다는 뜻이었습니다.
두 번째 프로젝트는 스타일 기반 추천 시스템의 프로토타 입 구축입니다.
패션 추천은 단순히 비슷한 상품을 추천하는 것이 아니라, "이 사람의 취향과 상황"을 반영해야 합니다.
저는 사용자 행동로 그가 제한적인 상황을 가정해, 콜드스타트 대응을 포함한 하이브리드 추천 구조를 만들었습니다.
상품 임베딩은 텍스트 설명, 카테고리, 브랜드, 가격대, 색상, 소재 정보를 결합해 만들었고, 이미지 임베딩을 붙여 시각적 유사성도 반영했습니다.
이 프로젝트에서 제가 얻은 가장 큰 배움은, 추천은 모델보다 정책이라는 점입니다.
문서 인 덱싱은 FAQ, 정책문서, 배송반품 규정, 쿠폰 정책 같은 텍스트를 단락 단위로 분할 해임베딩했고, 검색 결과를 LLM 프롬프트에 넣어 요약과 답변 초안을 생성하게 했습니다.
이도구를 통해 상담원은 답변 작성 시간을 줄이고, 정책문서 탐색시간을 크게 단축할 수 있었습니다.
네 번째 프로젝트는 리뷰텍스트 분석 기반의 상품 개선 인 사이트 추출 시스템입니다.
데이터 처리, 모델링과 서빙, 서비스 개발, 그리고 운영과 품질입니다.
데이터 처리에서는 Python을 중심으로 작업했습니다.
데이터 전처리, 피처 생성, 로그분석, 실험 데이터 셋 구성 같은 업무를 파이프라인으로 만들 때는 Pandas, NumPy를 기본으로 쓰고, 데이터가 커지면 분산 처리 환경을 고려해 처리 방식을 분리했습니다.
텍스트 데이터는 토큰화, 정규화, 형태 소기반 전 처리와 함께, 임베딩 생성과 인덱싱까지 연결했습니다.
같은 모델이라도 데이터가 바뀌면 결과가 달라지기 때문에, 저는 "어떤 데이터로 어떤 설정을 돌렸는지"를 남기지 않는 실험은 의미가 없다고 봅니다.
제가 중요하게 보는 것은 모델이 "노트북에서 잘 돌아가는 것"이 아니라, 서비스 환경에서 "항상 같은 방식으로 돌아가는 것"입니다.
모델은 결국 환경의 영향을 받기 때문에, 운영지표를 모니터링하지 않으면 성능은 조용히 무너집 니다.
예를 들어 리뷰 기반 속 성 추출을 상품 상세 개선과 연결하거나, 검색 쿼리 정규화로 특정 카테고리 전환을 올리거나, CS보조도구로 상담원의 처리 시간을 줄이는 형태의 결과를 만들 수 있습니다.
저는 무엇을 만들지보다, 어떻게 운영 가능한 형태로 남길지를 더 중요하게 생각합니다.
가장 먼저 만들고 싶은 것은 검색과 추천의 "품질을 바꾸는 데이터 파이프라인 "입니다.
모델을 바로 바꾸기보다, 먼저 데이터가 무엇을 말하고 있는지 정리해야 빠르게 개선이 가능합니다.
비용과 지연은 프롬프트 길이와 호출 횟수에서 결정되므로, 문서 검색 단계에서 가장 관련 있는 근거만 선택해 넣고, 반복 질문은 캐싱합니다.
예시로 "추천 클릭 이벤트에 노출 ID와 후보군 생성방식 정보를 함께 남겨야 원인 분석이 된다"처럼, 왜 필요한지와 어떤 형태로 남길 지까지 구체화하면 충돌이 줄어듭니다.
가장 아쉬운 선택은 초기에 오프라인 지표에만 집중했던 경험입니다. |
 |
만들다, 추천, 모델, 데이터, 검색, 기반, 어떻다, 보다, 카테고리, 클릭, 지표, 개선, 결과, 이다, 운영, 생, 노출, 처리, 형태, 사용자 |
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|