포드 조립 라인 검수실에서 베테랑 엔지니어들이 수개월 만에 다시 자리를 잡았습니다. 이들이 처음 그 자리를 떠날 때, 이유는 간결했습니다. AI 비전 시스템이 초당 수백 장의 이미지를 분석하고, 인간의 눈으로는 놓칠 수 있는 미세한 흠집을 더 빠르게 잡아낼 수 있다는 보고가 있었습니다. 수십 년 경력의 기술자보다 오류율이 낮다는 평가도 내부에서 나왔습니다. 그러나 포드는 수개월 뒤 그 결정을 되돌렸습니다. BBC 보도에 따르면, AI 품질 검수 시스템이 숙련 기술자의 판단 수준에 이르지 못했고, 포드는 해당 엔지니어들을 재고용하기로 했습니다.

자동차 공장에서 올라온 이 결정이 그 안에서만 논의될 이유는 없습니다.

AI가 놓친 것은 흠집이 아니라 현장의 맥락이었습니다

포드가 AI에 맡긴 일은 제품 표면의 이상을 탐지하는 것이었습니다. 원칙적으로 AI가 적합한 영역처럼 보입니다. 이미지 인식 정확도에서 딥러닝 모델이 인간을 앞선다고 알려진 분야이고, 2022년 이후 산업 현장 비전 AI 도입 사례는 빠르게 늘었습니다. 포드 같은 대형 제조사들이 파일럿 프로그램을 확대해 온 것도 그 흐름의 일부였습니다.

그러나 품질 검수는 픽셀을 비교하는 일이 아닙니다. 베테랑 엔지니어들은 특정 배치의 소재, 그날의 온도와 습도, 전날 라인에서 있었던 미세한 조정이 어떻게 제품 표면에 나타나는지를 경험으로 압니다. 이 배치에서 나온 패널은 왼쪽 하단 모서리가 약간 밀릴 수 있다는 것, 그것이 불량인지 허용 범위 안인지를 판단하는 데는 수치 외에 맥락이 따릅니다. AI 시스템은 학습 데이터로 훈련받은 패턴을 인식하지만, 공장 내 변수들이 매일 달라지는 환경에서는 이 맥락 감지 능력에 한계를 드러냈습니다.

비슷한 사례는 포드만이 아닙니다. 항공 부품 검수 현장에서도 비슷한 피드백이 보고되었고, 반도체 팹에서도 AI와 인간 검수를 병행하는 하이브리드 방식을 유지하는 곳이 늘고 있습니다. 공정이 복잡할수록, 오류 하나가 큰 비용으로 이어질수록, 인간 판단을 완전히 걷어내는 방식이 오히려 리스크를 키웁니다.

맥락을 이해하는 것과 패턴을 인식하는 것은 다른 능력입니다. 현재 대부분의 AI 시스템은 후자에 강합니다. 변수가 고정된 환경, 입력이 명확하게 정의된 조건에서는 AI의 패턴 인식이 인간보다 일관성 있게 작동합니다. 그러나 현장 변수가 매일 조금씩 달라지고, 그 변화가 판단 기준 자체에 영향을 미치는 환경에서는 상황이 달라집니다. 포드의 엔지니어들이 가진 것은 학습 데이터에 담기 어려운 종류의 경험이었습니다.

그렇다고 'AI 실패'라는 해석도 정확하지 않습니다

포드의 재고용 결정을 "AI 실패, 인간 복귀"로 단순화하면 중요한 부분을 놓칩니다. AI 비전 시스템이 특정 환경에서 충분한 성과를 내지 못했다는 것이, 제조 현장 전체에서 AI 품질 검수가 유효하지 않다는 의미는 아닙니다. 도요타와 보쉬 같은 제조사들은 AI 품질 검수 시스템을 확대하면서 불량률을 실제로 낮췄다고 보고합니다. 포드의 실패가 기술 자체의 한계가 아니라, 도입 환경과 운영 설계에서 온 문제였을 가능성을 배제하기 어렵습니다.

포드의 결정에는 비용 계산도 포함되어 있습니다. AI 시스템 초기 구축 비용, 지속적인 데이터 레이블링과 모델 재훈련 비용, 그리고 재고용에 따른 인건비를 비교했을 때 어느 쪽이 유리한지를 외부에서 알기는 어렵습니다. 당장의 품질 문제를 해결하기 위해 검증된 방법으로 돌아간 것이며, AI 품질 검수를 영구적으로 포기하겠다는 신호로 읽기는 어렵습니다.

포드가 남긴 물음은 AI를 쓸 것이냐 쓰지 않을 것이냐보다 훨씬 좁습니다. 어떤 조건에서, 어떤 설계로, 어떤 인간 판단과 병행할 것이냐에 가깝습니다. AI를 도입하면서 인간 전문성을 한꺼번에 걷어냈을 때 어떤 일이 생기는지를, 포드는 수개월의 운영 결과로 보여줬습니다.

지금 팀 안에서 확인해야 할 것

포드의 이 결정에서 한국 1인 사업자나 중간관리자가 끌어내야 할 물음은 자동차 공장 안에 머물지 않습니다.

지난 2년간 국내 현장에서 반복된 패턴이 있습니다. AI 도구를 도입하면서 기존 담당자의 역할을 줄이거나, 숙련 인력의 업무를 자동화로 대체하는 결정들이 빠르게 내려졌습니다. 콘텐츠 검수, 데이터 정리, 고객 응대 같은 영역에서 이 경향이 두드러졌습니다. 도구가 일정 수준의 작업을 처리할 수 있다는 것은 사실입니다. 그러나 그 도구가 어떤 상황에서 맞고 어떤 상황에서 틀리는지를 판단하는 능력, 즉 도구의 오류를 감지하는 능력은 그 일을 직접 해온 사람에게 있습니다.

채용 현장을 오래 다뤄온 실무자들이 공통으로 지적하는 것이 있습니다. 특정 직무의 판단 기준이 어디서 나오는지, 왜 그렇게 설정되었는지를 아는 사람이 실제로 드물다는 것입니다. 공고에 적힌 자격 요건이나 시스템으로 걸러낸 스펙보다, 그 일을 오래 해온 사람이 가진 판단 기준이 현장에서 더 정확하게 작동하는 경우가 많습니다. 포드의 베테랑 엔지니어들이 가진 것도 그런 종류의 자산이었습니다.

실무적으로 점검할 질문은 단순합니다. 지금 AI 도구를 사용하고 있다면, 그 도구의 출력이 틀렸을 때 누가 그것을 알아채는지를 먼저 확인해야 합니다. AI 도구 도입 이전에 그 판단을 하던 사람이 여전히 팀 안에 있는지, 아니면 이미 역할을 잃었는지를 살펴야 합니다. AI 도구가 실수할 때 제동을 걸 수 있는 사람이 없으면, 오류가 쌓이는 속도도 AI만큼 빠릅니다.

도입 속도와 검증 주기를 분리하는 것도 점검할 만합니다. 많은 경우 AI 도구 도입은 빠르게 이루어지지만, 그 도구가 실제 업무에서 얼마나 정확하게 작동하는지를 점검하는 주기는 설정되어 있지 않습니다. 포드가 수개월 뒤에 문제를 파악했다는 사실은, 검증 없는 도입이 어디로 이어지는지를 보여주는 하나의 사례입니다.

숙련자를 내보내는 비용이 유지하는 비용보다 낮아 보이는 순간이 있습니다. 그 계산이 틀렸을 때 어떤 일이 벌어지는지, 포드는 재고용이라는 형태로 그 답을 제출했습니다.