모달리티라는 개념은 AI 분야에서 ChatGPT-4부터 가능해진 멀티모달이란 용어가 등장하면서 유명해진 것 같지만, 사실 HCI나 인간공학 분야에서 오래토록 연구되어 왔던 주제들에서 핵심 키워드에 해당한다. 멀티모달이라고 하면 서로 다른 종류의 input이 가능하다는 단편적인 의미로만 쓰이는 것 같고, 좀 더 포괄적인 개념에 대한 이해가 부족한 것 같아 정리해보려 한다. 다시 돌아가서, 그렇다면 modality는 input인가? 겹치는 부분이 있을 수야 있겠지만 동치는 아니다.
모달리티 (Modality)
인간의 감각, 행동, 또는 의사소통 방법을 나타내는 용어로, 특정한 종류의 정보를 처리하거나 표현하는 방식
모달리티는 단순히 입력 방식(input) 이상의 개념으로, 정보의 전달 방법과 표현 방식을 포함한다. 모달리티는 주로 감각과 연관되며, 세 가지의 유형으로 분류할 수 있다.
감각 모달리티, 오감
- 시각 (Visual)
- 청각 (Auditory)
- 촉각 (Tactile)
- 미각 (Gustatory)
- 후각 (Olfactory)
의사소통 모달리티
- 언어 (말하기, 쓰기)
- 몸짓 (제스처, 표정)
- Digital Interface (화면, 키보드, 터치 등)
행동 모달리티
- 움직임 (제스처, 터치)
- 사용자 입력 (마우스, 터치 스크린, 음성 명령 등)
멀티모달 (Multimodal)
다양한 모달리티를 동시에 사용하거나 통합하는 개념
ChatGPT-4에서 이미지와 텍스트를 동시에 전달하거나, 사람의 경우 대화와 몸짓 등을 결합하여 의사를 전달할 수 있는데 멀티모달 시스템은 이런 다중 모달리티를 처리하거나 활용하는 기술 또는 시스템을 의미한다. 따라서 멀티모달이란 개념은 상당히 많은 분야에서 쓰일 수 있다!
HCI 분야에서는 사용자 경험을 증대하기 위해 음성 명령과 터치 스크린을 결합한 인터페이스 연구 등에서 등장하며, AI/ML 분야에서는 앞서 기술한대로 텍스트와 이미지를 함께 학습하는 멀티모달 AI 모델 연구 등에서 등장한다. 이 밖에도 의료나 자율주행 분야에서도 활용된다.
멀티모달 AI의 예시
이런 다중 모달리티를 활용한 AI 모델에는 어떤 것들이 있을까? 텍스트와 이미지를 함께 학습하는 모델인 CLIP, 텍스트를 통해 이미지를 생성하는 DALL-E, 그리고 입력과 출력 모두에서 다중 모달리티가 가능한 GPT-4의 Multimodal 등이 있다. 멀티모달을 활용하면 모델에게 좀 더 풍부한 요청으로 정확한 답변을 기대할 수 있고, 모델 또한 사용자에게 다채로운 정보를 제공함으로써 사용성을 개선할 수 있는 장점이 있다.
'Research' 카테고리의 다른 글
[Terminology] Situation Awareness에 대해 알아보자 (0) | 2024.11.27 |
---|---|
[Terminology] 체계적 문헌 고찰, PRISMA에 대해 알아보자 (0) | 2024.11.23 |
인간공학에서 AI는 어떻게 쓰일까? - ML, XAI, CV, LLM (3) | 2024.11.21 |
[Terminology] XAI에 대해 알아보자 - Explainable Artificial Intelligence (0) | 2024.11.20 |
[HFE] Introduction to Human Factors and Ergonomics (4) | 2024.10.21 |