본문 바로가기
논문&세미나 리뷰

Enabling Conversational Interaction with Mobile UI using Large Language Models 요약

by 우당탕탕 is me 2024. 4. 9.

논문 출처 ➡️ https://arxiv.org/abs/2209.08655

 

Enabling Conversational Interaction with Mobile UI using Large Language Models

Conversational agents show the promise to allow users to interact with mobile devices using language. However, to perform diverse UI tasks with natural language, developers typically need to create separate datasets and models for each specific task, which

arxiv.org

 

Abstract


대화형 에이전트는 사용자가 언어를 사용하여 모바일 장치와 상호 작용할 수 있도록 하는 가능성을 보여줌. 그러나 자연어로 다양한 UI 작업을 수행하려면 개발자는 일반적으로 각 특정 작업에 대해 별도의 데이터 세트와 모델을 만들어야 하며 이는 비용과 노력이 많이 소요. 본 논문 에서는 단일 LLM을 사용하여 모바일 UI와의 다양한 대화 상호 작용을 가능하게 하는 타당성을 조사. LLM을 모바일 UI에 적용하기 위한 프롬프트 기술을 설계. 대화 상호 작용의 다양한 시나리오를 다루는 네 가지 중요한 모델링 작업을 실험. 이 방법은 전용 데이터 세트와 교육 없이 이러한 까다로운 작업에서 경쟁력 있는 성능을 달성했으며 , 언어 기반 모바일 상호 작용을 가능하게 하는 가볍고 일반화 가능한 접근 방식을 제공.

Instruction


Google Assistant 및 Siri 와 같은 지능형 보조자는 타이머 설정과 같은 간단한 일상 작업을 수행하기 위해 상당히 발전된 언어 기반 상호 작용을 갖추고 있음. 이러한 발전에도 불구하고 이러한 보조자는 많은 사용자 작업이 수행되는 모바일 UI에서 대화 상호 작용을 지원하는 데 여전히 한계에 직면. 우리는 실험적 작업 선택을 안내하는 4가지 모바일 UI 대화 상호작용 시나리오를 분류. 우리는 모바일 UI로 LLM을 프롬프트하는 일련의 프롬프트 기술을 개발. 우리의 작업은 LLM을 사용하여 모바일 UI에서 대화형 상호 작용을 가능하게 하는 첫 번째 조사로, 상호 작용 작업에 LLM을 사용하는 방법에 대한 이해를 향상시킴. 자연어에 대해 사전 훈련된 GUI를 LLM에 제공하는 새로운 방법 과 LLM이 모바일 UI 화면에서 다양한 대화 작업을 수행하도록 유도하는 일련의 기술을 설계. 이러한 기술은 경쟁력 있는 성과를 창출. 다른 사람들이 작업에 즉시 사용할 수 있도록 코드를 오픈 소스로 제공. 네 가지 주요 모델링 작업을 실험하여 대화형 GUI 상호 작용 에 LLM을 적용하고 GUI용 대화형 에이전트 개발 장벽을 잠재적으로 낮추는 접근 방식의 타당성을 입증.

Method


모바일 작업을 수행할 때 사용자와 에이전트 간의 네 가지 대화 시나리오를 분류하는 개념적 프레임워크를 개발. LLM이 모바일 UI를 기반으로 대화형 에이전트의 상호 작용 기능을 활성화하는 방법(예: 사용자를 대신하여 언어 응답 제공 또는 UI 작업 수행)을 연구하는 데 중점. 단순화를 위해 연구를 사용자와 상담원의 최대 한 번의 전환을 포함하는 단위 대화로 제한. 모바일 UI에서 정보 요청은 일반적으로 입력 텍스트 필드를 통해 이루어짐. 대화형 에이전트는 자연어를 사용하여 사용자로부터 필수 정보를 유사하게 요청할 수 있어야 함. 모바일 UI의 뷰 계층 구조를 HTML 구문으로 변환하면 UI 요소의 세부 속성과 구조적 관계를 유지. 클래스 매핑. 우리는 유사한 기능을 가진 HTML 태그에 An‑droid 클래스를 매핑하는 경험적 방법을 개발. 본 실험에서는 작업 설정에 다단계 추론이 필요한 화면 질문 생성 기법만 사용.

Finding


중요한 점은 모바일 UI에서 새로운 언어 상호 작용의 프로토타입을 만드는 것이 데이터 예시를 디자인하는 것만큼 쉬울 수 있다는 것 . 결과적으로 인터랙션 디자이너는 최종 사용자와 함께 새로운 아이디어를 테스트하기 위해 작동하는 모형을 신속하게 만들 수 있음. 생각 연쇄 프롬프트를 사용하는 것과 같은 보다 복잡한 프롬프트의 경우 향후 작업에서는 LLM을 사용하여 사용자의 프롬프트 작성을 지원하는 방법을 탐색할 수 있음.

Discussion


모델은 화면 질문 생성 작업에서 질문 조합 동작, 즉 관련 입력 필드를 단일 질문으로 병합하는 동작을 보여줌. 또한, 우리 연구에서는 모델이 내장된 사전 지식을 활용하여 화면 요약 작업에 추가 정보를 제공할 수 있음. 이러한 기능은 흥미롭고 잠재적으로 유용하지만, 현재 이러한 행 동이 언제 어떻게 발생해야 하는지에 관해 LLM을 조종하기 위한 직접적인 제어가 부족.

Conclusion


모바일 UI에서 다양한 대화 상호 작용을 가능하게 하기 위해 LLM을 유도하는 타당성을 조사. 모바일 작업 중 사용자와 에이전트 간의 대화 시나리오를 분류함으로써 우리는 연구해야 할 네 가지 중요한 UI 작업을 식별. LLM을 모바일 UI에 적용하기 위한 일련의 프롬프트 기술을 제안.

 

 

Abstract:

Interactive agents demonstrate the potential for users to interact with mobile devices using natural language. However, to perform various UI tasks with natural language, developers typically need to create separate datasets and models for each specific task, which incurs significant cost and effort. This paper investigates the feasibility of using a single Large Language Model (LLM) to enable various conversational interactions with mobile UIs. It designs prompt techniques for applying LLM to mobile UIs and experiments with four crucial modeling tasks covering different scenarios of conversational interaction. This approach achieves competitive performance in these challenging tasks without dedicated datasets or training, providing a lightweight and generalizable approach to enabling language-based interactions with mobile UIs.

 

Instruction:

Intelligent assistants like Google Assistant and Siri have advanced language-based interactions for performing simple daily tasks such as setting timers. Despite these advancements, these assistants still face limitations in supporting conversational interactions on mobile UIs where many user tasks are performed. The paper classifies four experimental scenarios for guiding task selection in mobile UI conversational interactions. It develops a series of prompt techniques for prompting LLMs on mobile UIs and enhances understanding of using LLMs for interaction tasks. It designs new methods for providing pre-trained GUIs for LLMs and guiding them to perform various conversational tasks on mobile UI screens. These techniques yield competitive results and are provided as open-source code for immediate use by others.

 

Method:

Develops a conceptual framework for classifying four conversation scenarios between users and agents in mobile tasks. Focuses on studying how LLMs can activate interactive functions of conversational agents based on mobile UIs (e.g., providing language responses or performing UI operations). For simplicity, research limits interactions to unit conversations, including at most one transition between the user and the agent. Information requests in mobile UIs usually occur through input text fields. Conversational agents should be able to request essential information from users using natural language similarly. Converting the view hierarchy structure of mobile UIs into HTML syntax maintains the detailed properties of UI elements and structural relationships. Class mapping develops an empirical method for mapping Android classes to similar functions in HTML tags. Only screen question generation techniques requiring multi-step inference for task setting are used in this experiment.

 

Finding:

A crucial point is that creating prototypes for new language interactions on mobile UIs can be as easy as designing data examples. Consequently, interaction designers can quickly create working models to test new ideas with end-users. For more complex prompts, such as those using chain-of-thought prompts, future work can explore ways to support user prompt generation using LLMs.

 

Discussion:

The model demonstrates question combination operations in screen question generation tasks, merging related input fields into a single question. Additionally, our research shows that the model can utilize embedded prior knowledge to provide additional information in screen summarization tasks. While these functionalities are intriguing and potentially useful, there is a lack of direct control over LLMs regarding when and how these actions should occur.

 

Conclusion:

Investigates the feasibility of inducing LLMs to enable diverse conversational interactions on mobile UIs. By classifying scenarios of conversations between users and agents during mobile tasks, we identify four important UI tasks to research. Proposes a series of prompt techniques for applying LLMs to mobile UIs. It is the first investigation into using LLMs for interactive tasks on mobile UIs, enhancing understanding of using LLMs for interaction tasks. Develops new methods for providing pre-trained GUIs to LLMs and guiding them to perform various conversational tasks on mobile UI screens. These techniques generate competitive results and are offered as open-source code for immediate use by others. Demonstrates the application of LLMs to interactive GUI interactions and validates the approach's potential to potentially lower the development barriers for developing GUI interactive agents.

728x90
반응형