본문 바로가기

IT⬝AI⬝기술

Orange 3 소개와 특징 (2) - 주요 위젯

 

안녕하세요. 쪽방노마드입니다. 이번 시간에는 Orange 3의 화면과 주요 위젯에 대해 알아보겠습니다.

 

Orange 3는 시각적 프로그래밍을 통해 데이터 분석, 머신러닝, 그리고 시각화를 할 수 있는 오픈 소스 데이터 과학 툴킷입니다. 주로 비전공자나 데이터 분석 경험이 적은 사용자들을 위해 설계되었으며, 직관적이고 사용하기 쉬운 그래픽 사용자 인터페이스(GUI)를 제공합니다.

오렌지3 예제

1. 화면 레이아웃과 위젯

 

Orange 3 화면 구성

 

1) UI 레이아웃

 

오렌지3는 크게 왼편의 위젯(Widget) 모음과 오른쪽의 작업영역(Canvas)로 구성됩니다. 주요 작업은 왼편의 위젯을 클릭하거나 드래그하여 캔버스에 위치시키면서 작업을 진행합니다. 캔버스의 위젯을 더블 클릭하면 세부 설정을 위한 메뉴창이 보여지게 됩니다. 

 

오렌지3 위젯 메뉴창

 

2) 위젯(Widget)

 

위젯은 작업을 수행기 위한 기본 요소입니다. 다른 위젯과 연결되기도 하고 더블 클릭하여 세부 설정을 할 수 있습니다. 이 위젯의 종류와 특징을 이해하는 것이 오렌지3의 가장 중요한 기능이라고 할 수 있습니다.

 

Orange 3의 주요 Widget은 데이터 시각화, 전처리, 모델링, 평가 등 다양한 작업을 수행할 수 있는 도구들로 구성되어 있습니다. 각각의 주요 Widget에 대해 간단히 설명해 드리겠습니다.

데이터 시각화:
- Scatter Plot: 데이터 포인트를 산점도로 시각화하여 변수 간 관계를 탐색할 수 있는 Widget입니다.
- Box Plot: 데이터의 분포를 상자 수염 그림으로 시각화하여 이상치를 확인할 수 있는 Widget입니다.
- Heat Map: 데이터의 상관 관계를 열지도 형태로 시각화하여 변수 간 패턴을 파악할 수 있는 Widget입니다.

데이터 전처리:
- Data Table: 데이터를 표 형식으로 표시하여 데이터를 탐색하고 편집할 수 있는 Widget입니다.
- Imputer: 결측값을 대체하는 방법을 선택하여 데이터를 전처리할 수 있는 Widget입니다.
- Feature Selection: 데이터에서 중요한 특성을 선택하여 모델 학습에 사용할 수 있는 Widget입니다.

모델링:
- Classification Tree: 분류 문제를 위한 의사결정 트리 모델을 학습하고 시각화할 수 있는 Widget입니다.
- Regression Tree: 회귀 문제를 위한 의사결정 트리 모델을 학습하고 시각화할 수 있는 Widget입니다.
- k-Means: 군집화 알고리즘 중 하나인 k-Means를 사용하여 데이터를 클러스터링할 수 있는 Widget입니다.

평가:
- Confusion Matrix: 분류 모델의 성능을 평가하기 위한 혼동 행렬을 시각화하여 확인할 수 있는 Widget입니다.
- ROC Curve: 분류 모델의 성능을 평가하는 ROC 곡선을 시각화하여 확인할 수 있는 Widget입니다.
- Regression Evaluation: 회귀 모델의 성능을 평가하는 여러 지표를 시각화하여 확인할 수 있는 Widget입니다.

이외에도 Orange 3에는 다양한 기능을 제공하는 다른 Widget들이 있으며, 이를 조합하여 사용자가 원하는 데이터 분석 워크플로우를 구축할 수 있습니다.

 

3) 위젯 입출력 채널

 

Orange 3에서는 위젯 간에 데이터 및 작업 결과를 전달하기 위해 입출력 채널을 사용합니다. 이러한 채널은 데이터의 흐름을 제어하고 각 위젯의 입력과 출력을 관리하는 데 중요한 역할을 합니다.

입력 채널 (Input Channel):  입력 채널은 다른 위젯으로부터 데이터를 받아들이는 역할을 합니다.

 

각 위젯은 하나 이상의 입력 채널을 가질 수 있으며, 이를 통해 다른 위젯이 생성한 데이터를 받아들일 수 있습니다.
입력 채널은 다양한 데이터 유형을 받아들일 수 있으며, 이에 따라 데이터 타입을 변환하거나 필요한 경우 데이터를 전처리할 수 있습니다.

 

출력 채널 (Output Channel): 출력 채널은 해당 위젯이 생성한 데이터를 다른 위젯으로 전달하는 역할을 합니다.


각 위젯은 하나 이상의 출력 채널을 가질 수 있으며, 이를 통해 생성된 데이터를 다른 위젯에 전달할 수 있습니다.
출력 채널은 다양한 데이터 유형을 전달할 수 있으며, 이를 통해 다른 위젯이 원하는 형식으로 데이터를 사용할 수 있습니다.

 

데이터 흐름 관리:  Orange 3에서는 위젯들 사이의 데이터 흐름을 그래픽 인터페이스를 통해 쉽게 관리할 수 있습니다.

 

오렌지3 채널로 데이터 흐름 만들기


사용자는 위젯을 드래그하여 워크플로우를 구성하고, 입력 채널과 출력 채널을 연결하여 데이터의 흐름을 설정할 수 있습니다. 이를 통해 사용자는 데이터 분석 과정을 직관적으로 이해하고 제어할 수 있습니다.


입력 채널과 출력 채널은 Orange 3의 시각적 프로그래밍 환경에서 데이터와 작업 결과의 흐름을 제어하는 핵심 요소입니다. 이를 통해 사용자는 복잡한 데이터 분석 과정을 단순하게 구성하고 관리할 수 있으며, 원하는 결과를 얻을 수 있습니다.

 

2. 주요 위젯 설명

 

1) Data : File 위젯

 

파일 위젯은 사용자가 입력 데이터 파일을 읽고 출력 채널로 데이터셋을 전송할 수 있게 해주는 기능입니다. 이 위젯은 최근에 열린 파일의 기록을 유지하며, Orange에 사전 설치된 샘플 데이터셋이 포함된 디렉토리도 포함합니다.

  • 데이터 읽기: Excel(.xlsx), 단순 탭 구분(.txt), 쉼표 구분 파일(.csv) 또는 URL에서 데이터를 읽을 수 있습니다.
  • 데이터 파일 탐색: 이전에 열었던 데이터 파일을 탐색하거나 샘플 중 하나를 로드할 수 있습니다.
  • 데이터 파일 다시 로드: 현재 선택된 데이터 파일을 다시 로드할 수 있습니다.
  • URL로부터 데이터 삽입: Google Sheets를 포함한 URL 주소에서 데이터를 삽입할 수 있습니다.
  • 로드된 데이터셋 정보: 데이터셋 크기, 데이터 특징의 수 및 유형에 대한 정보를 제공합니다.
  • 데이터 특징 추가 정보: 특징은 더블 클릭하여 편집할 수 있으며, 사용자는 속성 이름을 변경하고, 각 속성에 대한 변수 유형(연속, 명목, 문자열, 날짜시간)을 선택하고, 속성을 어떻게 추가 정의할지(특징, 대상 또는 메타로) 결정할 수 있습니다. 속성을 무시하기로 결정할 수도 있습니다.

 

2) Data : CSV File Import 위젯

 

CSV 파일 가져오기 위젯은 쉼표로 구분된 파일을 읽고 데이터셋을 출력 채널로 전송하는 도구입니다. 이 위젯은 파일 구분자로 쉼표, 세미콜론, 공백, 탭 또는 수동으로 정의된 구분자를 사용할 수 있으며, 가장 최근에 열린 파일의 기록을 유지합니다.

  • 데이터 가져오기: 폴더 아이콘을 클릭하여 로컬 .csv 파일을 가져올 수 있으며, 새로운 데이터를 로드하거나 기존 파일을 변경할 수 있습니다.
  • 가져온 데이터셋 정보: 인스턴스(행), 변수(특징 또는 열) 및 메타 변수(특별한 열)의 수에 대한 정보를 보고합니다.
  • 가져오기 옵션: 가져오기 대화 상자를 다시 열어 구분자, 인코딩, 텍스트 필드 등을 설정할 수 있습니다. "취소"를 누르면 데이터 가져오기가 중단되고, "다시 로드"를 누르면 원본 파일에서 변경된 데이터를 추가하여 파일을 다시 가져옵니다.

CSV File Import 위젯

 

3) Data : Datasets 위젯

 

데이터셋 위젯은 온라인 저장소에서 데이터셋을 로드하는 기능을 제공합니다. 이 위젯은 선택된 데이터셋을 서버에서 검색하여 출력으로 전송합니다. 파일은 로컬 메모리에 다운로드되므로 인터넷 연결 없이도 즉시 사용할 수 있습니다. 각 데이터셋은 데이터 크기, 인스턴스 수, 변수 수, 대상 및 태그에 대한 설명과 정보를 제공합니다.

Datasets 위젯

 

3) Visualize 위젯

 

Orange 3의 Visualize Widget은 데이터를 시각화하여 변수 간의 관계나 데이터의 패턴을 쉽게 이해할 수 있도록 도와주는 도구입니다. 주요 기능은 다음과 같습니다.

데이터 시각화: 

- Visualize Widget은 다양한 시각화 기법을 제공하여 데이터의 특성을 살펴볼 수 있습니다. 이를 통해 데이터의 구조를 이해하고 변수 간의 상관 관계를 파악할 수 있습니다.

시각화 유형:
- Scatter Plot: 데이터 포인트를 산점도로 시각화하여 변수 간의 관계를 확인할 수 있습니다.
- Box Plot: 데이터의 분포를 상자 수염 그림으로 시각화하여 중앙값, 사분위수, 이상치 등을 파악할 수 있습니다.
- Heat Map: 데이터의 상관 관계를 열지도 형태로 시각화하여 변수 간의 패턴을 확인할 수 있습니다.

 

사용자 친화적 인터페이스: 

- Visualize Widget은 직관적이고 사용하기 쉬운 인터페이스를 제공합니다. 데이터를 시각화하는 과정이 간편하며, 사용자가 시각화 결과를 쉽게 이해할 수 있도록 도와줍니다.

상호작용: 

- Visualize Widget은 사용자가 시각화 결과를 상호작용적으로 탐색할 수 있는 기능을 제공합니다. 데이터 포인트를 클릭하거나 드래그하여 관심 있는 부분을 확대하거나 필터링할 수 있습니다.

시각화 저장 및 내보내기: 

- 시각화 결과를 이미지 파일로 저장하거나 다른 형식으로 내보내는 기능을 제공합니다. 이를 통해 사용자는 시각화 결과를 문서에 삽입하거나 보고서로 활용할 수 있습니다.

 

시각화 위젯

 


이러한 기능들을 통해 Visualize Widget은 데이터 분석 작업을 보다 효율적으로 수행할 수 있도록 도와줍니다. 사용자는 데이터를 시각적으로 탐색하고 인사이트를 발견하여 데이터에 대한 깊은 이해를 얻을 수 있습니다.

 

다음 편에 계속 ...