본문 바로가기
SMALL

전체 글142

7. Deadlock -The Deadlock Problem Deadlock(교착상태) 그림과 같이 누군가 희생을 하지 않고 자원(길목)을 가지고 있으면서 상대방의 자원(다른 길목)을 요구하는 상황 일련의 프로세스들이 서로가 가진 자원을 기다리며 block된 상태 Resource(자원) 하드웨어, 소프트웨어 등을 포함하는 개념 (ex : I/O device, CPU cycle, semaphore 등) 프로세스가 자원을 사용하는 절차 (Request, Allocate, Use, Release) Deadlock Example 1 시스템에 2개의 tape drive가 있다. 프로세스 P1과 P2 각각이 하나의 tape drive를 보유한 채 다른 하나를 기다리고 있다. Deadlock Example 2 Binary semaphor.. 2023. 5. 25.
데이터 전처리 기계학습을 위한 데이터 전처리 방법들 (feat. 사이킷런) 이상치 및 결측치 대체 방법 0으로 대체 np.isnan à np.nan_to_num 평균값 or 중앙값 or 최빈값으로 대체 sklearn의 SimpleImputer 클래스 활용 회귀 대체 IterativeImputer 클래스 및 LinearRegression 활용 KNN 대체 KNNImputer 클래스 활용 이상치 탐지 방법 이상치는 데이터 분석을 방해하거나 잘못된 결론을 내리는 원인이 될 수 있음 이상치를 찾아내어 제거하거나 대체함으로써, 데이터 분석 결과의 신뢰성을 향상 이상치 탐지 특징 ​ 코드​ Isolation Forest - 데이터 포인트들을 분리하기 위한 트리를 생성 - 각 데이터 포인트가 얼마나 적은 트리를 통과하는지를 이용하.. 2023. 5. 2.
9장_텍스트 감정 분석하기 한국어 텍스트를 분석하기 위한 방법과 영화 리뷰에 대하ㄴ 감정을 판단하는 딥러닝 모델 생성이 목표 1. 텍스트 감정 분석이란 소셜이나 포털에서 사용자가 작성한 글을 직접적인 의미의 '좋다', '싫다'로 구분할 수 있음 시장을 분석할 때 주가, 금리나 일자리 늘어남을 긍정/부정 신호로 구분할 수 있음 2. 순환 신경망을 이용한 감정 분석 [딥러닝을 위한 감정 분석의 이해] 감정분석에는 어휘기반 사전 구축, 지도학습 등의 방법이 있지만 이번 장에서는 딥러닝 기법을 사용할 것 단어를 벡터화하고 이를 순환신경망 중 LSTM기법을 사용하여 감정분석을 수행 위의 그림과 같이 문장이 제시 되었을 때 띄어쓰기 단위로 단어 임베딩하면 4개의 벡터가 생성됨. 4개의 입력값은 순환 신경망의 각 시점마다 순차적으로 입력 코드.. 2023. 3. 28.
8장_워드투벡을 이용한 자연어 처리 이전 내용에서는 기존의 단어 임베딩(Word Embedding)을 원핫 인코딩(one-hot encoding)방식을 사용함. https://yuna96.tistory.com/133 7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 yuna96.tistory.com 이 방식은 단어 사전이 무한대로 길어지는 단점이 있으며 대부분 0으로 표시되어 의미 없는 메모리를 차지함. 또한 단어 간의 의미론적 차이와 연관 관계를 이해할 수 없음 이러한 문제를 해결하기 위해 단어를 다차원 공.. 2023. 3. 19.
7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 널리 사용되고 있는 상용화된 자연어 처리 영역 사용자가 입력한 용어나 문장에 대해 가장 유사한 문서를 찾아 순위를 매겨 사용자에게 제시하는 시스템 에이전트(Agent)라고 하는 로봇이 인터넷상의 웹 페이지를 방문하여 검색 가능하도록 인덱싱(indexing)하는 정보 수집 과정과 수집된 정보에 대해 사용자의 검색어와 연관성을 계산하는 랭킹 모델이 핵심 단순히 키워드 검색 뿐만 아니라 문맥, 산업별 전문용어 및 유사어, 관련성 등을 고려한 검색 서비스.. 2023. 3. 3.
6장_텐서플로를 이용한 이미지 객체 추출 객체 인식 이미지 또는 비디오상의 객체를 식별하는 컴퓨터 비전 기술 사용처 : 물리보안, 얼굴인식, 번호판인식, 문자인식 등 객체 추출 이미지 분석에서 다양한 응용 과정으로 진화하기 위한 기반 기술 모델 학습 시 방대한 이미지와 많은 수의 컴퓨터가 필요하기 대문에 직접 학습을 수행하기보다는 기존 학습된 모델을 활용하거나 전이 학습(Transfer Learning)을 통해 수정해서 사용하는 편이 더욱 효과적임 최신 딥러닝 기법 : R-CNN, Fast R-CNN, Faster R-CNN, R-FCN, YOLO, SSD 등 에트리(ETRI)에서 정리한 '딥러닝 기반 객체 인식 기술 동향' 참고 2023. 3. 2.
5장_딥러닝을 이용한 이미지 분류 딥러닝 개발을 하기 위한 프레임 워크 : 텐서플로, 테아노, CNTK, 파이토치 등 본 포스팅에서는 케라스(Keras)를 사용해 딥러닝을 개발할 예정 1. 딥러닝 기술의 이해 1943년 워렌 맥컬럭과 월터 피츠가 단순화된 뇌 세포의 개념을 발표하며 인간의 뇌 구조와 유사한 인공 신경망 알고리즘을 최초로 발표함 1980년대 입력층과 출력층 사이에 복수의 은닉층이 존재하는 심층 신경망 이론 등장(=오늘날의 딥러닝 형태와 유사) 최근 수많은 데이터와 처리 속도의 향상으로 인해 딥러닝 연구가 활발해짐 이미지 처리 이미지 분류(classification) : 이미지에 나타나는 전체를 학습하여 분류 이미지 분류 및 위치 검색(classification+location) : 분류된 객체가 그림 내 어디에 위치하는지 .. 2023. 2. 28.
4장_비지도학습을 이용한 군집화 비지도학습(unsupervised learning) 문제는 있지만 정답 또는 라벨(label)이 없는 데이터로 컴퓨터가 스스로 문제를 보면서 특징을 잡아내는 방법 대표적으로 군집화(clustering)를 통해 데이터에 내재된 정보를 찾음 [K-평균 알고리즘] 군집화 알고리즘 중 가장 대표적이고 오래된 알고리즘 K는 군집의 개수를 의미하며 사용자가 입력하는 유일한 입력값 ▶ K-평균 알고리즘을 구성하는 방법 몇 개의 군집으로 분류할 것인지 지정(K의 숫자는 군집의 수) 임의의 각 군집의 중심점 선택 각 벡터를 가장 가까운 군집 중심점에 연결 각 벡터와 군집 중심점 간의 거리 평균 계산 3단계의 계산 값을 고려하여 군집 중심점 업데이트 3~5단계를 특징 조건이 만족할 때까지 반복(단, 중심점 변경이 없다면 .. 2023. 2. 27.
3장_머신러닝의 이해와 지도학습을 이용한 분류 머신러닝 → 인공지능이 스스로 똑똑해질 수 있게 만드는 기술 → 데이터를 통해 컴퓨터가 '학습'을 하고 자동으로 문제를 해결 → 데이터에서 일정한 규칙을 찾아내고, 이를 바탕으로 다른 데이터를 분류하거나 미래를 예측 1. 머신러닝의 유형 머신러닝의 대표적인 세 가지 유형 지도학습 : 훈련 데이터에 정답(Label)이 있어 주어진 정답에 맞게 특징이 학습되기를 기대하는 경우에 사용 비지도학습 : 훈련 데이터에 정답이 없고 주어진 특징 내에서 분류간 서로 구분이 잘 되도록 원하는 경우에 사용 강화학습 : 학습(혹은 수집)되는 데이터에 정답은 없으나 동작하거나 반응하는 결과에 상과 벌을 주어서 스스로 진화할 수 있는 경우에 사용 아래의 그림은 머신러닝의 기술 유형을 나타낸다. * 이 책에서는 강화학습을 제외하.. 2023. 2. 21.