본문 바로가기
SMALL

분류 전체보기138

데이터 전처리 기계학습을 위한 데이터 전처리 방법들 (feat. 사이킷런) 이상치 및 결측치 대체 방법 0으로 대체 np.isnan à np.nan_to_num 평균값 or 중앙값 or 최빈값으로 대체 sklearn의 SimpleImputer 클래스 활용 회귀 대체 IterativeImputer 클래스 및 LinearRegression 활용 KNN 대체 KNNImputer 클래스 활용 이상치 탐지 방법 이상치는 데이터 분석을 방해하거나 잘못된 결론을 내리는 원인이 될 수 있음 이상치를 찾아내어 제거하거나 대체함으로써, 데이터 분석 결과의 신뢰성을 향상 이상치 탐지 특징 ​ 코드​ Isolation Forest - 데이터 포인트들을 분리하기 위한 트리를 생성 - 각 데이터 포인트가 얼마나 적은 트리를 통과하는지를 이용하.. 2023. 5. 2.
9장_텍스트 감정 분석하기 한국어 텍스트를 분석하기 위한 방법과 영화 리뷰에 대하ㄴ 감정을 판단하는 딥러닝 모델 생성이 목표 1. 텍스트 감정 분석이란 소셜이나 포털에서 사용자가 작성한 글을 직접적인 의미의 '좋다', '싫다'로 구분할 수 있음 시장을 분석할 때 주가, 금리나 일자리 늘어남을 긍정/부정 신호로 구분할 수 있음 2. 순환 신경망을 이용한 감정 분석 [딥러닝을 위한 감정 분석의 이해] 감정분석에는 어휘기반 사전 구축, 지도학습 등의 방법이 있지만 이번 장에서는 딥러닝 기법을 사용할 것 단어를 벡터화하고 이를 순환신경망 중 LSTM기법을 사용하여 감정분석을 수행 위의 그림과 같이 문장이 제시 되었을 때 띄어쓰기 단위로 단어 임베딩하면 4개의 벡터가 생성됨. 4개의 입력값은 순환 신경망의 각 시점마다 순차적으로 입력 코드.. 2023. 3. 28.
8장_워드투벡을 이용한 자연어 처리 이전 내용에서는 기존의 단어 임베딩(Word Embedding)을 원핫 인코딩(one-hot encoding)방식을 사용함. https://yuna96.tistory.com/133 7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 yuna96.tistory.com 이 방식은 단어 사전이 무한대로 길어지는 단점이 있으며 대부분 0으로 표시되어 의미 없는 메모리를 차지함. 또한 단어 간의 의미론적 차이와 연관 관계를 이해할 수 없음 이러한 문제를 해결하기 위해 단어를 다차원 공.. 2023. 3. 19.
7장_한글 자연어 처리 자연어 처리 기술(NLP, Natural Language Processing) : 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 기술 1. 자연어 처리 분야 정보 검색(Information Retrieval Service) 가장 널리 사용되고 있는 상용화된 자연어 처리 영역 사용자가 입력한 용어나 문장에 대해 가장 유사한 문서를 찾아 순위를 매겨 사용자에게 제시하는 시스템 에이전트(Agent)라고 하는 로봇이 인터넷상의 웹 페이지를 방문하여 검색 가능하도록 인덱싱(indexing)하는 정보 수집 과정과 수집된 정보에 대해 사용자의 검색어와 연관성을 계산하는 랭킹 모델이 핵심 단순히 키워드 검색 뿐만 아니라 문맥, 산업별 전문용어 및 유사어, 관련성 등을 고려한 검색 서비스.. 2023. 3. 3.
6장_텐서플로를 이용한 이미지 객체 추출 객체 인식 이미지 또는 비디오상의 객체를 식별하는 컴퓨터 비전 기술 사용처 : 물리보안, 얼굴인식, 번호판인식, 문자인식 등 객체 추출 이미지 분석에서 다양한 응용 과정으로 진화하기 위한 기반 기술 모델 학습 시 방대한 이미지와 많은 수의 컴퓨터가 필요하기 대문에 직접 학습을 수행하기보다는 기존 학습된 모델을 활용하거나 전이 학습(Transfer Learning)을 통해 수정해서 사용하는 편이 더욱 효과적임 최신 딥러닝 기법 : R-CNN, Fast R-CNN, Faster R-CNN, R-FCN, YOLO, SSD 등 에트리(ETRI)에서 정리한 '딥러닝 기반 객체 인식 기술 동향' 참고 2023. 3. 2.
5장_딥러닝을 이용한 이미지 분류 딥러닝 개발을 하기 위한 프레임 워크 : 텐서플로, 테아노, CNTK, 파이토치 등 본 포스팅에서는 케라스(Keras)를 사용해 딥러닝을 개발할 예정 1. 딥러닝 기술의 이해 1943년 워렌 맥컬럭과 월터 피츠가 단순화된 뇌 세포의 개념을 발표하며 인간의 뇌 구조와 유사한 인공 신경망 알고리즘을 최초로 발표함 1980년대 입력층과 출력층 사이에 복수의 은닉층이 존재하는 심층 신경망 이론 등장(=오늘날의 딥러닝 형태와 유사) 최근 수많은 데이터와 처리 속도의 향상으로 인해 딥러닝 연구가 활발해짐 이미지 처리 이미지 분류(classification) : 이미지에 나타나는 전체를 학습하여 분류 이미지 분류 및 위치 검색(classification+location) : 분류된 객체가 그림 내 어디에 위치하는지 .. 2023. 2. 28.
LIST