Array 자료구조란? 메모리의 연속된 장소에 저장된 원소들의 집합이다. 같은 타입의 원소들을 저장한다. 각 원소의 위치를 계산하기가 쉽다. List 자료구조란? Pointer가 없는 Array가 List 이다. Linked List 자료구조란? Linear 데이터 구조이다. 원소는 메모리의 연속된 장소에 저장되지 않는다. 스스로를 참조하는 포인터를 가지고 있는 것이 LInked LIst이다. 포인터는 List의 다음 노드 주소를 가지고 있다. Stack 자료구조란? Linear 데이터 구조이다. LIFO(Last In First Out) 또는 FILO(First In Last Out) 순서를 따른다. 삽입이나 삭제는 한쪽에서만 일어난다. Queue 자료구조란? Linear 데이터 구조이다. FIFO(F..

편향(Bias) 의미 알고리즘을 만들 때 트레이닝 데이터 세트 중 특정 컬럼만 사용하는 것을 말한다. 예를 들어, 트레이닝 데이터 세트에 5개의 컬럼이 있을 때, 이중 1개만 사용한다. 실제로는 나머지 4개의 컬럼도 예측 결과에 영향을 주나, 알고리즘이 이를 간과하는 것이다. 그러므로, 편향은 예측 결과가 예상 결과와 다르게 한다. 편향이 높으면 데이터와 안맞는 과일반화, 과단순화, 과소적합 하는 특징이 있다. 분산(Variance) 의미 편향과 반대로 데이터의 모든 컬럼을 사용하는 것을 말한다. 예를 들면, 컬럼 중 필요 없는 노이즈도 사용한다. 분산이 높으면 트레이닝 데이터 세트에 과적합한다. 그러므로, 테스트 데이터 세트를 잘 예측할 수 없게 된다. 편향(Bias)과 분산(Variance)는 상충 ..
중심 극한 정리(Central limit theorem) 의미 확률 이론에서 표본의 수가 크다면 표본의 분산은 정규 분포와 가까워진다. 30 이상의 표본 수 이상이면 충분하다. 중심 극한 정리(Central limit theorem) 활용 큰 데이터 세트를 분석할 때 유용하다. 왜냐하면 표본의 분산의 평균이 정규 분포를 대부분 따를 것이기 때문이다. 정규 분포 의미 가우스 분포라고도 한다. 평균을 기준으로 대칭인 확률 분포이다. 평균에 가까운 데이터 평균에서 먼 데이터 보다 더 많이 발생한다. 평균은 0이고 편차는 1이다. 참고 https://www.investopedia.com/terms/n/normaldistribution.asp https://www.investopedia.com/terms/c/ce..

정규화(Regularization) 의미 결과를 복잡성을 낮춰주는 과정이다. 과적합을 막기 위해 사용된다. 정규화 종류 1.L1 : Lasso Regression 이라고 한다. 비용 함수의 정규항의 가중치(Wj)에 절대 값을 추가 한다. 2.L2 : Weight decay 또는 Ridge Regression 이라고 한다. 비용 함수의 정규항의 가중치(Wj)에ㅇ 제곱값을 추가한다. 가장 일반적인 정규화방법이다. 참고 https://towardsdatascience.com/regularization-in-deep-learning-l1-l2-and-dropout-377e75acc036 https://builtin.com/data-science/l2-regularization https://medium.com/..
Searching 알고리즘 의미 정렬되어 있는 자료구조에서 원소를 찾는 방법이다. Searching 알고리즘 분류 1.Linear Search 가장 쉬운 Searching 알고리즘이다. Sequential Search 알고리즘이다. 리스트의 한쪽 끝에서 시작해서 원소를 찾을 때가지 진행한다. 2.Binary Search 배열을 반으로 나눠서 찾는 것을 반복한다. 배열이 정렬됐다는 정보를 이용해서 시간 복잡도를 O(Log n base 2)으로 줄인다. 3.Ternary Search 배열을 3개로 나눠서 찾는 것을 반복한다. Binary Search와 비슷하나 시간 복잡도가 O(Log n base 3)가 줄어든다는 차이가 있다. 4.Jump Search 일정 간격으로 건너 뛰면서 찾는 것을 반복한다. 성능은..
Sorting 알고리즘 의미 배열의 원소들을 정렬하는 방법이다. Sorting 알고리즘 분류 1.Selection Sort 알고리즘 오름차순으로 정렬할 경우, 배열에서 가장 작은 원소를 찾는다. 그 원소를 배열의 맨 앞에 위치한 원소와 바꾼다. 배열의 두번째 원소도 같은 방법으로 바꾼다. 이 절차를 배열의 끝까지 반복한다. 2.Bubble Sort 알고리즘 가장 간단한 sorting 알고리즘이다. 인접한 원소의 순서가 잘못되었다면 교환을 반복한다. 첫번째 원소와 두번째 원소를 비교해서 바꾼다. 두번째 원소와 세번째 원소를 비교해서 바꾼다. 이렇게 배열의 끝까지 비교해서 바꾼다. 그리고 다시 배열의 첫번째 원소로 돌아와 반복한다. average와 worst-case 시간 복잡도가 크기 때문에, 큰 데이터에..

자료구조 의미 컴퓨터에는 저장소가 있다. 자료구조란 이 저장소에 데이터가 저장되어 있는 구조를 말한다. 저장한 데이터를 다시 조회하고 수정 하기 위해서 자료구조를 알아야 한다. 자료구조 분류 Linear 자료구조는 데이터가 연달아 저장되어 있는 구조이다. Linear 자료구조는 Static 자료구조와 Dynamic 자료구조로 나뉜다. Static 자료구조는 메모리 사이즈 고정이고, Dynamic 자료구조 메모리 사이즈 변동 된다. 예) array, queue, stack Non-linear 자료구조는 데이터가 연달아 저장되어 있지 않는 구조이다. 예) tree, graphs 참고 https://www.geeksforgeeks.org/data-structures/?ref=shm
하둡 독자모드 설치하기wget https://archive.apache.org/dist/hadoop/core/hadoop-1.0.3/hadoop-1.0.3.tar.gz 를 터미널에 입력하여 하둡을 다운로드 한다. 하둡의 버전중에 1.0.3을 이용한다. 아파치 재단의 미러 사이트들에서 다운 받을 수 있다. 하지만 미러 사이트에서 해당 버전이 없어질 수도 있기 때문에 아파치의 아카이브 사이트에서 다운 받는다.ls -l 를 입력하여 하둡이 다운로드 된것을 확인한다. tar xvfz Hadoop-1.0.3.tar.gz 를 입력하여 압축을 풀면 아래와 같이 완료된다. 이후 export를 사용하여 하둡 프로그램의 위치를 HADOOP_HOME이란 환경변수에 저장하기 위해 export HADOOP_HOME=/home/..
1. vi로 파일 열기text editor인 vi로 편집을 하기 위해서는 vi 파일이름 을 입력한다. 2. vi의 두가지 모드vi는 명령 모드인 command mode(커서 움직이기, 삭제하기 등의 기능 모드)와 입력 모드인 insert mode(글 입력하기 기능 모드)가 있다. vi는 명령 모드로 시작된다. 3. vi의 명령 모드커서를 움직이기 위해서는 명령 모드로 되어야 된다. esc 를 입력한다. 만약 명령 모드인지 입력 모드 인지 모르면 esc 를 두번 누른다. 삡 소리가 나면 명령 모드 이다.h 왼쪽으로 이동j 밑에 줄로 이동k 위에 줄로 이동l 오른쪽으로 이동w 한 단어 오른쪽으로 이동b 한 단어 왼쪽쪽으로 이동f 한 화면 아래로 이동b 한 화면 위로 이동 글자 삭제를 원할시 삭제를 원하는 글..
합격 후기 나는 첫번째 본 시험에는 합격하지 못했다. 두번째 응시에 붙었다. 첫번 째 응시에 합격하지 못한 이유로는 비전공자로서 "SQL"이라는 개념 자체가 없었던 탓이 크다. 개념을 익히는데 "생활코딩"의 SQL 부분 강의를 듣는 것이 도움이 되었다. 강의를 들은 다음에는 가이드 책을 읽고 실전문제의 문제를 풀었다. SQLD같은 경우는 이론적인 부분이 중점을 이룬다. 실무와는 거리가 조금 있다. 하지만 여기에서 익힌 개념은 하둡과도 연결되는 부분이 있다. 확실히 이해하고 넘어가면 데이터분석 분야에 많은 도움이되는 시험이다. 첨부한 문서는 SQL 전문가 가이드의 목차를 기준으로 내가 집적 요약 정리한 내용이다. 노란색 형관색 부분은 시험에 나온 것이거나 SQL 자격검정 실전문제에 나온 개념들이다. 공부 ..