Data Management 28

자료구조

Array 자료구조란? 메모리의 연속된 장소에 저장된 원소들의 집합이다. 같은 타입의 원소들을 저장한다. 각 원소의 위치를 계산하기가 쉽다. List 자료구조란? Pointer가 없는 Array가 List 이다. Linked List 자료구조란? Linear 데이터 구조이다. 원소는 메모리의 연속된 장소에 저장되지 않는다. 스스로를 참조하는 포인터를 가지고 있는 것이 LInked LIst이다. 포인터는 List의 다음 노드 주소를 가지고 있다. Stack 자료구조란? Linear 데이터 구조이다. LIFO(Last In First Out) 또는 FILO(First In Last Out) 순서를 따른다. 삽입이나 삭제는 한쪽에서만 일어난다. Queue 자료구조란? Linear 데이터 구조이다. FIFO(F..

정보 2022. 11. 4. 12:21

머신러닝 - 편향(Bias)과 분산(Variance)이란?

편향(Bias) 의미 알고리즘을 만들 때 트레이닝 데이터 세트 중 특정 컬럼만 사용하는 것을 말한다. 예를 들어, 트레이닝 데이터 세트에 5개의 컬럼이 있을 때, 이중 1개만 사용한다. 실제로는 나머지 4개의 컬럼도 예측 결과에 영향을 주나, 알고리즘이 이를 간과하는 것이다. 그러므로, 편향은 예측 결과가 예상 결과와 다르게 한다. 편향이 높으면 데이터와 안맞는 과일반화, 과단순화, 과소적합 하는 특징이 있다. 분산(Variance) 의미 편향과 반대로 데이터의 모든 컬럼을 사용하는 것을 말한다. 예를 들면, 컬럼 중 필요 없는 노이즈도 사용한다. 분산이 높으면 트레이닝 데이터 세트에 과적합한다. 그러므로, 테스트 데이터 세트를 잘 예측할 수 없게 된다. 편향(Bias)과 분산(Variance)는 상충 ..

정보 2022. 11. 4. 06:45

중심 극한 정리(Central limit Theorem)란?

중심 극한 정리(Central limit theorem) 의미 확률 이론에서 표본의 수가 크다면 표본의 분산은 정규 분포와 가까워진다. 30 이상의 표본 수 이상이면 충분하다. 중심 극한 정리(Central limit theorem) 활용 큰 데이터 세트를 분석할 때 유용하다. 왜냐하면 표본의 분산의 평균이 정규 분포를 대부분 따를 것이기 때문이다. 정규 분포 의미 가우스 분포라고도 한다. 평균을 기준으로 대칭인 확률 분포이다. 평균에 가까운 데이터 평균에서 먼 데이터 보다 더 많이 발생한다. 평균은 0이고 편차는 1이다. 참고 https://www.investopedia.com/terms/n/normaldistribution.asp https://www.investopedia.com/terms/c/ce..

정보 2022. 11. 3. 23:34

이전 1 2 3 4 ··· 7 다음

이전 다음

최근에 올라온 글

최근에 달린 댓글

티스토리툴바