데이터 과학의 기본 빌딩 블록
1. 데이터
데이터는 데이터 과학의 매우 기본적인 요소이며 다양한 유형의 데이터가 있습니다.
데이터는 범주적 또는 정성적 데이터와 수치적 또는 정량적 데이터로 구분됩니다.
.
범주형 또는 정성적 데이터기술 정보를 기반으로 하며 세 가지 유형이 있습니다.
• 이항 데이터 : 양호 또는 불량, 참/거짓 등 두 가지 옵션만 있는 변수 데이터
• 명목 데이터 또는 정렬되지 않은 데이터 : red, green, man과 같이 정렬되지 않은 형태의 변수 데이터
• 서수 데이터 : 적절한 순서의 데이터(예: short, medium, long)
숫자 또는 양적 데이터숫자 정보를 기반으로 하며 다음과 같이 나뉩니다.
• 이산 데이터 : 이 데이터는 셀 수 있습니다.
예: 자녀 수, 정수
• 연속 데이터 : 측정 가능한 데이터입니다.
예: 높이, 너비, 길이
연속 데이터에는 두 가지 유형이 있습니다.
영형 간격 : 실제 0이 아님(예: 온도 부재)
영형 비율 : 절대 0 예 높이가 0이 될 수 있음
2. 빅데이터
빅 데이터는 거대한 데이터 세트로 구성됩니다.
이러한 데이터 세트는 추세, 인간 행동 및 상호 작용을 나타내기 위해 분석되고 시각화됩니다.
빅 데이터의 좋은 예는 페이스북과 같은 소셜 미디어 사이트로 매일 수백 테라바이트의 데이터가 텍스트, 오디오, 비디오, 이미지 등의 형태로 추가됩니다.
3. 기계 학습
기계 학습은 시스템이 사람의 개입 없이(지속적으로) 데이터 세트를 처리할 수 있도록 하는 데이터 과학의 일부입니다.
다양한 소스와 예측, 분석 패턴 및 권장 사항에서 생성된 방대한 양의 데이터에서 작동하기 위해 다양한 알고리즘을 활용합니다.
기계 학습의 실제 사례는 사기 탐지 및 고객 유지에 사용하는 것입니다.
기계 학습에는 세 가지 유형이 있습니다.
• 지도 머신 러닝 : 레이블이 지정된 데이터 세트를 사용하고 입력 및 출력 변수를 사용하여 결과를 생성합니다.
• 비지도 머신 러닝 : 레이블이 지정되지 않은 데이터 세트를 사용하고 입력 변수만 사용하며 출력 변수는 사용하지 않습니다.
• 강화 학습 : 감독된 머신러닝과는 다르며, 보상을 극대화하기 위해 특정 상황에서 적절한 조치를 취하는 것입니다.
4. 통계 및 확률
통계 및 확률은 데이터 과학의 필수 요소로 간주되어 데이터 과학 및 확률의 수치 기반을 만듭니다.
통계에 대한 기본적인 지식 없이는 데이터 사이언스를 하기 어렵다.
5. 프로그래밍 언어
프로그래밍 언어, 특히 Python 및 R은 데이터 구성, 시각화 및 데이터 조사에서 중요한 역할을 합니다.
Python은 데이터 분석을 위한 무료 라이브러리를 제공하는 고급 프로그래밍 언어입니다.
Python은 데이터 과학자들 사이에서 인기가 있습니다.
R은 또 다른 대중적인 언어입니다.
R의 가장 큰 특징은 데이터 시각화입니다.
이 언어는 주로 소셜 미디어 게시물을 분석하는 데 사용됩니다.
Java 8과 같은 데이터 과학을 지원하는 다른 언어가 있습니다.
SQL은 정형 데이터에 사용되며 NoSQL은 비정형 데이터에 사용됩니다.