데이터 과학자를위한 SQL을 배우는 가장 좋은 방법 : 1 부
이 게시물에는 제휴사 링크가 포함되어있을 수 있습니다. 자세한 내용은 공개 를 읽으십시오.
독서 시간 : 4 분
SQL은 모든 데이터 과학자에게 가장 필수적인 기술 중 하나입니다. 기본 데이터 마이닝, 기본 SQL 지식을 통해 모든 데이터 과학자를위한 숨겨진 매개 변수와 훨씬 더 일상적인 작업을 쉽게 찾을 수 있습니다. 만약 당신이 데이터 과학의 초보자이고 데이터 과학 을위한 SQL을 배우는 가장 좋은 방법을 찾고 있다면 그것은 당신에게 가장 적합한 장소가 될 것입니다. 파티를 즐기시면 완전한 기사를 읽어보십시오. 시간이 많이 걸리지 않을 것을 약속드립니다.
데이터 과학자를위한 SQL을 배우는 가장 좋은 방법
우리는 다양한 학습 단계로 완전한 학습을 설계했습니다
- 스키마 생성 (DDL)
- 데이터베이스에 데이터 삽입 / 업데이트
- 복잡한 쿼리 및 결과 예측
우리는이 기사에서 주먹과 두 번째 단계 만 끝내려고 노력할 것이다. 복잡한 쿼리와 결과 프로젝션 부분은 다음 기사에서 다룰 것입니다. 앞으로 나아 가기 전에 기사를 살펴 보는 것이 좋습니다 . 데이터 과학에서 SQL을 사용하는 것이 왜, 어떻게 중요한지 아십시오.
1. 스키마 생성 (DDL)
관계형 데이터베이스를 사용하는 데이터 과학 프로젝트를 수행하고 있다고 가정합니다. 두 가지 상황이있을 수 있음을 명심하십시오.
- 데이터가 없으며 외부 소스에서 데이터를 가져오고 있습니다. 이제 일부 SQL 기반 데이터베이스에 덤프해야합니다. 여기에는 스키마 생성 섹션이 필요합니다.
- 두 번째 상황에서는 기존 데이터베이스에 데이터가 있습니다. 당신이해야 할 일은 쿼리를 실행하는 것입니다 . 이 경우이 섹션은 더 이상 사용되지 않습니다. 복잡한 쿼리 및 결과 프로젝션 섹션으로 직접 이동할 수 있습니다.
기존 데이터베이스가 없으면 새 데이터베이스를 만들어야합니다.
데이터베이스를 생성하는 SQL 쿼리 :
데이터베이스 생성 testDB; // 여기 testDB는 데이터베이스 이름입니다
테이블을 생성하는 SQL 쿼리 :
CREATE TABLE test_table (
Col1 데이터 유형 제약 조건,
Col2 데이터 유형 제약 조건,
Col3 데이터 유형 제약 조건,
Col4 데이터 유형 제약
);
여기서 데이터 유형은 varchar, int 등입니다.
기타 필수 DDL 명령 –
다음과 같은 다른 중요한 DDL 명령은 거의 없습니다.
1. ALTER
2. 드롭
3. 절단
SQL의 제약 조건 –
테이블을 만들 때 제약 조건을 추가할지 여부에 대한 옵션이 있습니다. DDL 스크립트에 제약 조건을 추가하기위한 완벽한 상황입니다. NOT NULL, UNIQUE, PRIMARY KEY, FORIEGN KEY, CHECK, DEFAULT, INDEX는 SQL에서 가능한 제한 조건입니다 .
2. 데이터베이스에 데이터 삽입 / 업데이트
스키마를 성공적으로 만든 후. 데이터를로드 할 시간입니다. 이것은 SQL에서 가장 쉬운 작업 중 하나입니다. 이에 대한 직접적인 명령이 있습니다 –
INSERT INTO table_name (열 1, 열 2,… .. 등) 값 (Val 1, Val 2, …… 등);
Table의 모든 열에 값을 삽입하려는 경우 다음을 사용할 수 있습니다.
INSERT INTO table_name VALUES (Val 1, Val 2, …… 등);
삽입 후 사용자 / 개발자가 표의 값을 업데이트해야하는 경우 다음에 대한 명령은 다음과 같습니다.
업데이트 Table_name
SET Column_name = 값
어디 조건;
3. 복잡한 쿼리 및 결과 투영
SQL을 배우는 가장 좋은 일련의 방법에서, 우리는 데이터베이스, 테이블을 작성하는 방법 및 테이블에 데이터를 삽입하는 방법을 알고있는 곳에 도달했습니다. 진짜 물을 맛볼 시간. 기본적으로 게시물의 위 부분은 데이터 과학자 / 데이터 분석가를위한 SQL 전제 조건의 미리보기를 제공하는 데 사용되었습니다.이 게시물에서는 SQL에서 가장 많이 사용되는 쿼리를 소개합니다.
고르다 -
테이블에서 데이터를보고 싶을 때이 명령을 사용합니다.이 명령에는 약간의 변형이 있습니다.
- 전체 테이블을 선택하려면 –
SELECT * FROM table_name;
2. 전체 테이블에서 몇 개의 열을 선택하는 경우 –
table_name에서 SELECT column_name;
3. 고유 값의 투영에서 –
SELECT DISTINCT column_name FROM table_name;
주문 -
이 문장은 결과 투영 순서를 설정하는 데 유용합니다. 열에서 오름차순 및 내림차순 정렬을 의미합니다. 당신은 그것을 언급하고 select 문의 일부를 끝내야합니다. 문법이 더 잘 이해하는데 도움이 될 것 같아요 –
SELECT * FROM table_name WHERE 조건 ORDER BY column_name;
여기서 ORDER BY 문 다음에 둘 이상의 열을 언급 할 수 있습니다. 열 이름 뒤에 ASC 또는 DESC를 추가하여 정렬을보다 구체적으로 만들 수 있습니다.
SELECT * FROM table_name WHERE 조건 ORDER BY column_name1 ASC, column_name2 DESC;
HAVING 절이있는 GROUP BY –
왜 그런지 모르겠지만 인터뷰에서 주로 SQL 쿼리가 요청됩니다. SQL에는 AVG (Column_name), SUM (Column_name), COUNT (Column_name) 등과 같은 집계 함수가 있습니다. 여기에서 이러한 결과를 특정 열별로 그룹화 할 수 있습니다. 여기에서는 HAVING query 명령과 통합 된 GROUP BY 쿼리에 대한 완전한 구문을 제공합니다.
SELECT AVG ( column_name 1), column_name 2
from table_name
WHERE 조건
GROUP BY column_name 2
HAVING 조건
ORDER BY column_name 2;
승객이 다른 나라에서 온 항공사에 예약 표가 있다고 가정합니다. 이제 특정 여행 날짜에 모든 국가의 승객을 영사하지 않으려 고합니다. 여기서 GROUP BY 명령 을 사용하여 둘러보기를 달성 할 수 있습니다 –
SELECT COUNT (passenge_id ) 국가
FROM 예약 Journydate가 = 'DD-mm-YYYY " 국가별로 기;
더 구체적으로 만들려면. 그것에 더 복잡성을 추가하자. 승객이 1000보다 크지 않은 국가 만 선택해야하는 경우 여기에 대한 쿼리가 있습니다.
SELECT COUNT (passenge_id ), 국가
로부터 예약
WHERE Journydate은 = 'DD-MM-YYYY'
국가 BY GROUP
HAVING COUNT (passenge_id )> 1000;
최종 노트
따라서 여기서는 데이터 과학에서 SQL의 필수 요소로 끝납니다. 이 기사는 5 분 안에 SQL 기술을 연마 할 수 있기 때문에 데이터 과학을위한 SQL을 배우는 가장 좋은 방법으로 언급했습니다 . 이것은 20 %의 노력으로 80 %의 결과를 줄 것입니다. 데이터 과학에서 SQL의 요구 사항을 이해하는 데 도움이 더 필요한 경우 데이터 과학을위한 SQL 사용 : 이유와 방법을 아는 문서를 참조하십시오 .
Data science Learner Newsletter의 간단한 구독으로 우리와 연결하는 것을 잊지 마십시오. 우리는 당신이 데이터 과학 세계에서 최근에 일어난 모든 것을 업데이트하도록 도와줍니다. 이 기사에 대한 피드백을 우리에게 다시 쓸 수도 있습니다. 우리는 독자의 답변을 읽는 것을 좋아합니다.