SQLのWHERE句でレコードの存在チェックを行う時などの表現を、IN句でもEXISTS句でも行えるが、EXISTS句は条件に一致するレコードが1件でもあればそこで処理を終了するのに比べて、IN句は条件に当てはまるデータを全て抽出するため、EXISTS句を利用した方が処理が速くなることが多い。
今回は、WHERE句内でIN句を利用した場合とEXISTS句を利用した場合それぞれで、SQLの実行速度を測定するプログラムを作成してみたので、共有する。
なお、SQL文の性能改善を行う方法については、以下のサイトを参照のこと。
https://sites.google.com/site/orapeform/sql_minaoshi
前提条件
下記記事の実装が完了していること。
サンプルプログラムの作成
作成したサンプルプログラムの構成は、以下の通り。
なお、上記の赤枠は、前提条件のプログラムから変更したプログラムである。
Mapperインタフェース・Mapper XMLの内容は以下の通りで、IN句を利用した場合・EXISTS句を利用した場合それぞれで、生年月日が基準日と一致するデータを取得するSQLを用意している。
package com.example.demo; import org.apache.ibatis.annotations.Mapper; import java.util.Date; import java.util.List; @Mapper public interface UserDataMapper { /** * 指定したIDをもつユーザーデータテーブル(user_data)のデータを取得する * @param id ID * @return ユーザーデータテーブル(user_data)の指定したIDのデータ */ UserData findById(Long id); /** * IN句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と * 一致するデータを全件取得する * @param basicDate 基準日 * @return ユーザーデータテーブル(user_data)のリスト */ List<UserData> findByBirthdayIn(Date basicDate); /** * EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と * 一致するデータを全件取得する * @param basicDate 基準日 * @return ユーザーデータテーブル(user_data)のリスト */ List<UserData> findByBirthdayExists(Date basicDate); }
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace="com.example.demo.UserDataMapper"> <resultMap id="userDataResultMap" type="com.example.demo.UserData" > <id column="id" property="id" jdbcType="BIGINT" /> <result column="name" property="name" jdbcType="VARCHAR" /> <result column="birth_year" property="birthY" jdbcType="VARCHAR" /> <result column="birth_month" property="birthM" jdbcType="VARCHAR" /> <result column="birth_day" property="birthD" jdbcType="VARCHAR" /> <result column="sex" property="sex" jdbcType="VARCHAR" /> <result column="memo" property="memo" jdbcType="VARCHAR" /> </resultMap> <select id="findById" parameterType="java.lang.Long" resultMap="userDataResultMap"> SELECT id, name, birth_year, birth_month, birth_day, sex, memo FROM USER_DATA WHERE id = #{id} </select> <select id="findByBirthdayIn" parameterType="java.util.Date" resultMap="userDataResultMap"> SELECT u1.id, u1.name, u1.birth_year, u1.birth_month, u1.birth_day , u1.sex, u1.memo FROM USER_DATA u1 WHERE u1.id IN ( SELECT u2.id FROM USER_DATA u2 WHERE TO_DATE(TO_CHAR(u2.birth_year) || LPAD(TO_CHAR(u2.birth_month), 2, '0') || LPAD(TO_CHAR(u2.birth_day), 2, '0'), 'yyyyMMdd') = #{date} ) </select> <select id="findByBirthdayExists" parameterType="java.util.Date" resultMap="userDataResultMap"> SELECT u1.id, u1.name, u1.birth_year, u1.birth_month, u1.birth_day , u1.sex, u1.memo FROM USER_DATA u1 WHERE EXISTS ( SELECT u2.id FROM USER_DATA u2 WHERE u2.id = u1.id AND TO_DATE(TO_CHAR(u2.birth_year) || LPAD(TO_CHAR(u2.birth_month), 2, '0') || LPAD(TO_CHAR(u2.birth_day), 2, '0'), 'yyyyMMdd') = #{date} ) </select> </mapper>
また、サービスクラスのサブクラスの内容は以下の通りで、それぞれのSQLを呼び出し、それぞれの実行時間を表示するようにしている。
package com.example.demo; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Service; import java.util.Calendar; import java.util.List; @Service public class DemoServiceSub { /** * ユーザーデータテーブル(user_data)へアクセスするマッパー */ @Autowired private UserDataMapper userDataMapper; /** * 性能検証を行うための個別サービス */ public void verifyPerformanceEach() { // 初回DB接続時は時間がかかるため、あえて性能測定対象外のSQLを1度実行しておく userDataMapper.findById(Long.valueOf(1)); // 検索時に利用する基準日(2012/1/20)を生成する Calendar basicDate = Calendar.getInstance(); basicDate.set(2012, 0, 20, 0, 0, 0); basicDate.set(Calendar.MILLISECOND, 0); System.out.println("--- IN句を使って、ユーザーデータテーブル(user_data)の生年月日" + "が基準日と一致するデータを全件取得するSQLを実行します start. ---"); // 処理前の現在時刻を取得 long startTime = System.currentTimeMillis(); // IN句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と // 一致するデータを全件取得する List<UserData> userDataList = userDataMapper.findByBirthdayIn(basicDate.getTime()); // 処理後の現在時刻を取得 long endTime = System.currentTimeMillis(); System.out.println("取得件数 : " + userDataList.size()); System.out.println("処理時間:" + (endTime - startTime) + " ms"); System.out.println("--- IN句を使って、ユーザーデータテーブル(user_data)の生年月日" + "が基準日と一致するデータを全件取得するSQLを実行します end. ---"); System.out.println(); System.out.println("--- EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日" + "が基準日と一致するデータを全件取得するSQLを実行します start. ---"); // 処理前の現在時刻を取得 startTime = System.currentTimeMillis(); // EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と // 一致するデータを全件取得する userDataList = userDataMapper.findByBirthdayExists(basicDate.getTime()); // 処理後の現在時刻を取得 endTime = System.currentTimeMillis(); System.out.println("取得件数 : " + userDataList.size()); System.out.println("処理時間:" + (endTime - startTime) + " ms"); System.out.println("--- EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日" + "が基準日と一致するデータを全件取得するSQLを実行します end. ---"); System.out.println(); } }
その他のソースコード内容は、以下のサイトを参照のこと。
https://github.com/purin-it/java/tree/master/spring-boot-oracle-performance-in-exists/demo
サンプルプログラムの実行結果
サンプルプログラムの実行結果は以下の通りで、IN句よりEXISTS句を利用した方が、SQLが速くなることが確認できる。
1) 以下を実行し、USER_DATAテーブルに、生年月日が2012/1/20のデータ50,000件と、生年月日が2012/1/21のデータ50,000件のデータを、それぞれ追加する。
begin execute immediate 'TRUNCATE TABLE user_data'; for i in 1..25000 loop INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i) , 2012, 1, 20, TO_CHAR(MOD(i, 2) + 1), 'テスト'); end loop; for i in 25001..50000 loop INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i) , 2012, 1, 21, TO_CHAR(MOD(i, 2) + 1), 'テスト'); end loop; for i in 50001..75000 loop INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i) , 2012, 1, 20, TO_CHAR(MOD(i, 2) + 1), 'テスト'); end loop; for i in 75001..100000 loop INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i) , 2012, 1, 21, TO_CHAR(MOD(i, 2) + 1), 'テスト'); end loop; COMMIT; end; /
実行後、以下のように、レコード数が100,000件で、そのうち、生年月日が2012/1/20であるデータが50,000件になっていることが確認できる。
select count(*) from user_data where to_date(TO_CHAR(birth_year) || LPAD(TO_CHAR(birth_month), 2, '0') || LPAD(TO_CHAR(birth_day), 2, '0'), 'yyyyMMdd') = '2012/01/20'
2) 1)の状態でSpring Bootのメインクラス(DemoApplication.java)を実行した結果、コンソールログに出力される内容は以下の通り。
要点まとめ
- SQLのWHERE句でIN句でもEXISTS句の両方が利用できる場合、EXISTS句は条件に一致するレコードが1件でもあればそこで処理を終了するのに比べて、IN句は条件に当てはまるデータを全て抽出するため、EXISTS句を利用した方が処理が速くなることが多い。